DNSグラフ上の脅威確率率率伝搬 による悪質ドメインの特定

DNSグラフ上の脅威確率率率伝搬
による悪質ドメインの特定
⾵風⼾戸 雄太 福⽥田 健介 菅原 俊治
早稲⽥田⼤大学 NII
早稲⽥田⼤大学
WIT 2015@宇奈奈⽉月温泉
2015/06/25 (木)
15/06/25
WIT2015
1
⽬目次
• 
• 
• 
• 
• 
• 
• 
背景
先⾏行行研究
研究の⽬目的
提案⼿手法
結果と考察
結論論と今後の課題
参考⽂文献
15/06/25
WIT2015
2
背景
•  Domain Name system (DNS)
–  ドメイン名とIPアドレスの変換
–  分散型⼤大規模データベース
Root DNS server
ドメイン名
[example.com]
IPアドレス
[203.0.113.5]
COM
JP
NET
...
...
...
インターネットの重要な基盤システムに注⽬目
15/06/25
WIT2015
3
DNSにおける問題点
•  DNSのドメインを利利⽤用した悪質な攻撃
–  企業のネットワークに対するDDoS攻撃 (2014/12)
–  個⼈人ユーザへの感染型ボットネット, スパムメール
•  良良性なドメインと悪質なドメイン
–  良良性なドメイン: 正規なサービスでの使⽤用
•  URL : Google.com, Facebook.com
•  ホスティングサービス : Amazonaws.com
–  悪質なドメイン: 悪意のある攻撃での使⽤用
•  ボットネット : ZeuS, Conflicker
•  スパムメール : Domain Generation Algorithm (DGA)ドメイン[1]
15/06/25
WIT2015
4
先⾏行行研究
•  DNSデータから悪質なドメインの特定
–  DNS情報, ドメインに含まれる特徴から特定[2], [3]
•  回答情報, ⽂文字列列分布, Zone情報など
•  特定率率率向上には多くの学習データが必要
•  グラフ伝搬⼿手法を⽤用いた悪質なノードの特定
–  確率率率伝搬⼿手法での悪質なマルウェアの検出[4]
–  Probability Threat Propagation (PTP) [5]
•  悪質なドメインの事前情報のみで 脅威確率率率の伝搬による悪質なドメインの特定
15/06/25
WIT2015
5
研究の⽬目的
•  “同種親和性”に基づくグラフ構造
–  同じ性質のノードが集合する傾向
Malicious
•  先⾏行行研究[5]の課題点
–  脅威確率率率の表現空間が不不⼗十分
Benign
–  事前情報として悪質なドメイン [Tips] のみ
–  web proxy logデータを使⽤用 DNSグラフ上で, 悪意のある攻撃に関連する
悪質なドメインをExtended PTP⼿手法で特定
15/06/25
WIT2015
6
提案⼿手法
•  Extended PTP⼿手法をDNSグラフ上で実施
Example.
com
192.0.2.123
–  事前情報として良良性なドメイン [Alexa] を追加
•  Alexa トップトラフィック[6], Alexaノード
–  既存⼿手法の脅威確率率率の表現空間の拡⼤大
既存⼿手法[5]
β
提案⼿手法
15/06/25
Benign
WIT2015
Benign
Malicious
Unknown
0
Unknown
γ
Malicious
7
脅威確率率率の伝搬例例
•  ⽊木構造グラフ
Tips ノード
IP
Dom
ain
15/06/25
Alexa ノード
IP
Dom
ain
IP
Dom
ain
WIT2015
IP
Dom
ain
Dom
ain
8
脅威確率率率の伝搬例例
•  脅威確率率率の初期値を設定
事前情報あり
Tips ノード
Alexa ノード
-1.0
1.0
未知なノード
0
0
15/06/25
0
0
0
0
WIT2015
0
0
0
9
脅威確率率率の伝搬例例
•  親ノードから⼦子ノードへ脅威確率率率伝搬
Tips ノード
Alexa ノード
-1.0
1.0
-0.33
0
15/06/25
-0.33
0
0.33
0
WIT2015
0.33
0
0
10
脅威確率率率の伝搬例例
•  隣隣接ノード (⼦子ノード) へ脅威確率率率伝搬
Tips ノード
Alexa ノード
-1.0
1.0
-0.33
-0.33
15/06/25
-0.33
-0.33
0.33
0
WIT2015
0.33
0.33
0.33
11
脅威確率率率の伝搬例例
•  脅威確率率率の伝搬結果
Tips ノード
Alexa ノード
-1.0
1.0
-0.38
-0.39
15/06/25
-0.32
-0.31
0.32
0
WIT2015
0.38
0.31
0.39
12
脅威確率率率の伝搬例例
•  収束後の脅威確率率率で未知なノードの判別
Tips ノード
Alexa ノード
-1.0
1.0
-0.38
-0.39
15/06/25
悪性?
-0.32
-0.31
0.32
0
WIT2015
0.38
0.31
良良性?
0.39
13
Extended PTP アルゴリズム
}
}
脅威確率率率の初期値設定
脅威確率率率の計算
Tipsとalexaノードの
CとPは初期値に戻す
Pが収束するまで計算
P: 脅威確率率率ベクトル W: エッジ重み⾏行行列列
T: 伝搬⾏行行列列 C: 寄与度度⾏行行列列
tips: 事前情報で既知な悪質ドメインノード
alexa: 事前情報で既知な良良性ドメインノード
15/06/25
WIT2015
14
測定環境
•  学術情報ネットワークバックボーン
–  DNSクエリパケットのパッシブ計測収集
–  測定期間: 2013年年11⽉月5⽇日-11⽉月29⽇日
学術情報ネット
ワークバック
ボーン
Transit link
Internet
Splitter
Univ.
Capture machine
Inst.
Univ.
DNS traffic log
図. 測定環境図
15/06/25
WIT2015
15
事前情報データセット
•  事前情報のデータセットは⼀一般公開されている,
DNS BlacklistサービスおよびAlexaトップランキ
ングの情報を使⽤用
•  悪質なドメインのデータセット (30000 domain)
–  Malwaredomains.com
–  Uribi.com
•  良良性なドメインのデータセット (30000 domain)
–  Alexaトラフィックトップランキング
•  www.alexa.com/topsites
15/06/25
WIT2015
16
結果: グラフ構造化
•  DNSグラフの構造化結果
–  約377万ノード, 392万エッジから構成
–  全ノードの69%は1つの巨⼤大なコンポーネン
ト (Giant Component)に属する –  それ以外は少数のノードから構成されたコン
ポーネントに属する
–  全体の69%のノードが複雑に関係する複合集
合体コンポーネントを構成
15/06/25
WIT2015
17
1. コンポーネント数とノード数の
関係結果 (両対数)
6
10
5
10
Frequency
104
103
102
101
100 0
10
15/06/25
最⼤大コンポーネント
101
102
103
104
Number of nodes
WIT2015
105
106
107
18
DNSグラフの解析結果
15/06/25
WIT2015
19
ドメイン同⼠士のノード間距離離⽐比較
•  DNSグラフ上でのドメインノード間の距
離離測定
–  隣接ノード間の距離離を1と設定
–  AlexaドメインとTipsドメインを使⽤用
IP
Dom
ain
15/06/25
IP
Dom
ain
距離離4
IP
Dom
ain
WIT2015
IP
Dom
ain
Dom
ain
距離離2
20
DNSグラフ上の同⼀一コンポーネント内の事
前情報ドメイン同⼠士のノード間距離離⽐比較
0.45
Alexa vs Alexa
Blacklist vs Blacklist
Alexa vs Blacklist
0.40
Frequency
表. ノード間距離離
の平均値・中央値
Alexa 同⼠士
0.35
平均値
6.46
0.30
中央値
6
0.25
Tips 同⼠士
Tipsドメインノード同⼠士
では距離離2,同じIPアドレ
スを共有する特徴あり
0.20
0.15
0.10
8.03
中央値
8
AlexaとTips
0.05
0.00
平均値
0
2
4
6
8
10 12 14
Nodes Distance
16
18
20
22
24
平均値
8.42
中央値
8
図. ドメイン同⼠士のノード間距離離の分布
15/06/25
WIT2015
21
結果: 既存⼿手法とExtended PTP⼿手
法の性能⽐比較
•  k-fold cross validationとROCカーブでの性能評価
1.00
# True positive
0.80
既存⼿手法より8%向上
0.40
0.20
0.00
0.00
15/06/25
悪質なドメインの90.4%を
誤分類率率率0.16%で特定
0.60
10fold-cv-Original PTP method
10fold-cv-Extended PTP method
5fold-cv-Original PTP method
5fold-cv-Extended PTP method
0.01
0.02
0.03
#False positive
0.04
0.05
事前情報データセット
・Alexaドメイン2,000個
・Tipsドメイン1,973個
図. 既存⼿手法と提案⼿手法:Extended PTPとのROCカーブ
WIT2015
22
結果: 脅威確率率率による判別
1.0
Benign domain
Malicious domain
脅威確率率率 P(x)
0.5
閾値τ=-‐‑‒0.1以下は
悪質なドメインのみ
0.0
-0.1
-0.5
-1.0
0
5
10
15
20
ドメイン名の⻑⾧長さ (SLD)
図. テストデータドメインの脅威確率率率分布
15/06/25
WIT2015
23
閾値γを変化した場合でのTPR,
FPRの変化結果
1.0
境界値0
0.8
Ratio
0.6
biz, net, infoの
DGAドメイン
0.4
0.2
0.0
-1.0
15/06/25
TPR
FPR
-0.5
0.0
Threshold
WIT2015
0.5
1.0
24
設定して事前情報のない未知のノードを分類する.このと
き,ノードの脅威確率が-0.1 以下である場合は,そのノー
⽐比較: Bigramによる異異常ドメイン検出
ドを危険性の高いドメインまたは危険性の高い
IP アドレス
であると判別してカウントした.その結果,危険性の高い
ドメインの数は
2,170 個,危険性の高い IP アドレスの数は
•  ドメイン名の⽂文字の出現頻度度による検出[1]
12,884 個であった.危険性の高いドメインとその脅威確率
–  「th」は「qd」より頻繁に出現
の例を表
5 に示す.
•  閾値の設定が難しい (誤検出の増加)
10.0
Bigram score
5.0
0.0
-5.0
Benign domain
Malicious domain
NX domains
-10.0
0
15/06/25
5
10
15
Domain length
WIT2015
20
25
25
考察
•  既存⼿手法と⽐比較して誤分類が減少
–  悪質なドメインと良良性なドメインの分離離
•  脅威確率率率から事前情報なしノードの判別可能
•  閾値τ=-‐‑‒0.1に設定,脅威確率率率からノードを判別
•  危険性の⾼高い未知なドメインを2,170個検出
表. 危険性のある未知なドメインの例例
ドメイン名
15/06/25
dmmhdaiou4ae6dajho.com
bvncm-kdkdkgree.jp
poohpoohhany.info
google-play.jp
nomoguz.su
Kisjehmbga.jp
WIT2015
26
危険性の⾼高いドメインの検出結果⽐比較
•  既存⼿手法での危険性の⾼高いドメインの検出
–  3,356ドメイン中360ドメインはAlexaランキン
グの良良性なドメイン
既存⼿手法では良良性なドメインを
誤検出する可能性あり
–  Extended PTPの結果では誤検出なし
表.危険性の⾼高いドメインの検出数
15/06/25
検出⼿手法 (閾値τ=-‐‑‒0.1に設定)
検出数
Extended PTP
2,170個
Original PTP
3,356個
WIT2015
27
悪質なドメインノードを含むコン
ポーネントの可視化
少数のドメインノー
ドと多数のIPアドレ
スノードの集団
15/06/25
スター構造
1つのIPアドレス
ノードと多数のド
メインノード
図. 悪質なノードを含むコンポーネント (1⽇日分)
⾚赤点: ドメインノード, ⻘青点: Resolved IPノード
オレンジ点: Tipsドメインノード
WIT2015
28
結論論と今後の課題
•  DNSを使⽤用した悪意のある攻撃とそれに関
わる悪質なドメインを特定
•  DNSグラフ作成と脅威確率率率伝搬⼿手法の提案
–  DNSグラフ約70%のノードは1つの巨⼤大コンポーネント構成
–  Extended PTP⼿手法の適⽤用と評価
•  悪質ドメインの90.4%特定 (FP=0.016)
•  既存⼿手法より8%特定率率率向上
•  危険性のある未知なドメインを2,170個発⾒見見
•  今後の課題
–  分析対象のDNSレコードの増加(AAAA, MXなど)
–  事前情報がない場合での本⼿手法の有効性検証
15/06/25
WIT2015
29
参考⽂文献
• 
[1] S. Yadav, A.K.K. Reddy, AL Reddy, and S. Ranjan. Detecting algorithmically generated
malicious domain names. In Proceedings of the 10th annual conference on Internet
measurement, pp. 48–61, 2010.
• 
[2] L Bilge, S Sen, D Balzarotti, E Kirda, and C Kruegel. EXPOSURE: a passive DNS analysis
service to detect and report malicious domains. ACM Transactions on Information and
System Security (TISSEC), Vol.16, No.4, p14, 2014.
• 
[3] M Antonakakis, R Perdisci, W Lee, N Vasiloglou II, and D Dagon. Detecting malware
domains at the upper dns hierarchy. In USENIX Security Symposium, p. 16, 2011.
• 
[4] D Chau, C Nachenberg, J Wilhelm, A Wright, and C Faloutsos.
Polonium: Tera-scale
graph mining and inference for malware detection. In SIAM
International Conference on
Data Mining, Vol. 2, 2011.
• 
[5] Kevin M Carter, Nwokedi Idika, and William W Streilein. Probabilistic threat prop- agation
for malicious activity detection. In Acoustics, Speech and Signal Processing (ICASSP),
2013 IEEE International Conference on, pp. 2940–2944. IEEE, 2013.
• 
[6] Alexa Top sites, www.alexa.com/topsites
15/06/25
WIT2015
30
ご清聴ありがとうございました
15/06/25
WIT2015
31
15/06/25
WIT2015
32
付録
15/06/25
WIT2015
33
事前情報データセット詳細
•  事前情報のデータセットは⼀一般公開されてい
る, DNS BlacklistサービスおよびAlexaトップ
ランキングの情報を使⽤用
•  悪質なドメインのデータセット
–  Malwaredomains.com
–  Uribi.com
•  良良性なドメインのデータセット
–  Alexaトラフィックトップランキング
•  www.alexa.com/topsites
15/06/25
WIT2015
34
DNSグラフの解析結果
15/06/25
WIT2015
35
脅威確率率率伝搬式
•  厳密式
•  近似式
•  エッジの重み
15/06/25
WIT2015
36