ISDASインターネット分散観測: ワームの平均寿命はいくらか? ○小堀智弘(4年),福野直弥,菊池浩明(東海大学) 寺田真敏(日立製作所) ,土居範久(中央大学) 背景 • Wittyワームは75分間で12,000台に感染した • Nimdaワームは6時間で150,000台に感染した 「http://www2.nsknet.or.jp/~azuma/menu.htm」 • ポートスキャンは平均18分に1回行われている [1] 菊池ら,ネットには何台の不正ホストが存在するのか ポートスキャンと感染期間 12 Sensor ID 10 8 6 期間1 無観測期間 期間2 4 2 0 11/01/0412/01/0401/01/0502/01/05 03/01/0504/01/0505/01/0506/01/05 07/01/0508/01/0509/01/05 12/01/04 02/01/05 07/01/05 09/01/05 TimeTime [day] [day] 研究の目的 • ウイルスやワームなどに感染した不正ホス トの活動期間を推定する 研究の問題点 期間判別の困難さ 1. – – 2. ワームによる振る舞いの多様性 主観のあいまいさ 多量な観測データ 12 10 10 8 8 Sensor ID 12 6 6 4 4 2 2 02004/10/24 2004/12/3 2004/12/14 Time [day] 2004/1/14 2004/2/14 02004/12/30 2005/3/2 2005/4/27 Time [day] 2005/8/18 2005/9/24 平均寿命の推定方法 期間判別の困難さ 多量な観測データ (1) サンプリング ○(人手) ×(部分的、誤差) (2) 固定閾値 ×(ホスト毎の違い) ○(すべてのデータ) (3) 適応閾値 ○(ホスト毎の違いを ○(すべてのデータ) 解決) 基本定義 ビジットk S1 S2 S3 • • • • ラウンド1 ラウンド2 無観測期間t 2月2日 1月1日 2月8日 1月9日 感染期間d1(9日) 感染期間d2(7日) ラウンド数: r = 2 総カウント数(被スキャン数): c = 7 観測したセンサ数(ビジット): k = 3 期間における感染日数: d1 = 9、d2 = 7 カウントc (1) ランダムサンプリング • 目的 – 平均的な振る舞いのホストの特徴を調べる • 方法 – ビジット数k=6となる不正ホストの集合(K6)の中からラ ンダムに100個の不正ホストを抽出 – 手動でデータを解析 kの推移とcの関係 100000 Unique addresses Counts 120 80000 90 60000 60 40000 30 20000 0 0 2 4 6 8 Number of visits k 10 12 (1) K6の解析結果(100個) ラウンド数r カウント数c ビジットk 期間d [ラウンド /ホスト] [パケット /ラウンド] [センサ /ラウンド] [日 /ラウンド] 平均 1.49 8.72 4.36 24.6 標準偏差 0.81 11.57 1.99 40.8 (2) 固定閾値による期間の 評価方法 • 同一の閾値Tによって、活動期間を区切る A T dt1 T T t dt 2 (2) 固定閾値についての感染期間 (K6:1,586) 90 80 T*=30 70 μr=1.67 60 duration round 7 6 5 μd=18.6 50 4 40 3 30 2 20 1 10 0 0 50 100 150 200 250 Threshold t [day] 300 350 0 400 (2) 固定閾値の問題点 • 同一のTを定めることの困難さ A T d1 d2 d2 d3 B d1 T d2 d3 T d4 d5 T d6 d7 (3)ポアソン分布とは • 単位時間中に平均で λ 回発生する事象がちょうど k 回 発生する確率を表す • 例 – 交差点を通過する車の台数 – 1日のメールの受信数 e P( N k ) k! k N:パケット数を取る確率変数 λ:平均パケット到着率 さらにホストあたりの年間平均で c d0 を定義する c:年間総カウント数 d0:年間の最初と最後のパケットの時間 (3) スキャン到着間隔の分布 200 ln( 0.01) T 150 * 100 32% 1% 50 0 P(t T ) e 0 100120 200 300 187 Inter-arrival time [min] 400 T 500 (3) 適応閾値の適応結果 • T*はそれぞれの不正ホストによって異なる A TA* d2 d1 TA* B d1 T B* dd21 d3 T B* T B* d4 d 2 d 5 T B* T B* d6 d3 d7 T B* d3 (3) 適応閾値で解決する問題 1. 判別による困難さ – – ワームによる振る舞いの多様性 主観の不確定さ 2. 多量な観測データ – K6すべてのデータが対象 (3) 各不正ホストの振る舞いの違い • 到着率λの分布 1000 800 600 400 200 0 0 2 4 Packets arrival rate 6 8 [packet/day] 10 (3) 適応閾値による平均感染期間 800 T* T=30 700 600 500 400 300 200 100 0 0 50 100 150 200 250 duration d [day] 300 350 400 (3) 適応閾値の平均ラウンド数 1000 T* T=30 900 800 700 600 500 400 300 200 100 0 1 2 3 4 5 6 7 # of round per address 8 9 まとめ:固定閾値と適応閾値の違い ラウンドr カウントc μr μc μk μd (1)サンプリング (人手) 1.49 8.72 4.36 24.6 (2)固定閾値 1.67 9.15 3.13 18.2 (3)適応閾値 1.57 9.75 4.32 32.3 (4)最小二乗法 ビジットk 感染期間d 43 結論 • 感染期間はユニークホストによって異なり、 固定での算出はできない。 • 年間平均で32日間の寿命があり、平均で 1.5回の感染をしている 今後の課題 • K6以外の場合についても、ポアソン分布に よる仮定を試し、活動期間の推定をする 研究の新規性 • ポアソン分布が当てはまると仮定し、それ ぞれの不正ホストについて適応した 分散観測 • • • • JPCERT/CC ISDAS 定点観測システム 定常的に不正アクセスを観察 センサ数12台 – 観測期間2004/9/1-2005/9/30(13ヶ月) (1) k6のIPアドレスの分布 1000 100 10 1 0 50 100 150 IP address /8 200 (1) K6でのポートの使用頻度 400 ポート 1433 350 300 250 ポート 4899 ポート 137 200 150 100 50 0 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Number of port (2)ポートによる平均観測期間の違い (K6:1,586) 200 4899 1433 1434 135 445 180 160 140 T*=30 120 100 80 60 40 20 0 0 20 40 60 80 100 duration d[day] 120 140 160 (3)ポアソン分布 • 式(1)で定義したλが、1%の確率でパケットが到達しな い事象が起きる確率は ln( 0.01) T* T*:連続してパケットが到達しない間隔 となり、T*によって各不正ホストの感染期間の閾値を算出する (3) スキャン数cの分布 800 700 600 500 400 300 200 100 0 0 10 20 20 30 40 Packets per year c 50 60 (4) ポートによる違い S00 w 90 135 n 361,734 445 all w 60 n 257,235 w 60 n 730,781 S01 60 59,240 60 52,986 60 110,728 S09 80 1,850 30 1,569 30 66,239 (4) ユニークホスト数の 最小二乗近似 [1] 菊池ら,一様分布による確率モデル Duration for fitting [day] S120 S117 S114 S111 S108 S105 S102 S099 S096 S093 600,000 S090 S087 S084 S081 S078 S075 S072 S069 S066 S063 400,000 S060 S057 S054 S051 S048 S045 S042 S039 1,800,000 S036 S033 200,000 S030 Estimotied value of unique host addresses 2,000,000 (4) フィッティングによる分散 n下限 n上限 n平均 1,600,000 1,400,000 1,200,000 1,000,000 800,000 観測期間86日 観測期間63日 観測期間43日 0
© Copyright 2024 ExpyDoc