PPT

ISDASインターネット分散観測:
ワームの平均寿命はいくらか?
○小堀智弘(4年),福野直弥,菊池浩明(東海大学)
寺田真敏(日立製作所) ,土居範久(中央大学)
背景
• Wittyワームは75分間で12,000台に感染した
• Nimdaワームは6時間で150,000台に感染した
「http://www2.nsknet.or.jp/~azuma/menu.htm」
• ポートスキャンは平均18分に1回行われている
[1] 菊池ら,ネットには何台の不正ホストが存在するのか
ポートスキャンと感染期間
12
Sensor ID
10
8
6
期間1
無観測期間
期間2
4
2
0
11/01/0412/01/0401/01/0502/01/05
03/01/0504/01/0505/01/0506/01/05
07/01/0508/01/0509/01/05
12/01/04
02/01/05
07/01/05
09/01/05
TimeTime
[day]
[day]
研究の目的
• ウイルスやワームなどに感染した不正ホス
トの活動期間を推定する
研究の問題点
期間判別の困難さ
1.
–
–
2.
ワームによる振る舞いの多様性
主観のあいまいさ
多量な観測データ
12
10
10
8
8
Sensor ID
12
6
6
4
4
2
2
02004/10/24
2004/12/3
2004/12/14
Time [day]
2004/1/14
2004/2/14
02004/12/30
2005/3/2
2005/4/27
Time [day]
2005/8/18
2005/9/24
平均寿命の推定方法
期間判別の困難さ 多量な観測データ
(1) サンプリング ○(人手)
×(部分的、誤差)
(2) 固定閾値
×(ホスト毎の違い)
○(すべてのデータ)
(3) 適応閾値
○(ホスト毎の違いを ○(すべてのデータ)
解決)
基本定義
ビジットk
S1
S2
S3
•
•
•
•
ラウンド1
ラウンド2
無観測期間t
2月2日
1月1日
2月8日
1月9日
感染期間d1(9日)
感染期間d2(7日)
ラウンド数: r = 2
総カウント数(被スキャン数): c = 7
観測したセンサ数(ビジット): k = 3
期間における感染日数: d1 = 9、d2 = 7
カウントc
(1) ランダムサンプリング
• 目的
– 平均的な振る舞いのホストの特徴を調べる
• 方法
– ビジット数k=6となる不正ホストの集合(K6)の中からラ
ンダムに100個の不正ホストを抽出
– 手動でデータを解析
kの推移とcの関係
100000
Unique addresses
Counts
120
80000
90
60000
60
40000
30
20000
0
0
2
4
6
8
Number of visits
k
10
12
(1) K6の解析結果(100個)
ラウンド数r カウント数c
ビジットk
期間d
[ラウンド
/ホスト]
[パケット
/ラウンド]
[センサ
/ラウンド]
[日
/ラウンド]
平均
1.49
8.72
4.36
24.6
標準偏差
0.81
11.57
1.99
40.8
(2) 固定閾値による期間の
評価方法
• 同一の閾値Tによって、活動期間を区切る
A
T
dt1
T
T
t
dt 2
(2) 固定閾値についての感染期間
(K6:1,586)
90
80
T*=30
70
μr=1.67
60
duration
round
7
6
5
μd=18.6
50
4
40
3
30
2
20
1
10
0
0
50
100
150
200
250
Threshold t [day]
300
350
0
400
(2) 固定閾値の問題点
• 同一のTを定めることの困難さ
A
T
d1
d2
d2
d3
B
d1
T
d2
d3
T
d4
d5
T
d6
d7
(3)ポアソン分布とは
• 単位時間中に平均で λ 回発生する事象がちょうど k 回
発生する確率を表す
• 例
– 交差点を通過する車の台数
– 1日のメールの受信数

e 
P( N  k ) 
k!
k
N:パケット数を取る確率変数
λ:平均パケット到着率
さらにホストあたりの年間平均で
c

d0
を定義する
c:年間総カウント数
d0:年間の最初と最後のパケットの時間
(3) スキャン到着間隔の分布
200
ln( 0.01)
T 

150
*
100
32%
1%
50
0
P(t  T )  e
0
100120
200
300
187
Inter-arrival time [min]
400
 T
500
(3) 適応閾値の適応結果
• T*はそれぞれの不正ホストによって異なる
A
TA*
d2
d1
TA*
B
d1
T B*
dd21
d3
T B*
T B*
d4 d 2 d 5
T B*
T B*
d6 d3 d7
T B*
d3
(3) 適応閾値で解決する問題
1. 判別による困難さ
–
–
ワームによる振る舞いの多様性
主観の不確定さ
2. 多量な観測データ
–
K6すべてのデータが対象
(3) 各不正ホストの振る舞いの違い
• 到着率λの分布
1000
800
600
400
200
0
0
2
4
Packets arrival rate
6
8
[packet/day]
10
(3) 適応閾値による平均感染期間
800
T*
T=30
700
600
500
400
300
200
100
0
0
50
100
150
200
250
duration d [day]
300
350
400
(3) 適応閾値の平均ラウンド数
1000
T*
T=30
900
800
700
600
500
400
300
200
100
0
1
2
3
4
5
6
7
# of round per address
8
9
まとめ:固定閾値と適応閾値の違い
ラウンドr
カウントc
μr
μc
μk
μd
(1)サンプリング
(人手)
1.49
8.72
4.36
24.6
(2)固定閾値
1.67
9.15
3.13
18.2
(3)適応閾値
1.57
9.75
4.32
32.3
(4)最小二乗法
ビジットk 感染期間d
43
結論
• 感染期間はユニークホストによって異なり、
固定での算出はできない。
• 年間平均で32日間の寿命があり、平均で
1.5回の感染をしている
今後の課題
• K6以外の場合についても、ポアソン分布に
よる仮定を試し、活動期間の推定をする
研究の新規性
• ポアソン分布が当てはまると仮定し、それ
ぞれの不正ホストについて適応した
分散観測
•
•
•
•
JPCERT/CC ISDAS
定点観測システム
定常的に不正アクセスを観察
センサ数12台
– 観測期間2004/9/1-2005/9/30(13ヶ月)
(1) k6のIPアドレスの分布
1000
100
10
1
0
50
100
150
IP address /8
200
(1) K6でのポートの使用頻度
400
ポート
1433
350
300
250
ポート
4899
ポート
137
200
150
100
50
0
0
500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Number of port
(2)ポートによる平均観測期間の違い
(K6:1,586)
200
4899
1433
1434
135
445
180
160
140
T*=30
120
100
80
60
40
20
0
0
20
40
60
80
100
duration d[day]
120
140
160
(3)ポアソン分布
• 式(1)で定義したλが、1%の確率でパケットが到達しな
い事象が起きる確率は
ln( 0.01)
T* 

T*:連続してパケットが到達しない間隔
となり、T*によって各不正ホストの感染期間の閾値を算出する
(3) スキャン数cの分布
800
700
600
500
400
300
200
100
0
0
10
20
20
30
40
Packets per year c
50
60
(4) ポートによる違い
S00
w
90
135
n
361,734
445
all
w
60
n
257,235
w
60
n
730,781
S01
60
59,240
60
52,986
60
110,728
S09
80
1,850
30
1,569
30
66,239
(4) ユニークホスト数の
最小二乗近似
[1] 菊池ら,一様分布による確率モデル
Duration for fitting [day]
S120
S117
S114
S111
S108
S105
S102
S099
S096
S093
600,000
S090
S087
S084
S081
S078
S075
S072
S069
S066
S063
400,000
S060
S057
S054
S051
S048
S045
S042
S039
1,800,000
S036
S033
200,000
S030
Estimotied value of unique host addresses
2,000,000
(4) フィッティングによる分散
n下限
n上限
n平均
1,600,000
1,400,000
1,200,000
1,000,000
800,000
観測期間86日
観測期間63日
観測期間43日
0