Advanced Data Mining 高度データマイニング(1)

もう少し高い位置から
• 統計応用のひとつの風景
Advanced Data Mining
高度データマイニング
東京工科大学大学院
バイオニクス・情報メディア学専攻科
Data Miningとは
Data Mining とは
• 大量のデータから
• 規則性を発見するための
• データ解析処理のこと。
Data Mining とは
• 大量のデータから => 少なくとも1,000個
• 規則性を発見するための
• データ解析処理のこと。
Data Mining とは
• 大量のデータから => 少なくとも1,000個
• 規則性を発見するための => どんな ?
• データ解析処理のこと。 => どうやって?
大量のデータ(1)
•
•
•
•
•
•
•
Digital library
Image archive
Bioinformatics
Medical imagery
Health care
Finance and investment
Manufacturing and production
大量のデータ(2)
•
•
•
•
•
Business and marketing
Telecommunication network
Scientific domain
The World Wide Web (WWW)
Biometrics etc.
具体例
• もう少しイメージを持ってもらうために、テキス
トデータ関連の実例を見てみよう。
– 方丈記
– 徒然草
– 広辞苑
– Baconエッセイ集 (Gutenberg Project)
– BNC (British National Corpus)
=> Data Warehouse
規則性
雨が降れば桶屋が儲かる。
アメリカがくしゃみをすれば、
日本は風邪をひく。
世帯主の年齢が30歳~35歳ならば、
マンションを購入する。
自動車が写っている写真の80%には、
青空も写っている。
文は主語と述語とからなる。 etc.
解析法
• 従来の統計解析手法との共通点が多い。
(探索的データ解析, Exploratory Data
Analysis; EDA)
• 現在、多様な手法が提案されている。
=>本講義で紹介する。
DMに関連する諸手法
• マルチメディアデータ圧縮
(Multimedia Data Compression)
• 文字列照合 (string Matching)
• 分類手法 (Classification)
• クラスタリング (Clustering)
• 統計的手法(予測・検定 etc.)
統計的手法
• 基本統計量(平均・分散・標準偏差・中央値・
最頻値・最大値・最小値 etc.)
• 度数分布表
• ヒストグラム
• 散布図、相関図 etc.
(統計の基本的知識は不可欠!)
統計基礎復習
•
データ解析の演習
1. 度数分布表の作成
2. ヒストグラムの作成
3. グラフの分析
•
•
(データの)代表値
(データの)散らばり
新生児60人の体重(1998)
表. 新生児の体重(1998年)
3740
2550
2920
2530
3280
2840
2520
3350
3610
3430
3020
3320
2790
3050
3620
3260
3320
3800
2640
3360
3320
4100
2720
4050
3850
3380
3040
2710
4150
3200
4120
2780
3220
2780
2490
2950
2580
2020
3010
2010
2800
2760
4480
2990
3700
2960
2320
3060
3200
3380
3100
2840
2990
3100
3530
3270
2600
3640
3300
4570
単位はグラム
手順1: EXCELの起動
[スタート]-[すべてのプログラム][Microsoft Excel]
手順2:データの入力
3740
2550
2920
2530
3280
2840
2520
3350
3610
3430
3020
3320
2790
3050
3620
3260
3320
3800
2640
3360
3320
4100
2720
4050
3850
3380
3040
2710
4150
3200
4120
2780
3220
2780
2490
2950
2580
2020
3010
2010
2800
2760
4480
2990
3700
2960
2320
3060
3200
3380
3100
2840
2990
3100
3530
3270
2600
3640
3300
4570
手順1: EXCELの起動
[スタート]-[すべてのプログラム][Microsoft Excel]
手順2: データの入力
手順3: 度数分布表の作成
度数分布表の作成
度数分布表とは
データをいくつかのグループに分類し、
各グループに属するデータ数を添えた表。
度数分布表とは
• イメージとしては右図の
ようなもの。
• キャプション・
表頭・表側・
区間(階級)・
区間幅(階級幅)
表.度数分布表の例
区
間
度 数
0-99
20
100-199
50
200-299
120
300-399
65
度数分布表の作成
1. 最大値と最小値を求める。
2. 最大値と最小値の差R(範囲)を求める。
3. 区間の個数(棒グラフの棒の本数)kを決める。
•
•
•
k=√n
k=1 + 3.32 log10(n)
簡単に、k=7~10ぐらいにする。
4. 区間幅hを求める。
1. h=R÷k
2. hの値を見て、きりのいい数字に設定する。
度数分布表の作成
1.
2.
3.
4.
5.
最大値=____, 最小値=___
範囲R=最大値-最小値
区間数k=____
区間幅h=____
最小値と最大値とを勘案して、区間の両端
を決める。
新生児の体重(
体重(g)
人数
~2000
0
2000~2400
3
2400~2800
14
2800~3200
16
3200~3600
14
3600~4000
7
4000~4400
4
4400~4800
2
20
00
23
00
26
00
29
00
32
00
35
00
38
00
41
00
44
00
47
00
50
00
人数[人]
1998年の新生児の体重[g]
16
14
12
10
8
系列1
6
4
2
0
体重[g]
今日の話
• 例題
例題1:ある高校での学生20名の成績。
65
42
49
55
57
41
39
49
46
47
55
46
93
57
62
38
40
63
64
55
データのクリーニングと外れ値
• 外れ値:異常に飛び離れた値
• クリーニング:外れ値に対応すること
外れ値の判断基準
• 平均値±3×標準偏差 から外れている
平均
• 平均(mean)とは、「データの中心」、あるいは、
「データの代表値」を表す。
• 数学的定義:
– データ:
– 定義:
{x1 , x2 , x3 ,..., xn }
x1  x2  ...  xn
m
n
データの散らばり
• 平均が同じでも、データの様子が異なること
がある。
• 例:
– データ1:{-0.2, 0, 0.2}
– データ2:{-20, 0,20}
(どちらも平均m=0だけど、データの散らばりは
違う。このことをどのように表現したらいいのだ
ろうか?)
データの散らばりの尺度(1)
• (Idea 1) データの散らばりは、平均を基準として測る。
• (妥当性) 次の関数の最小値は、平均m。
f (t )  (t  x1 )  (t  x2 )  ...  (t  xn )
2
2
f (t )  f (m),
x1  ...  xn
where m 
.
n
2
データの散らばりの尺度(2)
• (Idea 2) データの散らばりを以下の式で表現する。
( x1  m)  ( x2  m)  ...  ( xn  m)
M
n
• この式は常にゼロになってしまうので意味がない!
データの散らばりの尺度(3)
• (Idea 3) データの散らばりを以下の式で表現する。
| x1  m |  | x2  m | ... | xn  m |
M .dev. 
n
• この式には、絶対値が含まれており、解析学的に(美
積分学的に)取り扱いにくい。アイデアはいいけれど、
数学的にはチョットねぇ。
データの散らばりの尺度(4)
• (Idea 4) データの散らばりを以下の式で表現する。
( x1  m)2  ( x2  m)2  ...  ( xn  m)2
Var 
n
• これを分散(variance)といい、データの散らばりの程
度を表現している。元のデータとの次元(dimension)
をそろえるためにルートを取ったものが標準偏差であ
る。
データの散らばりの尺度(5)
• (Idea 5) データの散らばりを以下の式で表現する。
( x1  m)  ( x2  m)  ...  ( xn  m)
Var 
n
2
2
• これを標準偏差(standard deviation)と呼ぶ。
2
(注意!)
• 分散・標準偏差の定義式には、分母が n の
ものと (n-1) のものとがある。
• この辺りは、後日改めて説明する。
例題1についての解析
• 例題1のデータの平均と標準偏差をもとめる
と、93が外れ値(異常値)であることが分かる。
(各自確認してみること)
例題2:(練習問題として各自分析せよ。)
52
87
38
57
78
75
49
55
71
43
49
93
41
67
65
82
69
62
82
60
範囲・中央値・最頻値
• 範囲(range,レンジ)=最大値ー最小値
• 中央値:データを大きさの順番に並べてとき、
真ん中に来るデータ値。データが偶数のとき
は、真ん中に来る2つのデータの平均を中央
値とする。
• 最頻値:最も出現回数の多いデータ。
例:
• データ:{2,5,-4,-2,3,1,1,-6}
– 平均m=(2+5-4-2+3+1+1-6) / 8 = 0
– 最大値max=5
– 最小値min=-6
– 範囲r=max-min=11
– 中央値(Median)Med=1
• なぜなら、{-6,-4,-2, 1, 1,2,5}
• 最頻値(モード,mode)mode=1
ここまでは復習
• Let’s go farther!
Advanced Data Mining
高度データマイニング(3)
東京工科大学大学院
バイオニクス・情報メディア学専攻科
38
1
階級 度数
2
57
データ群
41
20
25
32
Histogram
0-9
10-19
20-29
30-39
40-49
50-59
2
0
2
1
1
1
度数分布表
• データ群
{x1 , x2 , x3 ,..., xn }
• データ全体としての性質を数値化すると
–
–
–
–
–
–
–
平均(データの代表値, mean)
分散(データの散らばり, variance)
標準偏差(データの散らばり, standard deviation)
中央値(データの代表値, median)
最頻値(データの代表値, mode)
最大値&最小値
範囲(データの散らばり, range) etc.
• データ群
{x1 , x2 , x3 ,..., xn }
• データ全体としての性質を数値化すると
–
–
–
–
–
–
–
平均(データの代表値, mean)
分散(データの散らばり, variance)
標準偏差(データの散らばり, standard deviation)
中央値(データの代表値, median)
最頻値(データの代表値, mode)
最大値&最小値
範囲(データの散らばり, range) etc.
これらの改良版
• 幹葉表示(stem-leaf-and-forget-display)
– 度数分布表
• 5数表示(five number display)
– 基本統計量
• 箱ヒゲ図
– 基本統計量の図示
幹葉表示
• 基本的考え方
427
4 2 7
4 2 0
313
3 1 3
3 1 0
232
2 3 2
2 3 0
323
3 2 3
3 2 0
434
4 3 4
4 3 0
317
3 1 7
3 1 0
311
3 1 1
3 1 0
幹 (stem)
Most Significant Digit
葉 (leaf )
端数 (forget)
幹葉表示(例)
5数表示
箱ヒゲ図
Advanced Data Mining
高度データマイニング
東京工科大学大学院
バイオニクス・情報メディア学専攻科
Version 2
DM Methodoogy
DM Methodology
1. Exploratory data analysis
(探索的データ解析)
2. Computational data mining
(計算論的データマイニング)
3. Statistical data mining
(統計的データマイニング)
DM Methodology
1. Exploratory data analysis
(探索的データ解析)
2. Computational data mining
(計算論的データマイニング)
3. Statistical data mining
(統計的データマイニング)
1.Exploratory data analysis
a. 統計的データ解析(SDA)
b. 探索的データ解析(EDA)
統計的データ解析(SDAの基礎)
1. 視覚的分析
•
•
表: 度数分布表(frequency table)
図: ヒストグラム(histogram)
2. 数値的分析
•
•
•
代表値:
平均 (mean)
中央値 (median)
モード (mode,最頻値)
ばらつき度:分散(variance)
平均偏差(mean deviation; MD)
標準偏差(standard deviation)
範囲(range = 最大値ー最小値)
その他
四分位数(quartile,第一・二・三)
外れ値
統計的データ解析(SDAの基礎)
1. 視覚的分析
•
•
表: 度数分布表(frequency table)
図: ヒストグラム(histogram)
2. 数値的分析
•
•
•
代表値:
平均 (mean)
中央値 (median)
モード (mode,最頻値)
ばらつき度:分散(variance)
平均偏差(mean deviation; MD)
標準偏差(standard deviation)
範囲(range = 最大値ー最小値)
その他
四分位数(quartile,第一・二・三)
外れ値
探索的データ解析(EDA)
1.
2.
3.
4.
5.
6.
7.
幹葉表示(stem-and-leaf display)
要約値(letter value display)
箱ヒゲ図(box-whisker plots)
X-Y表示(X-Y plotting)
抵抗性のある直線回帰(registant line)
中央値分散分析(median polish)
時系列データのならし(smoothing)
探索的データ解析(EDA)
1. 幹葉表示(stem-and-leaf display)
ヒストグラムに代わる手法
2. 要約値(letter value display)
平均値・標準偏差に代わるもの
3. 箱ヒゲ図(box-whisker plots)
分布の形と外れ値の図的表示
DM Methodology
1. Exploratory data analysis
(探索的データ解析)
2. Computational data mining
(計算論的データマイニング)
3. Statistical data mining
(統計的データマイニング)
3.Statistical data mining
a.
b.
c.
d.
e.
f.
Statistic models(統計モデル)
Statistic inference(統計的推論)
Non-parametric model
General linear model
Log-linear model
Graphical model
etc.
DM Methodology
1. Exploratory data analysis
(探索的データ解析)
2. Computational data mining
(計算論的データマイニング)
3. Statistical data mining
(統計的データマイニング)
2.Computational data mining
1.
2.
3.
4.
5.
6.
Cluster analysis(クラスター分析)
Tree models(木モデル)
Linear regression(線形回帰)
Logistic regression(ロジスティック回帰)
Neural networks(ニューラルネットワーク)
ILP(Inductive Logic Programming;
帰納論理プログラミング)
7. SVM(support vector machines)
etc.
2.Computational data mining
a.
b.
c.
d.
e.
f.
Tree models(木モデル)
Cluster analysis(クラスター分析)
Linear regression(線形回帰)
Logistic regression(ロジスティック回帰)
Neural networks(ニューラルネットワーク)
ILP(Inductive Logic Programming;
帰納論理プログラミング)
etc.