Document

Advanced Data
Analysis
先進的データ分析法
2015(2)
平成27年前期第1クウォータ科目
東京工科大学大学院
バイオニクス・情報メディア学専攻科
担当:亀田弘之
38
1
階級 度数
2
57
データ群
41
20
25
32
Histogram
0-9
10-19
20-29
30-39
40-49
50-59
2
0
2
1
1
1
度数分布表
練習
再掲
38
1
階級 度数
2
57
データ群
41
20
25
32
Histogram
0-9
10-19
20-29
30-39
40-49
50-59
2
0
2
1
1
1
度数分布表
• データ群
{x1 , x2 , x3 ,..., xn }
• データ全体としての性質を数値化すると
–
–
–
–
–
–
–
平均(データの代表値, mean)
分散(データの散らばり, variance)
標準偏差(データの散らばり, standard deviation)
中央値(データの代表値, median)
最頻値(データの代表値, mode)
最大値(maximun)&最小値(minimum)
範囲(データの散らばり, range) etc.
基本概念の再考察
1. 平均(算術平均)の性質
2. 平均偏差の性質
3. 分散の性質
H. Kameda ( Tokyo University of Technology )
6
平均の性質
定義:
平均=(データの総量)÷(データの個数)
m=T/N
m: 平均(mean)
T: データの総量
T = x1 + x 2 + … + x N
N: データの個数
H. Kameda ( Tokyo University of Technology )
7
平均の性質(続き)
定義:
平均=(データの総量)÷(データの個数)
m=T/N
m = ( x1 + x2 + … + xN )÷N
m = ( x1 + x 2 + … + xN ) / N
m = (Σxi ) / N
書き方はいろいろですが、どれも同じ!
慣れてください。
H. Kameda ( Tokyo University of Technology )
8
例(あるいはProblem)
• わかりきった話ですが…
実際に計算し考えることは大切です。
常に練習(計算・思考)をしましょう。
H. Kameda ( Tokyo University of Technology )
9
練習問題
• Problem
次のようなデータが得られた。
平均mを求めてみよう。
データ: 16, 45, 39, 53, 67
H. Kameda ( Tokyo University of Technology )
10
解答例
• Answer:
平均m = ( 16 + 45 + 39 + 53 + 67 ) / 5
= 220 / 5
= 44
図形的考察:
10
20
30
40
50
H. Kameda ( Tokyo University of Technology )
60
70
11
考察(続き)
xi
10
20
30
40
50
60
70
xi - m
A = (x1 – m) + ( x2 – m) + … + (x5 – m)
を計算してみると…
H. Kameda ( Tokyo University of Technology )
12
A = (x1 – m) + ( x2 – m) + … + (x5 – m)
= ( x1 + x2 + … + xN ) – N×m
= ( x1 + x2 + … + xN ) –
N×( x1 + x2 + … + xN ) / N
=0
これは平均の性質の1つ!
H. Kameda ( Tokyo University of Technology )
13
得られた知見
定理:
関数f(a) = (x1 – a) + ( x2 – a) + …
+ (xN – a)
に対して、f(a) = 0 となるのは、a = m のとき
である。
H. Kameda ( Tokyo University of Technology )
14
考えてみよう! Let’s challenge!
Problem:
関数g(a) = |x1 – a| + |x2 – a| + …
+ |xN – a|
に対して、g(a) を最小にするaを求めよ。
Answer: a = ? (考えてみてください。)
Comment: 平均偏差と関係あり?
H. Kameda ( Tokyo University of Technology )
15
(参考)
平均偏差MDとは
MD =
(|x1 – m| + |x2 – m| + … + |xN – m|) / N
でしたね。
H. Kameda ( Tokyo University of Technology )
16
チャレンジ問題2
Problem:
関数h(a) = |x1 – a|2 + |x2 – a|2 + …
+ |xN – a|2
に対して、h(a) を最小にする a を求めよ。
Comment: これも平均mの性質の1つ。
H. Kameda ( Tokyo University of Technology )
17
具体的に計算してみよう!
1. データ: 16, 45, 39, 53, 67
2. 平均m = (16 + 45 + 39 + 53 + 67)/5=44
3. A = (16 - m) + (45 – m) + … + (67 – m)
= 220 – 5×44 = 0
H. Kameda ( Tokyo University of Technology )
18
4. f(a) = (16 – a) + (45 – a) + … + (67 – a)
= 220 – 5a
従って、f(a)=0
a = 44 = m
5. g(a) = |16 - a| + |45 - a| + |39 - a| +
|53 - a| + |67 - a|
= |16 - a| + |39 - a| + |45 - a| +
|53 - a| + |67 - a|
H. Kameda ( Tokyo University of Technology )
19
i.
ii.
iii.
iv.
v.
vi.
a ≦ 16
g(a) = -5a + 220
16 ≦ a ≦39g(a) = -3a + 188
39 ≦ a ≦45g(a) = -a + 110
45 ≦ a ≦53g(a) = a + 20
53 ≦ a ≦67g(a) = 3a - 86
a ≧ 67
g(a) = 5a – 220
最小値はa=45のとき。
45は16, 39, 45, 53, 67の中央値!
H. Kameda ( Tokyo University of Technology )
20
(参考)
中央値(median)とは、
データを大きさの順に並べたとき、真ん中
にくるデータのこと。
16, 39, 45, 53, 67
これが中央値
H. Kameda ( Tokyo University of Technology )
21
6. h(a) = |16 - a|2 + … + |67 - a|2
= (16 - a)2 + (39 - a)2 + (45 - a)2
+ (53 - a)2 + (67 - a)2
ちょっと計算すると…
h(a)を最小にするaは、a=m。
平均
H. Kameda ( Tokyo University of Technology )
22
ここまでのまとめ
次のスライドの通り。
H. Kameda ( Tokyo University of Technology )
23
平均と中央値の性質
1. 基準点をmとするとき、(xi - m)の総和は
常にゼロとなる。
2. |xi – a|の総和は、a=中央値(median)の
とき最小になる。
3. |xi – a|2の総和は、a=m(平均)のとき最
小となる。
平均=(Σxi)/N の妥当性
を示している。
H. Kameda ( Tokyo University of Technology )
24
以上のような事実を踏まえて,...
H. Kameda ( Tokyo University of
Technology )
25
各種統計量の考察
1. m = (Σxi ) / N の定義は妥当
2. 平均偏差MD= (|xi – m|の平均)
3. 平均偏差の式において、中央値(median)に
は意味がある。(平均偏差の定義には中央値
を用いるべきか?)
4. 分散=(|xi – m|2の平均)
5. 分散の式において、mが平均のとき最小となる
ので、平均mを基準とするのは妥当である。
H. Kameda ( Tokyo University of Technology )
26
簡単な練習問題
表.成人男性50人の血圧
Problem:
次のデータは50人
の成人男性の血圧
値である。平均m、
中央値me、モード
mode(最頻値)、
分散s2、標準偏差s
をそれぞれ求めよ。
Advice: EXCELを使おう!
120
132
126
123
114
135
125
155
96
122
115
93
124
124
126
110
136
132
112
168
108
107
117
117
133
100
142
110
120
160
H. Kameda ( Tokyo University of Technology )
111
114
102
152
120
120
113
136
118
126
116
118
155
130
148
108
147
125
115
154
27
まとめ
•
データ群が与えられたとき、
データの代表値:
1. 平均(mean)
2. 中央値(median)
3. モード(mode) or 最頻値
データのバラツキ:
1. 範囲(range) or レンジ
2. 分散(variance)
3. 標準偏差(standard deviation)
赤字のものは、基本統計量とも呼ばれる。
H. Kameda ( Tokyo University of Technology )
28
• データが与えられたら、指定されなくても基本
統計量は常に計算するもの。
– 平均・中央値・モード・分散(or 標準偏差)
度数分布表やヒストグラムも
言われなくても描きましょう!
H. Kameda ( Tokyo University of Technology )
29
再掲
• データ群
{x1 , x2 , x3 ,..., xn }
• データ全体としての性質を数値化すると
–
–
–
–
–
–
–
平均(データの代表値, mean)
分散(データの散らばり, variance)
標準偏差(データの散らばり, standard deviation)
中央値(データの代表値, median)
最頻値(データの代表値, mode)
最大値&最小値
範囲(データの散らばり, range) etc.
H. Kameda ( Tokyo University of Technology )
これらの改良版
• 幹葉表示(stem-leaf-and-forget-display)
– 度数分布表
• 5数表示(five number display)
– 基本統計量
• 箱ヒゲ図
– 基本統計量の図示
H. Kameda ( Tokyo University of Technology )
幹葉表示
• 基本的考え方
427
4 2 7
4 2 0
313
3 1 3
3 1 0
232
2 3 2
2 3 0
323
3 2 3
3 2 0
434
4 3 4
4 3 0
317
3 1 7
3 1 0
311
3 1 1
3 1 0
幹 (stem)
Most Significant Digit
葉 (leaf )
H. Kameda ( Tokyo University of Technology )
端数 (forget)
幹葉表示(例)
H. Kameda ( Tokyo University of Technology )
練習
Problem
以下のデータセットに関し
「幹葉表示」を求めよ。
283, 339, 350, 348, 386, 390, 360, 423, 393, 350, 239, 272,
150, 189, 340, 399, 288, 321, 331, 335, 283, 261, 253, 286,
284, 173, 132, 199, 235, 212, 310, 285, 258, 215, 267, 282,
278, 225, 183, 267, 311, 233, 322, 282, 315, 290, 273, 138
H. Kameda ( Tokyo University of Technology )
五数表示(五数要約)
データのばらつきの様子をあらわすのに、
• 最小値
• 第1四分位数(小さいほうから1/4のところのデータ)
• 第2四分位数(小さいほうから2/4のところのデータ、
中央値と同じこと)
• 第3四分位数(小さいほうから3/4のところのデータ)
• 最大値
の5つの数を用いて表すこと。
H. Kameda ( Tokyo University of Technology )
練習
Problem
先述のデータセットに関し
「五数要約」を求めよ。
H. Kameda ( Tokyo University of Technology )
箱ひげ図
(黒板で説明します)
H. Kameda ( Tokyo University of Technology )
練習
Problem
先述のデータセットに関し
「箱ひげ図」を求めよ。
H. Kameda ( Tokyo University of Technology )
練習
• 次のデータセットを使って、ドットプロットを作
成した見なさい。
データセット:
1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 10
ここまでの内容を復習
• R言語を使って、実際に処理してみよう!
– データセットの作り方
– データセットの読み込み方
H. Kameda ( Tokyo University of Technology )