情報の集約

情報の集約
記述統計
1
よくある数値例
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
A
0
0
0
0
0 10 10 10 10 10
B
5
5
5
5
5
5
5
5
5
C
0
5
5
5
5
5
5
5
5 10
5
2
階級と度数
• データをxiで表す
• xiの値がとりうる範囲をいくつかの区分
に分けて集計することを考える
• 各区分を階級とよぶ
• 階級の中央の値を階級値とよぶ
• 各階級にxiが表れる回数を度数とよぶ
• 階級ごとに度数を表した表を度数分布
表とよぶ
3
度数分布表
階級
3.33
5.00
8.33
合計
A
5
0
5
10
B
0
10
0
10
C
1
8
1
10
4
棒グラフによる表現
•
•
•
•
縦軸に階級
横軸に階級
それぞれの棒は接して表現されることが多い
多くの場合「ヒストグラム」とよばれる
5
Aグループ
6
5
4
3
2
1
0
3 1/3
5
8 1/3
6
Bグループ
12
10
8
6
4
2
0
3 1/3
5
8 1/3
7
Cグループ
9
8
7
6
5
4
3
2
1
0
3 1/3
5
8 1/3
8
ヒストグラム間比較の問題点
• 階級の影響
• 縦軸(度数)意味が不明
• 全標本の数が異なった場合への対応
9
細かい区分による度数分布表
階級
0 1 2 3 4 5 6 7 8 9 10
A 5 0 0 0 0 0 0 0 0 0 5
B 0 0 0 0 0 10 0 0 0 0 0
C 1 0 0 0 0 8 0 0 0 0 1
10
より細かい階級による表現(A)
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
より細かい階級による表現(B)
12
10
8
6
4
2
0
0
1
2
3
4
5
6
7
8
9
10
12
より細かい階級による表現(C)
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
13
相対度数
• 全標本の個数に対する各階級の度
数の割合を相対度数とよぶ
• 最大値は1.0
• 最小値は0.0
• 相対度数の利用により、標本の総
数が違う場合でも比較が可能とな
る
14
相対度数分布表
階級
0 1 2 3 4 5 6 7 8 9 10
A
0.5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.5
B
0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0
C
0.1 0.0 0.0 0.0 0.0 0.8 0.0 0.0 0.0 0.0 0.1
15
棒グラフで表現
• 縦軸に相対度数
• 横軸に階数
• 縦軸の最大値を1.0に統一
16
相対度数(A)
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
7
8
9
10
17
相対度数(B)
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
7
8
9
10
18
相対度数(C)
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
7
8
9
10
19
平均三種
(Average)
• 平均(Mean)
• 中央値(Median)
• 最頻値(Mode)
20
Mean
• 相加平均
• 算術平均
• 平均
x1  x2    xn
1
x   xi 
n i 1
n
n
21
MeanとTotalの関係
n
1
x   xi
n i 1
n
nx   xi
i 1
22
Median
• 中央値
• 小さい順に並べた時に中央に位置する値
• データが偶数個の場合は中央に近い2つの
値の算術平均
• 異常値に強い
• 1つまたは2つの値のみしか利用していない
23
Mode
•
•
•
•
•
最頻値
もっとも頻繁に出現した値
一つとは限らない
連続量の場合、階級によって値が変わる
名義尺度であっても意味を持つ
24
平均三種
Mean
Median
Mode
A
5
5
0,10
B
5
5
5
C
5
5
5
25
平均からの偏差の利用
ばらつきの指標
26
平均からの偏差
xi  x
xiが平均からどれだけ隔たって
いるかの指標
27
平均からの偏差の総和
n
 x  x   0
i 1
i
問題
平均からの総和がゼロになるこ
とを証明しなさい
28
平均からの偏差の二乗の平均
n
1
2
xi  x 

n i 1
分散とよび、ばらつきの指標と
して利用される
Vで表されることが多い
29
問題
分散の定義式を展開し整理しなさい
n
1
2
V   xi  x 
n i 1
30
分散の平方根
分散の平方根を標準偏差とよぶ
Dやσで表されることが多い
 D V
31