情報科学の基礎

統計学入門(1)
第8回
基本統計量:その2
標準偏差、分散、変動係数
練習問題1の解答

それぞれのデータから、平均値、中央値を計算したところ次のような結果となった。
それぞれのヒストグラムに対応する計算結果はどれか。
(a)平均100, 中央値100 , (b) 平均100, 中央値70 , (c) 平均150, 中央値180
40
計算結果(
30
b
40
)
20
20
10
10
0
50
100
150
200
40
計算結果(
30
a
20
10
0
50
100
150
200
計算結果(
30
0
)
50
100
150
C
200
)
練習問題2の解答

次の3つのヒストグラムのデータについて、標準偏差を計算した。それぞれのヒスト
グラムの標準偏差の値にもっとも近いと思われるものを(a)-(d)の中から選べ。
標準偏差 (a)10, ( b)25 , (c)75, (d)200
40
40
40
30
30
30
20
20
20
10
10
10
0 50 100 150 200 250
( b )
0 50 100 150 200 250
( a )
0 50 100 150 200 250
( a )
対称な分布における
標準偏差の意味
2倍の標準偏差
2倍の標準偏差
95%程度のデータが含まれる
統計学第8回
4
今日の講義

基本統計の後半

分布を知ること


バラツキの指標



四分位、パーセント点、
範囲、四分範囲…
変動係数、ジニ係数
練習問題
統計学第8回
5
基礎統計量(Basic statistics)
データのバラツキの形状(分布)を数値で
表したもの(中心の位置、バラツキの幅)
平均値 ・ 中央値 ・ 最頻値
範囲 ・ 分散 ・ 標準偏差
四分位数
変動係数 ・ 四分位分散係数
歪度 ・ 尖度 ・・・etc.
統計学第8回
6
分布の中心の位置(代表値)
データの集中しているところ
(分布の中心) 平均値
中央値(メディアン)
最頻値(モード)
統計学第8回
7
分布の中心
データが集中している部分
分布の中心
統計学第8回
8
分布の幅の大きさ
(Measures of dispersion)
分散
標準偏差
範囲
四分位範囲
データのバラツキの大きさ
バラツキ小
バラツキが小さい
バラツキ中
バラツキが
大きい
バラツキ大
統計学第8回
9
分散(Variance)

各データ値と平均との距離の2乗の合計を
データ数(または、データ数ー1)で割った値
(各データと平均との距離の2乗の平均)
( x1  x )  ( x2  x )    ( xn  x )
2
s
2

2
2
n

1
n
 ( xi  x )
2
n i 1
標本分散 s 
2
1
n
 ( xi  x )
2
n  1 i 1
統計学第8回
10
標準偏差(Standard deviation)

分散の平方根(ルートをとった値)
( x1  x )  ( x2  x )    ( xn  x )
2
s
s
2

2
2
n

1
n
 ( xi  x )
2
n i 1
標本標準偏差 s
1
n
 ( xi  x )
2
n  1 i 1
統計学第8回
11
バラツキの指標の評価


基本的には相対評価

大きさを比較

大きいほどバラツキが大きい
絶対評価をすることはあまりない
統計学第8回
12
範囲(Range)
データの最大値と最小値の差
四分位偏差
四分位範囲
第1四分位数
(25%点)
第2四分位数
(50%点)
(中央値)
第3四分位数
(75%点)
データ値
範囲
図3-6 四分位数、四分位範囲、四分位偏差
最小値
統計学第8回
最大値
13
四分位数(Quartile points)
データを大きさの順に並べて4つに分ける点
四分位偏差
四分位範囲
第1四分位数
(25%点)
第2四分位数
(50%点)
(中央値)
第3四分位数
(75%点)
データ値
四分位偏差=四分位範囲/2
統計学第8回
14
分布の対称性と四分位

分布が非対称だと、四分位の位置が対称
でなくなる
40
40
30
30
20
20
10
10
中央値
中央値
第1四分位
第3四分位
統計学第8回
第1四分位
第3四分位
15
パーセント点(Percentile points)

データを大きさの順に並べたときに、上か
ら(下から)数えてちょうどその割合(a%)に
データが分かれる値
上側a%点、下側a%点
統計学第8回
16
正規分布の場合のシグマの法則
統計学第8回
17
成長曲線 (Growth Curve)
パーセント点
データを大きさの順に
並べたときに、
上から(下から)数えて
ちょうどある割合(a%)に
データが分かれる値
上側a%点
(下側a%点)
標準偏差と変動係数
B銘柄の株価
A銘柄の株価
平均
2,000円
標準偏差 500円
平均
10,000円
標準偏差
500円
変動の大きさは同じだが、影響の度合いは違う
統計学第8回
19
変動係数
(Coefficient of variation)
標準偏差を平均値で割ることによって,
実質的なデータのばらつきの大きさを評価する指標
(相対標準偏差)
CV 
s
x
統計学第8回
(%表示)
20
標準偏差と変動係数
A銘柄の株価
平均
2,000円
標準偏差 500円
B銘柄の株価
平均
10,000円
標準偏差
500円
変動係数 25%
変動係数 5%
CV=500/2000=0.25
CV=500/10000=0.05
品目別世帯支出金額の変動係数
品目
食料
変動係数
(CV)
41.7
高熱・水道
43.5
教育
261.6
住居
290.1
全国消費実態調査(平成11年)
問題1
次のヒストグラムは、2006年の松坂投手のスライダーの球速(km/h)の
分布である。次の統計量の値がどれぐらいであるかを答えよ。
180
160
140
120
100
度数
80
60
40
20
0
116 118 120 122 124 126 128 130 132 134 136 138 140 142 144 146
球速
平均値(
129
標準偏差( 4.5
)中央値( 129
)
) 範囲 ( 24 )
統計学第8回
23
問題2
下のヒストグラムは、同じ年の直球の球速の分布である。ばらつきの大
きさを比較して、その違いをコメントせよ。
200
180
160
140
120
100
度数
80
60
40
20
0
133
135
137
139
141
143
145
147
149
151
153
155
球速
標準偏差は、4を若干下回るくらいの値であり、スライダーの場合の4.5より小さくなっており
バラツキが小さいと思われる
統計学第8回
24