情報科学の基礎

統計学
第7回
基本統計量:
平均・中央値、分散、標準偏差など
今日の内容

基本統計量

分布の位置を知る


平均、中央値、モード
分布の広がりを評価する

分散、標準偏差
統計学入門(1)第7回
2
分布(Distribution)
データのバラツキの形状 , もしくは、
様子を数量的に把握したもの
データが集中している範囲、バラツキの大きさ、
データの値や範囲を指定した場合、 そこに全体の
何%のデータが含まれるか・・・.
を教えてくれるもの
統計学入門(1)第7回
3
分布を知るためのグラフ

ヒストグラム
(人)
30
20
10

箱ひげ図
(6月に説明予定)
0
50 55 60 65 70 75 80 85 90 95 100
統計学入門(1)第7回
4
分布をみる視点

中心は?
どこ(どのような値)を中心に

バラツキの程度(広さ)は?
どの程度まで広がっているのか
統計学入門(1)第7回
5
分布の比較

形状の比較

中心は?
どこ(どのような値)を中心に

バラツキの程度(広さ)は?
どの程度まで広がっているのか
統計学入門(1)第7回
6
基礎統計量(Basic statistics)
データのバラツキの形状(分布)を数値で
表したもの(中心の位置、バラツキの幅)
平均値 ・ 中央値 ・ 最頻値
範囲 ・ 分散 ・ 標準偏差
四分位数
変動係数 ・ 四分位分散係数
歪度 ・ 尖度 ・・・etc.
統計学入門(1)第7回
7
分布の中心の位置
データの集中しているところ
(分布の中心) 平均値
中央値(メディアン)
最頻値(モード)
統計学入門(1)第7回
8
分布の中心
データが集中している部分
分布の中心
統計学入門(1)第7回
9
平均(Mean)
x (エックスバー)
ケース
1
2
3
4
5
データの合計
x
データ値
データの数
5
x1  x2    xn

7
n
3
5  7  3  37  8 60
例) x 

37
5
5
8
 12
統計学入門(1)第7回
10
中央値(Median)
データを大きさの順に並べたときにちょうど
真ん中にくる値
3 5 7 8 38
ケース
データ値
1
5
中央値
2
7
データが偶数個のときは、
3
3
3
4
38
5
8
5
7
中央値
統計学入門(1)第7回
8
~x  5  7  6
2
11
最頻値(Mode)
(人)
度数(その値をとるデータ数)が
最も大きいデータ値
20
100.00%
(人)
30
15
80.00%
20
60.00%
10
40.00%
5
20.00%
0
10
0
50 55 60 65 70 75 80 85 90 95 100
.00%
アジア
アメリカ
ヨーロッパ
オーストラリア
成績
アフリカ
図3-1 パレート図(質的変数:海外旅行先)
最頻値
図3-2 ヒストグラム (量的変数)
最頻値
統計学入門(1)第7回
12
最頻値(Mode)
度数(その値をとるデータ数)が
最も大きいデータ値
注意:
量的データの場合は使用しない!
統計学入門(1)第7回
13
最頻値の利用事例
(マンションの販売価格)
■交通:JR横須賀線/東戸塚駅 徒歩10分
■価格:4,400万円台〜7,000万円台
■最多価格帯:4,800万円台
■面積:70.85m²〜107.57m²
■間取り:2LDK+S〜4LDK
統計学入門(1)第7回
14
分布の中心の位置
データの集中しているところ
(分布の中心)
平均値
中央値
最頻値
統計学入門(1)第7回
15
歪んだ分布の例(貯蓄の分布)
総務省統計局家計調査
「家 計 調 査 年 報 平成17年≪貯蓄・負債編≫」
平成17年 貯蓄・負債の概況 より引用
(中央値のこと)
平均値と中央値

分布が対称であれば、同じ値になる

中央値は頑健(外れ値の影響を受けにくい)
中央値
平均
統計学入門(1)第7回
17
累積相対度数と中央値

累積度数から累積の相対度数を求め、それを
結ぶと、分布曲線が描かれる
店舗A
0-200
200-400
400-600
600-1000
1000-1500
1500-2000
2000-3000
3000-5000
合計
0
28
36
32
40
35
25
30
40
266
累積度数
0
28
64
96
136
171
196
226
266
100%
0%
11%
24%
36%
51%
64%
74%
85%
100%
75%
50%
25%
0%
0
統計学入門(1)第7回
1000
2000
3000
4000
5000
18
累積相対度数と中央値
100%
75%
50%
25%
中央値
0%
0
1000
2000
3000
統計学入門(1)第7回
4000
5000
19
分布の幅の大きさ
(Measures of dispersion)
分散
標準偏差
範囲
四分位範囲
データのバラツキの大きさ
バラツキ小
バラツキが小さい
バラツキ中
バラツキが
大きい
バラツキ大
統計学入門(1)第7回
20
分散(Variance)

各データ値と平均との距離の2乗の合計を
データ数(または、データ数ー1)で割った値
(各データと平均との距離の2乗の平均)
( x1  x )  ( x2  x )    ( xn  x )
s 
n
1 n
  ( xi  x ) 2
n i 1
1 n
2
2
標本分散 s 
 ( xi  x )
n  1 i 1
2
2
2
2
統計学入門(1)第7回
21
分散の計算式
1 n
s   ( xi  x ) 2
n i 1
2
の意味
この長さの2乗が
x1
x2
x
平均
( x3  x ) 2
x3
x4
の長さの2乗を足し合わ
上の図の4本の
n
せたものが
分散は、これらの線の長さを測っている指標
統計学入門(1)第7回
2
(
x

x
)
 i
i 1
22
バラツキが大きいデータ : 平均から離れたデータが多い
x1
x2
x
x3
平均
x4
バラツキが小さいデータ : 平均の周りに固まっている
x1
x2
x
長い線が多い
バラツキが大きい
短い線が多い
バラツキが小さい
平均
統計学入門(1)第7回
x3
x4
23
標準偏差(Standard deviation)
(分散より標準偏差をよく使う!)

s

分散の平方根(ルートをとった値)
s 
2
( x1  x )  ( x2  x )    ( xn  x )
n
2
2
2
1 n
2
(
x

x
)
 i
n i 1
標本標準偏差 s
1 n
2
(
x

x
)
 i
n  1 i 1
統計学入門(1)第7回
24
バラツキの指標の評価


基本的には相対評価

大きさを比較

大きいほどバラツキが大きい
絶対評価をすることはあまりない
統計学入門(1)第7回
25
標準偏差でバラツキの大きさを比較
球種
ストレート
カーブ
カットボール
チェンジアップ
スライダー
フォーク
全投球
平均 標準偏差 投球数
146.6
2.84
1144
119.0
3.17
86
140.3
2.59
211
127.4
3.38
224
129.3
3.84
678
134.2
2.60
126
138.0
9.46
2469
統計学入門(1)第7回
26
ヒストグラムから読み取ろう!
平均の違いと標準偏差の違い
スライダー
180
標準偏差
スライダーの場合:3.84
160
140
120
100
度数
80
60
40
20
0
球速
ストレート
400
標準偏差
ストレートの場合:2.84
350
300
250
200
度数
150
100
50
0
球速
統計学入門(1)第7回
27
標準偏差の大きさの目安
(分布が対称の場合)
ストレート
400
350
300
250
200
度数
150
100
50
0
136
138
140
142
144
146
148
150
152
154
球速
平均のまわり、2倍の標準偏差の範囲に95%のデータが
統計学入門(1)第7回
28
練習問題1

それぞれのデータから、平均値、中央値を計算したところ次のような結果となった。
それぞれのヒストグラムに対応する計算結果はどれか。
(a)平均100, 中央値100 , (b) 平均100, 中央値70 , (c) 平均150, 中央値180
40
計算結果(
30
b
40
)
20
20
10
10
0
50
100
150
200
40
計算結果(
30
a
20
10
0
50
100
150
200
計算結果(
30
0
)
50
100
150
C
200
)
練習問題2

次の3つのヒストグラムのデータについて、標準偏差を計算した。それぞれのヒスト
グラムの標準偏差の値にもっとも近いと思われるものを(a)-(d)の中から選べ。
標準偏差 (a)10, ( b)25 , (c)75, (d)200
40
40
40
30
30
30
20
20
20
10
10
10
0 50 100 150 200 250
( b )
0 50 100 150 200 250
( a )
0 50 100 150 200 250
( a )