統計学基礎Ⅱ

※ 以前のスライドに補足を加えたい部分が多くあったので、増補版を作成した。
1) 代表値(中心的傾向)

ある集団についてのデータ(例えば50人のクラスの身
長など)があるとき、集団の特徴をあらわすには、そ
の中心的傾向を示す数値が必要となる。

中心的傾向をあらわす数値として、
› 算術平均
› メディアン(中央値)
› モード(最頻値)
の3種類がある。
ⅰ) 算術平均

算術平均 = データの合計 ÷ データ数
n
x  x    xn
x 1 2

n
x
i 1
i
n
(例) 10人のテストの点数
出席番号
点数
x
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
60  90  80  50  70  10  60  80  20  80 600

 60
10
10
ⅱ) メディアン(中央値、中位数)

メディアン → データを大きさの順に並べた
ときに真ん中にくる値。データ数が偶数のとき
は真ん中の2つの値を足して2で割る。
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
点数の低い順に並べ替え
10
20
50
60
60
70
80
80
80
90
真ん中
この2つを足して2で割った
(60+70)÷2=65がメディアン
ⅲ) モード(最頻値)

モード - データの中で最も多く出てくる
値。10人のテストの点数の例では
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。
ⅳ) 各代表値の特徴

下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。
A
B
20
C
20
D
22
E
28
30
仮想データ
•
この5人の収入の算術平均は
20  20  22  28  30 120
x

 24
5
5
•
メディアンは、この場合、小さい順に並んでるので
•
モードは、
•
よって、算術平均は24、メディアンは22、モードは20となる。

次に、裕福なFさんがこの5人に加わったとする。
A
B
20
C
20
D
22
E
28
F
30
60
仮想データ
•
この6人の収入の算術平均は
20  20  22  28  30  60 180
x

 30
6
6
•
メディアンは、真ん中の2人を足して2で割るので、(22+28)÷2=25
•
モードは、
•
よって、算術平均は30、メディアンは25、モードは20となる。

次に、より裕福なGさんがこの6人に加わったとする。
A
B
20
C
20
D
22
E
28
F
30
60
G
1220
仮想データ
•
この7人の収入の算術平均は
20  20  22  28  30  60  1220 1400
x

 200
7
7
•
メディアンは、真ん中である。
•
モードは、
•
よって、算術平均は200、メディアンは28、モードは20となる。
別の例もみてみよう。
下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1638万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
988万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿から見たファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#1)
度数
右にゆがんだ分布の例
ゆがんだ分布であれば、算術平均とメ
ディアンは一致しない。(モードも一致
しない)
左右対称な分布であれば、算術平均と
メディアンは一致する。また、分布の山
が1つであれば、モードもこれに一致す
る。
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
階級
45
40
35
30
25
20
15
10
5
0
左右対称な分布の例(2)
度数
度数
左右対称な分布の例(1)
1
2
3
4
5
6
7
8
階級
9
10 11 12 13 14 15
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
階級
9
10 11 12 13 14 15
<正規分布>
 算術平均、メディアン、モードが等しくなる、山が1つの左
右対称の分布の中に、つりがね型†をした正規分布といわれ
るものがある。
 この分布は、数学的に非常に取り扱いやすい性質を持ってお
り、身長や知能指数などがこの分布にしたがうといわれてい
る。テストの点数もこのような分布になることが理想といわ
れている。
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
3
2.7
2.4
2.1
1.8
1.5
1.2
0.9
0.6
0.3
0
-0.3
-0.6
-0.9
-1.2
-1.5
-1.8
-2.1
-2.4
-2.7
-3
0
† 「つりがね型」は、bell curve の訳であり、日本の寺院にあるつりがねの形では
なく、教会にあるベルの形をしている。



算術平均は少数の極端な値が含まれるとき、
その集団の正しい代表値とならないことがあ
る。メディアンの方が少数の極端な値の影響
を受けづらい。
しかし、貯蓄現在高のように分布がゆがんで
いる場合には、メディアンでも集団の正しい
代表値とはいえない場合もある。(この場合
はモードが適切か)
しかし、算術平均は数学的な扱いやすさから、
代表値として非常に良く用いられている。
算術平均をうのみにしないようにしよう!
2) 散布度(散らばりの傾向)
教員A
教員B
• チャイムの5分後に必ず教室
にくる。
• チャイムと同時に教室にくるこ
ともあれば、10分以上遅れる
こともある。
• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差
などがある。
ⅰ) 分散

分散=偏差2乗和÷データ数
偏差2乗和 - 個々のデータから算術平均を引いたもの
(偏差)を2乗して、すべて加えたもの。
n
( x1  x ) 2  ( x2  x ) 2    ( xn  x ) 2
s 

n
2
 (x  x)
i 1
2
i
n
10人のテストの点数の例では
(60 60)2  (90 60)2  (80 60)2  (50 60)2  (70 60)2  (10 60)2  (60 60)2  (80 60)2  (20 60)2  (80 60)2
s 
10
2

6400
 640
10
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
-40
20
400 1600
400
算術平均60を引く
偏差
0
30
20
-10
10
-50
0
20
2乗を求める
0
900
400
100
100 2500
0
合計を求める
6400
データ数(10)で割る
640
分散
ⅱ) 標準偏差

標準偏差 ⇒
分散の平方根
n
s  s2 
2
(
x

x
)
 i
i 1
n
10人のテストの点数の例では
s  640  25.298
※ 2人の教員が教室に来る時間の例
回
教員A
教員B
1
4.5
0
2
5.3
6
3
4.8
4
4
5
5
5
5.5
11
(単位:分)
6
4.7
4
7
5.2
8
8
4.8
5
9
4.9
1
10
5.3
6
教員A
xA 
4.5  5.3  4.8  5  5.5  4.7  5.2  4.8  4.9  5.3 50

5
10
10
(4.5  5) 2  (5.3  5) 2  (4.8  5) 2  (5  5) 2  (5.5  5) 2  (4.7  5) 2  (5.2  5) 2  (4.8  5) 2  (4.9  5) 2  (5.3  5) 2
10
2
2
2
2
2
2
2
(0.5)  (0.3)  (0.2)  (0)  (0.5)  (0.3)  (0.2)  (0.2) 2  (0.1) 2  (0.3) 2

10
0.25  0.09  0.04  0  0.25  0.09  0.04  0.04  0.01 0.09

10
0.9

 0.09
10
s A2 
sA  0.09  0.3
教員B
0  6  4  5  11  4  8  5  1  6 50
xB 

5
10
10
(0  5) 2  (6  5) 2  (4  5) 2  (5  5) 2  (11 5) 2  (4  5) 2  (8  5) 2  (5  5) 2  (1  5) 2  (6  5) 2
s 
10
(5) 2  (1) 2  (1) 2  (0) 2  (6) 2  (1) 2  (3) 2  (0) 2  (4) 2  (1) 2

10
25  1  1  0  36  1  9  0  16  1

10
90

9
10
2
B
sB  9  3
s A2  sB2 となり、教員Bの分散の方が大きいことがわかる。
標準偏差も s A  sB である。
<標準化と標準正規分布>
 A君は、あるテストで英語が90点、数学が65点であっ
た。
⇒ 英語の方が数学より成績が良かった??
 英語の平均点が80点、数学の平均点が50点だった。
⇒ 英語は平均点より10点高い、数学は平均点より15点
高い。数学の方が良い??
 英語と数学のどちらが成績が良かったのだろうか?
⇒ 標準化の必要性(これを応用したものが偏差値)
平均や分散の異なるものを比較するとき、平均や分散をそろ
え、その相対的な位置によって比較しようというのが標準化
の考えである。
 標準化は次のような変換である。このようにして求められた
変量を標準化変量(zスコア)

zi 
xi  x
s
英語が平均80点、標準偏差10であり、数学が平均50点、標
準偏差20であったとする。
 この例で、

英語は
数学は
90  80
1
10
65  50
 0.75
20
となり英語の方が成績が良いことになる。


zスコアの大小で、平均や分散の異なるものを比較する
ことができる。zスコアは算術平均0、標準偏差1の変量
であるが、これを算術平均50、標準偏差10の変量に変
換したものが偏差値(Tスコア)である。(算術平均50、標
準偏差10は100点満点のテストの点数のように見える)
偏差値はzスコアを次のように変換する。
Ti  50  10 zi

先ほどの例では、
英語は
数学は
となる。
50  10 1  60
50  10  0.75  57.5
ⅲ) レンジ(範囲)
• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80
ⅳ) 四分位偏差


データを大きさの順(小さい順)に並べて、4分割する
点をq1,q2,q3とする。
このとき、次式で定義されるQを四分位偏差という。
Q
最小値
q1
(q3  q1 )
2
q2
q3
最大値
(例)9人のテストの点数が次のようになって
いたとする。
出席番号
点数
1
60
2
90
3
80
4
50
5
6
7
8
9
70
10
60
80
20
点数の低い順に並べ替え
10
20
50
60
60
q1
q2
最小値
70
80
q3
80
90
最大値
(メディアン)
q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値
Q
(80  50) 30

 15
2
2
<箱ひげ図>
最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。
下の図は、9人のテストの点数を箱ひげ図に表した1例である。
9人のテストの点数の箱ひげ図
100
最大値
90
q3(第3四分位点)
80
70
60
50
×
中央値
q1(第1四分位点)
40
30
20
10
0
最小値