統計学基礎Ⅱ

Ⅰ
表・グラフによる記述
1) 折れ線グラフと棒グラフ
2) 度数分布表とヒストグラム、度数折れ線
ⅰ) 度数分布表
ⅱ) ヒストグラムと度数折れ線
ⅲ) 幹葉表示
3) 円グラフ、帯グラフ
Ⅱ 特性値による記述
1) 代表値(中心的傾向)
ⅰ)
ⅱ)
ⅲ)
ⅳ)
算術平均
メディアン(中央値)
モード(最頻値)
各代表値の特徴
2) 散布度(散らばりの傾向)
ⅰ)
ⅱ)
ⅲ)
ⅳ)
分散
標準偏差
レンジ
四分位範囲、四分位偏差

データのまとめ方には
1.表・グラフによる記述(視覚的表現)
2.特性値による記述(数値的表現)
がある。
表・グラフによる記述は、データの特徴を一目
でとらえやすくするためにおこなわれる。
 特性値による記述は、データの特徴をまとめ、
それを用いた分析をおこなうことが中心的な役
割である。

1) 折れ線グラフと棒グラフ


ともにさまざまなデータの表現に利用される。
折れ線グラフは、主に時系列データ(時間の順序によって並べた
データ)に利用される。棒グラフは時系列データにもクロスセク
ションデータ(1時点におけるデータを何らかの項目でまとめたも
の)にも利用される。
完全失業率の推移(男女計・季節調整値)
チーム別本塁打数
(2014年9月30日終了時点、パ・リーグ)
5.5
本塁打数(本)
5
4.5
4
3.5
3
2008年1月
2008年5月
2008年9月
2009年1月
2009年5月
2009年9月
2010年1月
2010年5月
2010年9月
2011年1月
2011年5月
2011年9月
2012年1月
2012年5月
2012年9月
2013年1月
2013年5月
2013年9月
2014年1月
2014年5月
完全失業率(%)
6
出典:総務省統計局『労働力調査』
140
120
100
80
60
40
20
0
出典:日本野球機構オフィシャルサイト
<時系列データとクロスセクションデータ>
(例) 交通事故死亡者数の推移(中国地方5県)
(データ出典: 警察庁「交通事故死者数について」)
(単位:人)
年
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
鳥取県
61
79
61
51
45
39
34
30
37
42
26
30
25
島根県
72
73
74
47
69
46
42
42
33
31
31
45
28
岡山県
190
169
175
159
148
144
115
114
107
109
106
112
107
広島県
251
202
187
189
187
165
132
128
142
127
113
125
116
鳥取県の交通事故死亡者数の年次推移
→ 時系列データ
2013年の県別交通事故死亡者数
→ クロスセクションデータ
山口県
152
141
129
106
116
108
115
91
108
96
74
56
65
都道府県別高等学校数
(2014年5月1日現在)
クロスセクション
データには、通常
棒グラフを用いる。
500
450
400
350
300
250
200
150
100
50
0
北青岩宮秋山福茨栃群埼千東神新富石福山長岐静愛三滋京大兵奈和鳥島岡広山徳香愛高福佐長熊大宮鹿沖
海森手城田形島城木馬玉葉京奈潟山川井梨野阜岡知重賀都阪庫良歌取根山島口島川媛知岡賀崎本分崎児縄
道
川
山
島
出典:文部科学省『学校基本調査』
右の図は上の図
を折れ線グラフで
描きなおしたもの
であるが、隣り合
う県†どうしを線で
結んでも、そこに
意味はない。
†都道府県コードの順
なので、必ずしも隣接
してはいない。
都道府県別高等学校数
(2014年5月1日現在)
500
450
400
350
300
250
200
150
100
50
0
???
北青岩宮秋山福茨栃群埼千東神新富石福山長岐静愛三滋京大兵奈和鳥島岡広山徳香愛高福佐長熊大宮鹿沖
海森手城田形島城木馬玉葉京奈潟山川井梨野阜岡知重賀都阪庫良歌取根山島口島川媛知岡賀崎本分崎児縄
道
川
山
島
2009年1月
2009年2月
2009年3月
2009年4月
2009年5月
2009年6月
2009年7月
2009年8月
2009年9月
2009年10月
2009年11月
2009年12月
2010年1月
2010年2月
2010年3月
2010年4月
2010年5月
2010年6月
2010年7月
2010年8月
2010年9月
2010年10月
2010年11月
2010年12月
2011年1月
2011年2月
2011年3月
2011年4月
2011年5月
2011年6月
2011年7月
2011年8月
2011年9月
2011年10月
2011年11月
2011年12月
2012年1月
2012年2月
2012年3月
2012年4月
2012年5月
2012年6月
2012年7月
2012年8月
2012年9月
2012年10月
2012年11月
2012年12月
2013年1月
2013年2月
2013年3月
2013年4月
2013年5月
2013年6月
2013年7月
2013年8月
2013年9月
2013年10月
2013年11月
2013年12月
2014年1月
2014年2月
2014年3月
2014年4月
2014年5月
2014年6月
2014年7月
2014年8月
完全失業率(%)
<折れ線グラフについての諸注意>
1.折れ線グラフを描く際に用いる時系列データは、原則として等間隔である。
完全失業率の推移(男女計・季節調整値)
6
5.5
5
4.5
4
3.5
3
すべて1か月間隔
2009年1月
2009年4月
2009年7月
2009年10月
2010年1月
2010年4月
2010年7月
2010年10月
2011年1月
2011年4月
2011年7月
2011年10月
2012年1月
2012年4月
2012年7月
2012年10月
2013年1月
2013年2月
2013年3月
2013年4月
2013年5月
2013年6月
2013年7月
2013年8月
2013年9月
2013年10月
2013年11月
2013年12月
2014年1月
2014年2月
2014年3月
2014年4月
2014年5月
2014年6月
2014年7月
2014年8月
完全失業率(%)
時系列データは、その発生間隔によって、年次、四半期、月次、週次、日次などさま
ざまなものがある。
たとえば、月次データの場合、データの間隔はすべて1月ずつであり、ある箇所だけ2
か月間隔や3か月間隔になったりしない。
完全失業率の推移(男女計・季節調整値)
6
5.5
5
4.5
4
3.5
3
3か月間隔
1か月間隔
(例外) 株や為替の動きの日次データは、営業日の関係上、土日(株は祝日も)を除
く毎日のデータとなる。
日経平均株価(週終値)
16,500
15,000
14,500
14,000
13,500
1月6日
1月13日
1月20日
1月27日
2月3日
2月10日
2月17日
2月24日
3月3日
3月10日
3月17日
3月24日
3月31日
4月7日
4月14日
4月21日
4月28日
5月5日
5月12日
5月19日
5月26日
6月2日
6月9日
6月16日
6月23日
6月30日
7月7日
7月14日
7月21日
7月28日
8月4日
8月11日
8月18日
8月25日
9月1日
9月8日
9月15日
9月22日
9月29日
2.折れ線グラフは、縦軸の
目盛のとり方によって、印象
が大きく変わる。
15,500
1月6日
1月13日
1月20日
1月27日
2月3日
2月10日
2月17日
2月24日
3月3日
3月10日
3月17日
3月24日
3月31日
4月7日
4月14日
4月21日
4月28日
5月5日
5月12日
5月19日
5月26日
6月2日
6月9日
6月16日
6月23日
6月30日
7月7日
7月14日
7月21日
7月28日
8月4日
8月11日
8月18日
8月25日
9月1日
9月8日
9月15日
9月22日
9月29日
1月6日
1月13日
1月20日
1月27日
2月3日
2月10日
2月17日
2月24日
3月3日
3月10日
3月17日
3月24日
3月31日
4月7日
4月14日
4月21日
4月28日
5月5日
5月12日
5月19日
5月26日
6月2日
6月9日
6月16日
6月23日
6月30日
7月7日
7月14日
7月21日
7月28日
8月4日
8月11日
8月18日
8月25日
9月1日
9月8日
9月15日
9月22日
9月29日
日経平均株価(週終値)
16,500
16,000
15,500
15,000
14,500
14,000
13,500
出典:Yahoo!ファイナンス
16,000
日経平均株価(週終値)
18,000
16,000
14,000
12,000
10,000
8,000
6,000
4,000
2,000
0
実質GDPの推移
<変化率>
2012年
517.5兆円
2013年
525.4兆円
なので、2013年の成長率は
525.4 − 517.5
× 100 ≒ 1.5
517.5
約1.5%となる。
520000
500000
480000
460000
440000
420000
年
出典:内閣府経済社会総合研究所『国民経済計算』
成長率の推移
6
4
2
0
-2
-4
-6
-8
年
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
400000
1994
という式で定義されるものが、
変化率である。
前年の値を基準にしたり、前
期(月次データにおける前月
など)の値を基準にしたりし、
そこからの変化の割合をあ
らわすものである。
実質GDPの年次データにお
いて、前年を基準とした変化
率は、成長率といわれる。
成長率(%)
現在の値 − 基準値
変化率(%) =
× 100
基準値
実質GDP(10億円)
540000
棒グラフは前述のように、クロスセクションデータ対
して用いるが、時系列データに用いられることも少な
くない。
 単位の異なる2つの時系列データを1つのグラフであら
わすとき、折れ線グラフと棒グラフを重ね合わせて表
現することがよくおこなわれる。

出生数(千人)
出生数と合計特殊出生率の推移
合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00
(厚生労働省『平成25年 人口動態統計』より作成)
3 000
2 500
3.50
2 000
3.00
1 500
2.50
2.00
1 000
1.50
1.00
500
0.50
1947
1950
1953
1956
1959
1962
1965
1968
1971
1974
1977
1980
1983
1986
1989
1992
1995
1998
2001
2004
2007
2010
2013
0.00
年次
2) 度数分布表とヒストグラム、度数折れ線
ⅰ) 度数分布表

質的変量であれば、それぞれに対応する観測値の数
(これを度数という)を数え、棒グラフにあらわすこ
とができる。
日付
打者
チーム
○月○日 中田 翔
日本ハム
△月△日 浅村 栄斗 西武
…
…
…
元のデータにおいてチーム名は
質的変量である。
チームごとに数を数える。
飛距離
120m
130m
…
チーム別本塁打数
(2014年9月30日終了時点、パ・リーグ)
本塁打数(本)
チーム
本塁打数
ソフトバンク
95
オリックス
107
日本ハム
118
ロッテ
94
楽天
77
西武
122
度数
140
120
100
80
60
40
20
0

では、連続変量もこのようにできるであろうか?
⇒ 連続変量の場合、とりうる値が多く、それぞれに対
応する観測値の数は非常に小さい。(離散変量でもと
りうる値が多ければ、このようなことが起こる)

質的変量の時と同じようにおこなうと、度数が1のも
のばかりになってしまう。
身長の棒グラフ(男子)
度数
出席番号 身長
1
170.3
3
168.2
4
171.0
5
175.4
6
165.7
9
177.1
10
165.0
1

178
176
177
175
175
173
174
172
173
171
171
169
170
168
169
166
167
165
166
0
このような棒グラフでは、集団の特徴がよくわからな
い。

そこで、データをいくつかの階級に分け、その階級に入る度数を
表の形でまとめた度数分布表を作成する必要がある。
サッカー日本代表
ブラジルW杯ベンチ入りメンバー
氏名
川島 永嗣
西川 周作
権田 修一
今野 泰幸
伊野波 雅彦
長友 佑都
森重 真人
内田 篤人
吉田 麻也
酒井 宏樹
酒井 高徳
遠藤 保仁
長谷部 誠
青山 敏弘
山口 蛍
大久保 嘉人
岡崎 慎司
本田 圭佑
香川 真司
清武 弘嗣
柿谷 曜一朗
斎藤 学
大迫 勇也
身長(cm) 体重(kg)
185
82
183
81
187
85
178
73
179
74
170
68
183
76
176
62
189
78
185
70
176
74
178
75
177
72
174
73
173
72
170
73
174
76
182
74
172
64
172
66
177
68
169
68
182
73
階
級
以上
165
170
175
180
185
未満
-
170
175
180
185
190
階級値
度数
167.5
172.5
177.5
182.5
187.5
計
† その階級を代表する値
を階級値という。階級の上
限と下限をたして2で割った
値が用いられることが多い。
1
7
7
4
4
23
ⅱ) ヒストグラム・度数折れ線
• 度数分布表を棒グラフであらわしたものをヒストグラムといい、
それぞれの棒は間隔をつめて描かれる。これは階級と階級
の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20
8
7
6
5
4
3
2
1
0
15
度数
軸ラベル
サッカー日本代表の身長
10
5
0
167.5
172.5
177.5
軸ラベル
182.5
187.5
159 161 163 165 167 169 171 173 175 177 179 181 183
階級値

度数分布表の階級の幅は原則として均一にする。ただ
し、貯蓄現在高のようにすべて均一にすることによっ
て、度数が極めて小さくなる場合には、一部の階級幅
を広げることもある。
† 質的変量や離散変量
の場合は、とりうる値1つ
1つが階級となる。
ただし、年収・貯蓄のよう
にとり得る値が多い場合
には、連続変量と同様に
階級を設定する。

度数分布表の階級幅、階級の上限と下限の値の取り方
によってヒストグラムは大きく変化する。
体重のヒストグラム(階級幅2kg)
体重のヒストグラム(階級幅5kg)
7
12
6
10
8
4
度数
度数
5
3
6
2
4
1
2
0
0
63
65
67
69
71
73
75
77
79
81
83
85
62.5
67.5
階級値
72.5
77.5
82.5
87.5
階級値
体重のヒストグラム(階級幅3kg(a))
体重のヒストグラム(階級幅3kg(b))
10
7
6
8
6
度数
度数
5
4
4
3
2
2
1
0
0
61.5
64.5
67.5
70.5
73.5
階級値
76.5
79.5
82.5
85.5
62.5
65.5
68.5
71.5
74.5
階級値
77.5
80.5
83.5
ⅲ) 幹葉表示




幹葉表示(みきはひょうじ、かんようひょうじ)とは、簡
易的なヒストグラムといえる。
例えば、テストの点数のような2ケタの数値であれば、
十の位の数を幹、一の位の数を葉として次ページのよ
うに表示する。
この表示によって、集団の分布がわかる。
度数分布表を作成するための予備的作業として用いる
ことも可能である。
右のデータはある
クラス38人分のテ
ストの点数のデー
タである。
このデータを幹葉
表示してみる。
0
1
2
3
4
5
6
7
8
9
39
63
44
44
22
69
69
66
67
78
34
33
7
7
0 0 0 0
0 4 6 3
3 6 7 7 4
8 4
3 9 9
8 3 5
8 7
7 1 3
4
4
3 6 9 0
予備的な幹葉表示
60
88
20
54
43
73
17
34
20
20
63
69
46 47 20 30
58 87 47 75
36 7 27 21
60 23
0
1
2
3
4
5
6
7
8
9
7
7
0
0
3
4
0
3
7
0
3
4
8
0
5
8
0 0 1 2 3 7
4 4 6 9
4 6 7 7
3 3 6 7 9 9 9
8
最終的な幹葉表示
<特徴と注意点>
 このような表示を用いることができるのは、とりうる
値が2ケタの数値が中心であり、せいぜい200までであ
ろう。たとえば136という数値の場合、13を幹、6を葉
にすればよい。
 小数点以下をとる場合は、1ケタまでとなり、整数部分
はせいぜい20までであろう。たとえば、7.2という数値
の場合、7を幹、2を葉として表示する。
0
1
2
3
:
9
10
11
12
13
0
1
2
:
6
7
8
9
10
6
2


幹葉表示は、度数分布表・ヒストグラムと異なり、階
級の幅を2cmとか5cmとかにすることは難しい。10の
倍数の階級幅のとき(1番得意なのは1のとき)、便利であ
る。
例えば、身長を階級幅5cmの度数分布表にまとめると
きは、「正」の字を書くなどして、予備的な作業をお
こなうことは可能である。
以上
160
165
170
175
未満
165
170
175
180
3) 円グラフ、帯グラフ
円グラフは相対的な割合を表現するときに用いられる。
 帯グラフは相対的な割合が、時間とともにどのように
変化していくかなどを表現するときに用いられる。

学年別の割合
年齢3階級別総人口の推移
年
1930
20%
1950
40%
2年
3年
4年
0-14歳
1970
15-64歳
65歳-
1990
2010
40%
0%
10人の学生の例から作成
50%
100%
出典:総務省統計局『国勢調査』
1) 代表値(中心的傾向)

ある集団についてのデータ(例えば50人のクラスの身
長など)があるとき、集団の特徴をあらわすには、そ
の中心的傾向を示す数値が必要となる。

中心的傾向をあらわす数値として、
› 算術平均
› メディアン(中央値)
› モード(最頻値)
の3種類がある。
ⅰ) 算術平均

算術平均 = データの合計 ÷ データ数
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑥=
=
𝑛
𝑛
𝑖=1 𝑥𝑖
𝑛
(例) 10人のテストの点数
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
𝑥=
=
= 60
10
10
ⅱ) メディアン(中央値、中位数)

メディアン → データを大きさの順に並べた
ときに真ん中にくる値。データ数が偶数のとき
は真ん中の2つの値を足して2で割る。
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
点数の低い順に並べ替え
10
20
50
60
60
70
80
80
80
90
真ん中
この2つを足して2で割った
(60+70)÷2=65がメディアン
ⅲ) モード(最頻値)

モード - データの中で最も多く出てくる
値。10人のテストの点数の例では
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。
ⅳ) 各代表値の特徴

下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。
A
B
20
C
20
D
22
E
28
30
仮想データ
•
この5人の収入の算術平均は
20 + 20 + 22 + 28 + 30 120
𝑥=
=
= 24
5
5
•
メディアンは、この場合、小さい順に並んでるので
•
モードは、
•
よって、算術平均は24、メディアンは22、モードは20となる。

次に、裕福なFさんがこの5人に加わったとする。
A
B
20
C
20
D
22
E
28
F
30
60
仮想データ
•
この6人の収入の算術平均は
𝑥=
20 + 20 + 22 + 28 + 30 + 60 180
=
= 30
6
6
•
メディアンは、真ん中の2人を足して2で割るので、(22+28)÷2=25
•
モードは、
•
よって、算術平均は30、メディアンは25、モードは20となる。

次に、より裕福なGさんがこの6人に加わったとする。
A
B
20
C
20
D
22
E
28
F
30
60
G
1220
仮想データ
•
この7人の収入の算術平均は
20 + 20 + 22 + 28 + 30 + 60 + 1220 1400
𝑥=
=
= 200
7
7
•
メディアンは、真ん中である。
•
モードは、
•
よって、算術平均は200、メディアンは28、モードは20となる。
別の例もみてみよう。
下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1739万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
1023万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿から見たファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/05.htm)
度数
右にゆがんだ分布の例
ゆがんだ分布であれば、算術平均とメ
ディアンは一致しない。(モードも一致
しない)
左右対称な分布であれば、算術平均と
メディアンは一致する。また、分布の山
が1つであれば、モードもこれに一致す
る。
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
階級
45
40
35
30
25
20
15
10
5
0
左右対称な分布の例(2)
度数
度数
左右対称な分布の例(1)
1
2
3
4
5
6
7
8
階級
9
10 11 12 13 14 15
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
階級
9
10 11 12 13 14 15
<正規分布>
 算術平均、メディアン、モードが等しくなる、山が1つの左
右対称の分布の中に、つりがね型†をした正規分布といわれ
るものがある。
 この分布は、数学的に非常に取り扱いやすい性質を持ってお
り、身長や知能指数などがこの分布にしたがうといわれてい
る。テストの点数もこのような分布になることが理想といわ
れている。
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
3
2.7
2.4
2.1
1.8
1.5
1.2
0.9
0.6
0.3
0
-0.3
-0.6
-0.9
-1.2
-1.5
-1.8
-2.1
-2.4
-2.7
-3
0
† 「つりがね型」は、bell curve の訳であり、日本の寺院にあるつりがねの形では
なく、教会にあるベルの形をしている。



算術平均は少数の極端な値が含まれるとき、
その集団の正しい代表値とならないことがあ
る。メディアンの方が少数の極端な値の影響
を受けづらい。
しかし、貯蓄現在高のように分布がゆがんで
いる場合には、メディアンでも集団の正しい
代表値とはいえない場合もある。(この場合
はモードが適切か)
しかし、算術平均は数学的な扱いやすさから、
代表値として非常に良く用いられている。
算術平均をうのみにしないようにしよう!
2) 散布度(散らばりの傾向)
教員A
教員B
• チャイムの5分後に必ず教室
にくる。
• チャイムと同時に教室にくるこ
ともあれば、10分以上遅れる
こともある。
• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位範囲、四分位偏差
などがある。
ⅰ) 分散

分散=偏差2乗和÷データ数
偏差2乗和 - 個々のデータから算術平均を引いたもの
(偏差)を2乗して、すべて加えたもの。
𝑠2
=
2
𝑥1 − 𝑥
+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛
𝑛
𝑖=1
2
=
𝑥𝑖 − 𝑥
𝑛
2
10人のテストの点数の例では
2
𝑠 =
60 − 60
2
+ 90 − 60
6400
=
= 640
10
2
+ 80 − 60
2
+ 50 − 60
2
+ 70 − 60
2
+ 10 − 60
10
2
+ 60 − 60
2
+ 80 − 60
2
+ 20 − 60
2
+ 80 − 60
2
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
-40
20
400 1600
400
算術平均60を引く
偏差
0
30
20
-10
10
-50
0
20
2乗を求める
0
900
400
100
100 2500
0
合計を求める
6400
データ数(10)で割る
640
分散
ⅱ) 標準偏差

標準偏差 ⇒
𝑠=
分散の平方根
𝑠2
=
𝑛
𝑖=1
𝑥𝑖 − 𝑥
𝑛
2
10人のテストの点数の例では
𝑠 = 640 =25.298…
※ 2人の教員が教室に来る時間の例
回
教員A
教員B
1
4.5
0
2
5.3
6
3
4.8
4
4
5
5
5
5.5
11
(単位:分)
6
4.7
4
7
5.2
8
8
4.8
5
9
4.9
1
10
5.3
6
教員A
𝑥𝐴 =
𝑠𝐴2 =
=
4.5 − 5
−0.5
2
2
4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10
+ 5.3 − 5
+ 0.3
2
2
+ −0.2
+ 4.8 − 5
2
+ 0
2
2
+ 5−5
+ 0.5
2
2
+ 5.5 − 5
+ −0.3
10
2
+ 0.2
2
+ 4.7 − 5
10
2
+ −0.2
=
0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10
=
0.9
= 0.09
10
𝑠𝐴 = 0.09 =0.3
2
2
+ 5.2 − 5
+ −0.1
2
2
+ 4.8 − 5
+ 0.3
2
=
2
50
10
=5
+ 4.9 − 5
2
+ 5.3 − 5
2
教員B
𝑥𝐵 =
0−5
+ 6−5
2
+ 4−5
2
+ 5−5
2
+ 11 − 5
2
50
10
=
+ 4−5 2+ 8−5
=
10
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10
90
=
=9
10
𝑠𝐵2
2
0+6+4+5+11+4+8+5+1+6
10
2
=5
+ 5−5
2
+ 1−5
2
+ 6−5
𝑠𝐵 = 9 =3
𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわかる。
標準偏差についても、𝑠𝐴 < 𝑠𝐵 と教員Bの方が大きくなる。
2
<標準化と標準正規分布>
 A君は、あるテストで英語が90点、数学が65点であっ
た。
⇒ 英語の方が数学より成績が良かった??
 英語の平均点が80点、数学の平均点が50点だった。
⇒ 英語は平均点より10点高い、数学は平均点より15点
高い。数学の方が良い??
 英語と数学のどちらが成績が良かったのだろうか?
⇒ 標準化の必要性(これを応用したものが偏差値)
平均や分散の異なるものを比較するとき、平均や分散をそろ
え、その相対的な位置によって比較しようというのが標準化
の考えである。
 標準化は次のような変換である。このようにして求められた
変量を標準化変量(zスコア)
𝑥𝑖 − 𝑥
𝑧𝑖 =
𝑠

英語が平均80点、標準偏差10であり、数学が平均50点、標
準偏差20であったとする。
 この例で、

英語は
90−80
10
=1
数学は
65−50
20
= 0.75
となり英語の方が成績が良いことになる。



zスコアの大小で、平均や分散の異なるものを比較する
ことができる。zスコアは算術平均0、標準偏差1の変量
であるが、これを算術平均50、標準偏差10の変量に変
換したものが偏差値(Tスコア)である。(算術平均50、標
準偏差10は100点満点のテストの点数のように見える)
偏差値はzスコアを次のように変換する。
𝑇𝑖 = 50 + 10 × 𝑧𝑖
先ほどの例では、
英語は 50 + 10 × 1 = 60
数学は 50 + 10 × 0.75 = 57.5
となる。
ⅲ) レンジ(範囲)
• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80
ⅳ) 四分位範囲、四分位偏差
データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3と
する。
 このとき、四分位範囲、四分位偏差は次式で定義される。

四分位範囲 = 𝑞3 − 𝑞1
𝑞3 − 𝑞1
四分位偏差 =
2
最小値
q1
q2
q3
最大値
(例)9人のテストの点数が次のようになって
いたとする。
出席番号
点数
1
60
2
90
3
80
4
50
5
6
7
8
9
70
10
60
80
20
点数の低い順に並べ替え
10
20
50
60
60
q1
q2
最小値
70
80
q3
80
90
最大値
(メディアン)
q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値
四分位範囲 = 80 − 50 = 30
四分位偏差 =
80 − 50 30
=
= 15
2
2
<箱ひげ図>
最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。
下の図は、9人のテストの点数を箱ひげ図に表した1例である。
9人のテストの点数の箱ひげ図
100
最大値
90
q3(第3四分位点)
80
70
60
中央値
50
q1(第1四分位点)
40
30
20
10
0
※ 箱ひげ図は横向きに描かれることもある。
最小値