統計学基礎Ⅱ

Ⅰ
表・グラフによる記述
1) 折れ線グラフと棒グラフ
2) 度数分布表とヒストグラム、度数折れ線
ⅰ) 度数分布表
ⅱ) ヒストグラムと度数折れ線
ⅲ) 幹葉表示
3) 円グラフ、帯グラフ
Ⅱ 特性値による記述
1) 代表値(中心的傾向)
ⅰ)
ⅱ)
ⅲ)
ⅳ)
算術平均
メディアン(中央値)
モード(最頻値)
各代表値の特徴
2) 散布度(散らばりの傾向)
ⅰ)
ⅱ)
ⅲ)
ⅳ)
分散
標準偏差
レンジ
四分位偏差

データのまとめ方には
1.表・グラフによる記述(視覚的表現)
2.特性値による記述(数値的表現)
がある。
表・グラフによる記述は、データの特徴を一目
でとらえやすくするためにおこなわれる。
 特性値による記述は、データの特徴をまとめ、
それを用いた分析をおこなうことが中心的な役
割である。

1) 折れ線グラフと棒グラフ


ともにさまざまなデータの表現に利用される。
折れ線グラフは、主に時系列データ(時間の順序によって並べた
データ)に利用される。棒グラフは時系列データにもクロスセク
ションデータ(1時点におけるデータを何らかの項目でまとめたも
の)にも利用される。
完全失業率の推移(男女計・季節調整値)
チーム別本塁打数
(2011年9月29日現在、パ・リーグ)
本塁打数(本)
100
2007年01月
2007年03月
2007年05月
2007年07月
2007年09月
2007年11月
2008年01月
2008年03月
2008年05月
2008年07月
2008年09月
2008年11月
2009年01月
2009年03月
2009年05月
2009年07月
2009年09月
2009年11月
2010年01月
2010年03月
2010年05月
2010年07月
2010年09月
2010年11月
2011年01月
(%)
6.0
5.5
5.0
4.5
4.0
3.5
3.0
80
60
40
20
0
年・月
出典:総務省統計局『労働力調査』
出典:日本野球機構オフィシャルサイト
<時系列データとクロスセクションデータ>
(例) 交通事故死亡者数の推移(中国地方5県)
(データ出典: 警察庁「交通事故死者数について」)
(単位:人)
年
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
鳥取県
61
79
61
51
45
39
34
30
37
42
島根県
72
73
74
47
69
46
42
42
33
31
岡山県
190
169
175
159
148
144
115
114
107
109
広島県
251
202
187
189
187
165
132
128
142
127
鳥取県の交通事故死亡者数の年次推移
→ 時系列データ
2010年の県別交通事故死亡者数
→ クロスセクションデータ
山口県
152
141
129
106
116
108
115
91
108
96
都道府県別高等学校数
(2008年5月1日現在)
クロスセクション
データには、通常
棒グラフを用いる。
500
450
400
350
300
250
200
150
100
50
0
北青岩宮秋山福茨栃群埼千東神新富石福山長岐静愛三滋京大兵奈和鳥島岡広山徳香愛高福佐長熊大宮鹿沖
海森手城田形島城木馬玉葉京奈潟山川井梨野阜岡知重賀都阪庫良歌取根山島口島川媛知岡賀崎本分崎児縄
山
道
川
島
出典:文部科学省『学校基本調査』
右の図は上の図
を折れ線グラフで
描きなおしたもの
であるが、隣り合
う県†どうしを線で
結んでも、そこに
意味はない。
†都道府県コードの順
なので、必ずしも隣接
してはいない。
都道府県別高等学校数
(2008年5月1日現在)
500
450
400
350
300
250
200
150
100
50
0
???
北青岩宮秋山福茨栃群埼千東神新富石福山長岐静愛三滋京大兵奈和鳥島岡広山徳香愛高福佐長熊大宮鹿沖
海森手城田形島城木馬玉葉京奈潟山川井梨野阜岡知重賀都阪庫良歌取根山島口島川媛知岡賀崎本分崎児縄
山
道
川
島
1.折れ線グラフを描く際
に用いる時系列データは、
原則として等間隔である。
(%)
6.0
5.5
5.0
4.5
4.0
3.5
3.0
2007年01月
2007年02月
2007年03月
2007年04月
2007年05月
2007年06月
2007年07月
2007年08月
2007年09月
2007年10月
2007年11月
2007年12月
2008年01月
2008年02月
2008年03月
2008年04月
2008年05月
2008年06月
2008年07月
2008年08月
2008年09月
2008年10月
2008年11月
2008年12月
2009年01月
2009年02月
2009年03月
2009年04月
2009年05月
2009年06月
2009年07月
2009年08月
2009年09月
2009年10月
2009年11月
2009年12月
2010年01月
2010年02月
2010年03月
2010年04月
2010年05月
2010年06月
2010年07月
2010年08月
2010年09月
2010年10月
2010年11月
2010年12月
2011年01月
2011年02月
<折れ線グラフについての諸注意>
完全失業率の推移(男女計・季節調整値)
年・月
時系列データは、その発生間隔によって、年次、四半期、月次、週次、日次などさま
ざまなものがある。
たとえば、月次データの場合、データの間隔はすべて1月ずつであり、ある箇所だけ2
か月間隔や3か月間隔になったりしない。
(例外) 株や為替の動きの日次データは、営業日の関係上、土日(株は祝日も)を除
く毎日のデータとなる。
日経平均株価(週終値)
10,000
9,500
9,000
8,500
1月3日
1月10日
1月17日
1月24日
1月31日
2月7日
2月14日
2月21日
2月28日
3月7日
3月14日
3月21日
3月28日
4月4日
4月11日
4月18日
4月25日
5月2日
5月9日
5月16日
5月23日
5月30日
6月6日
6月13日
6月20日
6月27日
7月4日
7月11日
7月18日
7月25日
8月1日
8月8日
8月15日
8月22日
8月29日
9月5日
9月12日
2.折れ線グラフは、縦軸の
目盛のとり方によって、印象
が大きく変わる。
11,000
1月3日
1月10日
1月17日
1月24日
1月31日
2月7日
2月14日
2月21日
2月28日
3月7日
3月14日
3月21日
3月28日
4月4日
4月11日
4月18日
4月25日
5月2日
5月9日
5月16日
5月23日
5月30日
6月6日
6月13日
6月20日
6月27日
7月4日
7月11日
7月18日
7月25日
8月1日
8月8日
8月15日
8月22日
8月29日
9月5日
9月12日
1月3日
1月10日
1月17日
1月24日
1月31日
2月7日
2月14日
2月21日
2月28日
3月7日
3月14日
3月21日
3月28日
4月4日
4月11日
4月18日
4月25日
5月2日
5月9日
5月16日
5月23日
5月30日
6月6日
6月13日
6月20日
6月27日
7月4日
7月11日
7月18日
7月25日
8月1日
8月8日
8月15日
8月22日
8月29日
9月5日
9月12日
日経平均株価(週終値)
12,000
10,000
8,000
6,000
4,000
2,000
0
出典:Yahoo!ファイナンス
10,500
日経平均株価(週終値)
11,000
10,500
10,000
9,500
9,000
8,500
実質GDPの推移
<変化率>
という式で定義されるものが、
変化率である。
前年の値を基準にしたり、前
期(月次データにおける前月
など)の値を基準にしたりし、
そこからの変化の割合をあ
らわすものである。
実質GDPの年次データにお
いて、前年を基準とした変化
率は、成長率といわれる。
2009年
519兆円
2010年
540兆円
なので、2010年の成長率は
540  519
 100  4.04 
519
約4.0%となる。
実質GDP(10億円)
現在の値  基準値
100
基準値
550000
500000
450000
400000
350000
300000
250000
200000
1980198219841986198819901992199419961998200020022004200620082010
年
出典:内閣府経済社会総合研究所『国民経済計算』
成長率の推移
8
6
4
成長率(%)
変化率(%) 
600000
2
0
-2
-4
-6
-8
1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 2007 2009
年
棒グラフは前述のように、クロスセクションデータ対
して用いるが、時系列データに用いられることも少な
くない。
 単位の異なる2つの時系列データを1つのグラフであら
わすとき、折れ線グラフと棒グラフを重ね合わせて表
現することがよくおこなわれる。

出生数と合計特殊出生率の推移
出生数(千人)
(厚生労働省『平成21年 人口動態統計』より作成)
3 000
合計特殊出生率
年間出生数
2 500
合計特殊出生率
2 000
1 500
1 000
1947
1950
1953
1956
1959
1962
1965
1968
1971
1974
1977
1980
1983
1986
1989
1992
1995
1998
2001
2004
2007
500
年次
5.00
4.50
4.00
3.50
3.00
2.50
2.00
1.50
1.00
0.50
0.00
2) 度数分布表とヒストグラム、度数折れ線
ⅰ) 度数分布表

質的変量であれば、それぞれに対応する観測値の数
(これを度数という)を数え、棒グラフにあらわすこ
とができる。
日付
打者
チーム
飛距離
○月○日 多村 仁志 ソフトバンク
120m
△月△日 中村 剛也 西武
130m
…
…
…
…
元のデータにおいてチーム名は
質的変量である。
チームごとに数を数える。
チーム別本塁打数
(2011年9月29日現在、パ・リーグ)
チーム
本塁打数
ソフトバンク
86
日本ハム
80
オリックス
70
西武
94
楽天
52
ロッテ
40
本塁打数(本)
100
80
60
40
20
0
度数

では、連続変量もこのようにできるであろうか?
⇒ 連続変量の場合、とりうる値が多く、それぞれに対
応する観測値の数は非常に小さい。(離散変量でもと
りうる値が多ければ、このようなことが起こる)

質的変量の時と同じようにおこなうと、度数が1のも
のばかりになってしまう。
身長の棒グラフ(男子)
度数
出席番号 身長
1
170.3
3
168.2
4
171.0
5
175.4
6
165.7
9
177.1
10
165.0
1

178
176
177
175
175
173
174
172
173
171
171
169
170
168
169
166
167
165
166
0
このような棒グラフでは、集団の特徴がよくわからな
い。

そこで、データをいくつかの階級に分け、その階級に入る度数を
表の形でまとめた度数分布表を作成する必要がある。
なでしこジャパン
ロンドン五輪予選ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
上尾野辺 めぐみ
岩清水 梓
鮫島 彩
田中 明日菜
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
宇津木 瑠美
安藤 梢
丸山 桂里奈
大野 忍 永里 優季
永里 亜紗乃
高瀬 愛実
身長(cm) 体重(kg)
165
66
170
64
161
53
164
55
157
54
162
54
162
53
164
52
171
59
164
55
157
50
157
50
165
58
168
63
164
57
163
56
154
50
168
60
165
58
165
59
階
級
以上
150
155
160
165
170
未満
-
155
160
165
170
175
階級値
度数
152.5
157.5
162.5
167.5
172.5
計
† その階級を代表する値
を階級値という。階級の上
限と下限をたして2で割った
値が用いられることが多い。
1
3
8
6
2
20
ⅱ) ヒストグラム・度数折れ線
• 度数分布表を棒グラフであらわしたものをヒストグラムといい、
それぞれの棒は間隔をつめて描かれる。これは階級と階級
の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20
9
8
7
6
5
4
3
2
1
0
15
度数
度数
なでしこジャパンの身長
10
5
0
152.5
157.5
162.5
階級値
167.5
172.5
159 161 163 165 167 169 171 173 175 177 179 181 183
階級値

度数分布表の階級の幅は原則として均一にする。ただ
し、貯蓄現在高のようにすべて均一にすることによっ
て、度数が極めて小さくなる場合には、一部の階級幅
を広げることもある。
† 質的変量や離散変量
の場合は、とりうる値1つ
1つが階級となる。
ただし、年収・貯蓄のよう
にとり得る値が多い場合
には、連続変量と同様に
階級を設定する。
度数分布表の階級幅、階級の上限と下限の値の取り方
によってヒストグラムは大きく変化する。

体重のヒストグラム(階級幅5kg)
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
度数
度数
体重のヒストグラム(階級幅2kg)
51
53
55
57
59
61
63
65
67
9
8
7
6
5
4
3
2
1
0
62.5
67.5
階級値
77.5
階級値
体重のヒストグラム(階級幅3kg(a))
体重のヒストグラム(階級幅3kg(b))
7
6
5
4
3
2
1
0
6
5
4
度数
度数
72.5
3
2
1
51.5
54.5
57.5
60.5
階級値
63.5
66.5
0
49.5
52.5
55.5
58.5
階級値
61.5
64.5
67.5
ⅲ) 幹葉表示




幹葉表示(みきはひょうじ、かんようひょうじ)とは、簡
易的なヒストグラムといえる。
例えば、テストの点数のような2ケタの数値であれば、
十の位の数を幹、一の位の数を葉として次ページのよ
うに表示する。
この表示によって、集団の分布がわかる。
度数分布表を作成するための予備的作業として用いる
ことも可能である。
右のデータはある
クラス38人分のテ
ストの点数のデー
タである。
このデータを幹葉
表示してみる。
0
1
2
3
4
5
6
7
8
9
39
63
44
44
22
69
69
66
67
78
34
33
7
7
0 0 0 0
0 4 6 3
3 6 7 7 4
8 4
3 9 9
8 3 5
8 7
7 1 3
4
4
3 6 9 0
予備的な幹葉表示
60
88
20
54
43
73
17
34
20
20
63
69
46 47 20 30
58 87 47 75
36 7 27 21
60 23
0
1
2
3
4
5
6
7
8
9
7
7
0
0
3
4
0
3
7
0
3
4
8
0
5
8
0 0 1 2 3 7
4 4 6 9
4 6 7 7
3 3 6 7 9 9 9
8
最終的な幹葉表示
<特徴と注意点>
 このような表示を用いることができるのは、とりうる
値が2ケタの数値が中心であり、せいぜい200までであ
ろう。たとえば136という数値の場合、13を幹、6を葉
にすればよい。
 小数点以下をとる場合は、1ケタまでとなり、整数部分
はせいぜい20までであろう。たとえば、7.2という数値
の場合、7を幹、2を葉として表示する。
0
1
2
3
:
9
10
11
12
13
0
1
2
:
6
7
8
9
10
6
2


幹葉表示は、度数分布表・ヒストグラムと異なり、階
級の幅を2cmとか5cmとかにすることは難しい。10の
倍数の階級幅のとき(1番得意なのは1のとき)、便利であ
る。
例えば、身長を階級幅5cmの度数分布表にまとめると
きは、「正」の字を書くなどして、予備的な作業をお
こなうことは可能である。
以上
160
165
170
175
未満
165
170
175
180
3) 円グラフ、帯グラフ
円グラフは相対的な割合を表現するときに用いられる。
 帯グラフは相対的な割合が、時間とともにどのように
変化していくかなどを表現するときに用いられる。

学年別の割合
年齢3階級別総人口の推移
年
1930
20%
1950
40%
2年
3年
4年
0-14歳
15-64歳
65歳-
1970
1990
2005
40%
0%
10人の学生の例から作成
20%
40%
60%
80%
100%
出典:総務省統計局『国勢調査』
1) 代表値(中心的傾向)

ある集団についてのデータ(例えば50人のクラスの身
長など)があるとき、集団の特徴をあらわすには、そ
の中心的傾向を示す数値が必要となる。

中心的傾向をあらわす数値として、
› 算術平均
› メディアン(中央値)
› モード(最頻値)
の3種類がある。
ⅰ) 算術平均

算術平均 = データの合計 ÷ データ数
n
x  x    xn
x 1 2

n
x
i 1
i
n
(例) 10人のテストの点数
出席番号
点数
x
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
60  90  80  50  70  10  60  80  20  80 600

 60
10
10
ⅱ) メディアン(中央値、中位数)

メディアン → データを大きさの順に並べた
ときに真ん中にくる値。データ数が偶数のとき
は真ん中の2つの値を足して2で割る。
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
点数の低い順に並べ替え
10
20
50
60
60
70
80
80
80
90
真ん中
この2つを足して2で割った
(60+70)÷2=65がメディアン
ⅲ) モード(最頻値)

モード - データの中で最も多く出てくる
値。10人のテストの点数の例では
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。
ⅳ) 各代表値の特徴

下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。
A
B
20
C
20
D
22
E
28
30
仮想データ
•
この5人の収入の算術平均は
20  20  22  28  30 120
x

 24
5
5
•
メディアンは、この場合、小さい順に並んでるので
•
モードは、
•
よって、算術平均は24、メディアンは22、モードは20となる。

次に、裕福なFさんがこの5人に加わったとする。
A
B
20
C
20
D
22
E
28
F
30
60
仮想データ
•
この6人の収入の算術平均は
20  20  22  28  30  60 180
x

 30
6
6
•
メディアンは、真ん中の2人を足して2で割るので、(22+28)÷2=25
•
モードは、
•
よって、算術平均は30、メディアンは25、モードは20となる。

次に、より裕福なGさんがこの6人に加わったとする。
A
B
20
C
20
D
22
E
28
F
30
60
G
1220
仮想データ
•
この7人の収入の算術平均は
20  20  22  28  30  60  1220 1400
x

 200
7
7
•
メディアンは、真ん中である。
•
モードは、
•
よって、算術平均は200、メディアンは28、モードは20となる。
別の例もみてみよう。
下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1657万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
995万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿から見たファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#1)
度数
右にゆがんだ分布の例
ゆがんだ分布であれば、算術平均とメ
ディアンは一致しない。(モードも一致
しない)
左右対称な分布であれば、算術平均と
メディアンは一致する。また、分布の山
が1つであれば、モードもこれに一致す
る。
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
階級
45
40
35
30
25
20
15
10
5
0
左右対称な分布の例(2)
度数
度数
左右対称な分布の例(1)
1
2
3
4
5
6
7
8
階級
9
10 11 12 13 14 15
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
階級
9
10 11 12 13 14 15
<正規分布>
 算術平均、メディアン、モードが等しくなる、山が1つの左
右対称の分布の中に、つりがね型†をした正規分布といわれ
るものがある。
 この分布は、数学的に非常に取り扱いやすい性質を持ってお
り、身長や知能指数などがこの分布にしたがうといわれてい
る。テストの点数もこのような分布になることが理想といわ
れている。
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
3
2.7
2.4
2.1
1.8
1.5
1.2
0.9
0.6
0.3
0
-0.3
-0.6
-0.9
-1.2
-1.5
-1.8
-2.1
-2.4
-2.7
-3
0
† 「つりがね型」は、bell curve の訳であり、日本の寺院にあるつりがねの形では
なく、教会にあるベルの形をしている。



算術平均は少数の極端な値が含まれるとき、
その集団の正しい代表値とならないことがあ
る。メディアンの方が少数の極端な値の影響
を受けづらい。
しかし、貯蓄現在高のように分布がゆがんで
いる場合には、メディアンでも集団の正しい
代表値とはいえない場合もある。(この場合
はモードが適切か)
しかし、算術平均は数学的な扱いやすさから、
代表値として非常に良く用いられている。
算術平均をうのみにしないようにしよう!
2) 散布度(散らばりの傾向)
教員A
教員B
• チャイムの5分後に必ず教室
にくる。
• チャイムと同時に教室にくるこ
ともあれば、10分以上遅れる
こともある。
• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差
などがある。
ⅰ) 分散

分散=偏差2乗和÷データ数
偏差2乗和 - 個々のデータから算術平均を引いたもの
(偏差)を2乗して、すべて加えたもの。
n
( x1  x ) 2  ( x2  x ) 2    ( xn  x ) 2
s 

n
2
 (x  x)
i 1
2
i
n
10人のテストの点数の例では
(60 60)2  (90 60)2  (80 60)2  (50 60)2  (70 60)2  (10 60)2  (60 60)2  (80 60)2  (20 60)2  (80 60)2
s 
10
2

6400
 640
10
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
-40
20
400 1600
400
算術平均60を引く
偏差
0
30
20
-10
10
-50
0
20
2乗を求める
0
900
400
100
100 2500
0
合計を求める
6400
データ数(10)で割る
640
分散
ⅱ) 標準偏差

標準偏差 ⇒
分散の平方根
n
s  s2 
2
(
x

x
)
 i
i 1
n
10人のテストの点数の例では
s  640  25.298
※ 2人の教員が教室に来る時間の例
回
教員A
教員B
1
4.5
0
2
5.3
6
3
4.8
4
4
5
5
5
5.5
11
(単位:分)
6
4.7
4
7
5.2
8
8
4.8
5
9
4.9
1
10
5.3
6
教員A
xA 
4.5  5.3  4.8  5  5.5  4.7  5.2  4.8  4.9  5.3 50

5
10
10
(4.5  5) 2  (5.3  5) 2  (4.8  5) 2  (5  5) 2  (5.5  5) 2  (4.7  5) 2  (5.2  5) 2  (4.8  5) 2  (4.9  5) 2  (5.3  5) 2
10
2
2
2
2
2
2
2
(0.5)  (0.3)  (0.2)  (0)  (0.5)  (0.3)  (0.2)  (0.2) 2  (0.1) 2  (0.3) 2

10
0.25  0.09  0.04  0  0.25  0.09  0.04  0.04  0.01 0.09

10
0.9

 0.09
10
s A2 
sA  0.09  0.3
教員B
0  6  4  5  11  4  8  5  1  6 50
xB 

5
10
10
(0  5) 2  (6  5) 2  (4  5) 2  (5  5) 2  (11 5) 2  (4  5) 2  (8  5) 2  (5  5) 2  (1  5) 2  (6  5) 2
s 
10
(5) 2  (1) 2  (1) 2  (0) 2  (6) 2  (1) 2  (3) 2  (0) 2  (4) 2  (1) 2

10
25  1  1  0  36  1  9  0  16  1

10
90

9
10
2
B
sB  9  3
s A2  sB2 となり、教員Bの分散の方が大きいことがわかる。
標準偏差も s A  sB である。
<標準化と標準正規分布>
 A君は、あるテストで英語が90点、数学が65点であっ
た。
⇒ 英語の方が数学より成績が良かった??
 英語の平均点が80点、数学の平均点が50点だった。
⇒ 英語は平均点より10点高い、数学は平均点より15点
高い。数学の方が良い??
 英語と数学のどちらが成績が良かったのだろうか?
⇒ 標準化の必要性(これを応用したものが偏差値)
平均や分散の異なるものを比較するとき、平均や分散をそろ
え、その相対的な位置によって比較しようというのが標準化
の考えである。
 標準化は次のような変換である。このようにして求められた
変量を標準化変量(zスコア)

zi 
xi  x
s
英語が平均80点、標準偏差10であり、数学が平均50点、標
準偏差20であったとする。
 この例で、

英語は
数学は
90  80
1
10
65  50
 0.75
20
となり英語の方が成績が良いことになる。


zスコアの大小で、平均や分散の異なるものを比較する
ことができる。zスコアは算術平均0、標準偏差1の変量
であるが、これを算術平均50、標準偏差10の変量に変
換したものが偏差値(Tスコア)である。(算術平均50、標
準偏差10は100点満点のテストの点数のように見える)
偏差値はzスコアを次のように変換する。
Ti  50  10 zi

先ほどの例では、
英語は
数学は
となる。
50  10 1  60
50  10  0.75  57.5
ⅲ) レンジ(範囲)
• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80
ⅳ) 四分位偏差


データを大きさの順(小さい順)に並べて、4分割する
点をq1,q2,q3とする。
このとき、次式で定義されるQを四分位偏差という。
Q
最小値
q1
(q3  q1 )
2
q2
q3
最大値
(例)9人のテストの点数が次のようになって
いたとする。
出席番号
点数
1
60
2
90
3
80
4
50
5
6
7
8
9
70
10
60
80
20
点数の低い順に並べ替え
10
20
50
60
60
q1
q2
最小値
70
80
q3
80
90
最大値
(メディアン)
q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値
Q
(80  50) 30

 15
2
2
<箱ひげ図>
最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。
下の図は、9人のテストの点数を箱ひげ図に表した1例である。
9人のテストの点数の箱ひげ図
100
最大値
90
q3(第3四分位点)
80
70
60
50
×
中央値
q1(第1四分位点)
40
30
20
10
0
最小値