第1章記述統計の復習

第1章記述統計の復習
統計学 2014年度
Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 特性値による記述
1) 代表値（中心的傾向）
ⅰ) 算術平均 ⅱ) メディアン ⅲ) モード ⅳ) 各代表値の特徴
2) 散布度（散らばりの傾向）
ⅰ) 分散 ⅱ) 標準偏差 ⅲ) レンジ ⅳ) 四分位範囲、四分位偏差
b) 表・グラフによる記述
1)
2)
3)
4)
5)
折れ線グラフ・棒グラフ・円グラフ・帯グラフ
度数分布表
ヒストグラム・度数折れ線
箱ひげ図
度数分布表における算術平均・分散
Ⅲ 2変量データのまとめ方
a) 特性値による記述
1) 相関係数
b) 表・グラフによる記述
1) 分割表（クロス集計表）・2次元ヒストグラム
2) 散布図
Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号学年性別出身地身長
体重
家族の人数テストの点数
1
2
男山口県 170.3
61.2
1
60
2
3
女山口県 155.4
48.6
4
90
3
4
男広島県 168.2
54.2
5
80
4
2
男福岡県 171.0
58.5
3
50
5
2
男島根県 175.4
57.6
2
70
6
3
男山口県 165.7
63.5
1
10
7
4
女広島県 157.2
50.1
1
60
8
3
女愛媛県 162.3
53.4
4
80
9
2
男山口県 177.1
63.0
3
20
10
3
男山口県 165.0
52.5
3
80
• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量（変数）について、10個の観測値を持つデー
タ。
• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号学年性別出身地身長
体重
家族の人数テストの点数
1
2
1
35
170.3
61.2
1
60
2
3
2
35
155.4
48.6
4
90
3
4
1
34
168.2
54.2
5
80
4
2
1
40
171.0
58.5
3
50
5
2
1
32
175.4
57.6
2
70
6
3
1
35
165.7
63.5
1
10
7
4
2
34
157.2
50.1
1
60
8
3
2
38
162.3
53.4
4
80
9
2
1
35
177.1
63.0
3
20
10
3
1
35
165.0
52.5
3
80
この例では出身地（都道府県コード）、性別（男－１、女－２）を
数値で表している。
この表にある変量は次のように分類することができる。
質的変量（質的変数）
量的変量（量的変数）
性別、学年、出身地など
離散変量（離散変数）
家族の人数、テストの点数など
連続変量（連続変数）
身長、体重など
＜質的変量と量的変量＞
•
•
•
数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。
＜離散変量と連続変量＞
•
•
•
量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。
テストの点数（離散変量）
50
51
52
53
身長（連続変量）
170
171
172
173
データの種類によって、まとめ方が異なる
Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 特性値による記述（数値的表現）
2. 表・グラフによる記述（視覚的表現）
がある。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割である。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
a) 特性値による記述
1) 代表値（中心的傾向）
• ある集団についてのデータ（例えば50人のクラスの身長な
ど）があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン（中央値）
– モード（最頻値）
の3種類がある。
ⅰ) 算術平均
• 算術平均＝データの合計 ÷ データ数
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑥=
=
𝑛
𝑛
𝑖=1 𝑥𝑖
𝑛
（例） 10人のテストの点数
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
𝑥=
=
= 60
10
10
ⅱ) メディアン（中央値、中位数）
• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
点数の低い順に並べ替え
10
20
50
60
60
70
80
80
80
90
真ん中
この2つを足して2で割った
（60＋70）÷2=65がメディアン
ⅲ) モード（最頻値）
• モード－データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。
ⅳ) 各代表値の特徴
• 下の表は2013年のオリックスバファローズと埼玉西武ラ
イオンズの投手別勝利数（上位4人）である。
オリックス
金子
西
ディクソン
マエストリ
算術平均
メディアン
埼玉西武
15
9
8
7
岸
野上
サファテ
菊池
9.75 算術平均
8.5 メディアン
11
11
9
9
10
10
データ出典：日本野球機構オフィシャルサイト(www.npb.or.jp)
•
•
オリックスの算術平均は9.75勝、西武の算術平均は10勝と、差はあまり大き
くない。
オリックスは、算術平均以上は金子1人で、メディアンは8.5勝と小さくなるの
に対し、西武は、算術平均以上と以下が2人ずつで、メディアンも10勝となる。
これは2013年のオリックスが、金子1人に頼っていたのに対し、西武は合格
点の投手が多数いたことを示している。
下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1658万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
1001万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典：総務省統計局『家計簿から見たファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/05.htm)
度数
右にゆがんだ分布の例
ゆがんだ分布であれば、算術平均とメ
ディアンは一致しない。（モードも一致
しない）
左右対称な分布であれば、算術平均と
メディアンは一致する。また、分布の山
が1つであれば、モードもこれに一致す
る。
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
階級
45
40
35
30
25
20
15
10
5
0
左右対称な分布の例(2)
度数
度数
左右対称な分布の例(1)
1
2
3
4
5
6
7
8
階級
9
10 11 12 13 14 15
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
階級
9
10 11 12 13 14 15
• 算術平均は少数の極端な値が含まれるとき、
その集団の正しい代表値とならないことがある。
メディアンの方が少数の極端な値の影響を受
けづらい。
• しかし、貯蓄現在高のように分布がゆがんでい
る場合には、メディアンでも集団の正しい代表
値とはいえない場合もある。（この場合はモー
ドが適切か）
• しかし、算術平均は数学的な扱いやすさから、
代表値として非常に良く用いられている。
算術平均をうのみにしないようにしよう！
b) 特性値による記述
1) 散布度（散らばりの傾向）
教員A
• チャイムの５分後に必ず教室
にくる。
教員B
• チャイムと同時に教室にくるこ
ともあれば、１０分以上遅れる
こともある。
• ２人の教員はともに平均してチャイムの５分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ（範囲）、四分位偏差
などがある。
ⅰ）分散
• 分散＝偏差2乗和÷データ数
偏差2乗和－個々のデータから算術平均を引いたもの（偏
差）を2乗して、すべて加えたもの。
𝑠2
𝑥1 − 𝑥
=
2
+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛
𝑛
𝑖=1
2
=
𝑥𝑖 − 𝑥
𝑛
2
10人のテストの点数の例では
2
𝑠 =
60 − 60
2
+ 90 − 60
6400
=
= 640
10
2
+ 80 − 60
2
+ 50 − 60
2
+ 70 − 60
2
+ 10 − 60
10
2
+ 60 − 60
2
+ 80 − 60
2
+ 20 − 60
2
+ 80 − 60
2
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
-40
20
400 1600
400
算術平均60を引く
偏差
0
30
20
-10
10
-50
0
20
2乗を求める
0
900
400
100
100 2500
0
合計を求める
６４００
データ数(10)で割る
640
分散
ⅱ）標準偏差
• 標準偏差 ⇒ 分散の平方根
𝑠=
𝑠2 =
𝑛
𝑖=1
𝑥𝑖 − 𝑥
𝑛
10人のテストの点数の例では
𝑠 = 640 =25.298…
2
※ 2人の教員が教室に来る時間の例
回
教員A
教員B
1
4.5
0
2
5.3
6
3
4.8
4
4
5
5
5
5.5
11
(単位:分)
6
4.7
4
7
5.2
8
8
4.8
5
9
4.9
1
10
5.3
6
教員A
𝑥𝐴 =
𝑠𝐴2 =
=
4.5 − 5
−0.5
2
2
4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10
+ 5.3 − 5
+ 0.3
2
2
+ −0.2
+ 4.8 − 5
2
+ 0
2
2
+ 5−5
+ 0.5
2
2
+ 5.5 − 5
+ −0.3
10
2
+ 0.2
2
+ 4.7 − 5
10
2
+ −0.2
=
0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10
=
0.9
= 0.09
10
𝑠𝐴 = 0.09 =0.3
2
2
+ 5.2 − 5
+ −0.1
2
2
+ 4.8 − 5
+ 0.3
2
=
2
50
10
+ 4.9 − 5
=5
2
+ 5.3 − 5
2
教員B
𝑥𝐵 =
0−5
+ 6−5
2
+ 4−5
2
+ 5−5
2
+ 11 − 5
2
=
+ 4−5 2+ 8−5
=
10
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10
90
=
=9
10
𝑠𝐵2
2
0+6+4+5+11+4+8+5+1+6
10
50
10
2
=5
+ 5−5
2
+ 1−5
2
+ 6−5
𝑠𝐵 = 9 =3
𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわかる。
標準偏差についても、𝑠𝐴 < 𝑠𝐵 と教員Bの方が大きくなる。
2
ⅲ）レンジ（範囲）
• レンジ ⇒ データの取りうる範囲
レンジ＝最大値－最小値
• 10人のテストの点数の例では
90 - 10＝８０
ⅳ）四分位範囲、四分位偏差
• データを大きさの順（小さい順）に並べて、4分割する点をq1,q2,q3とする。
• このとき、四分位範囲、四分位偏差は次式で定義される。
四分位範囲 = 𝑞3 − 𝑞1
𝑞3 − 𝑞1
四分位偏差 =
2
最小値
q1
q2
q3
最大値
（例）9人のテストの点数が次のようになってい
たとする。
出席番号
点数
1
60
2
90
3
80
4
50
5
6
7
8
9
70
10
60
80
20
点数の低い順に並べ替え
10
20
50
60
60
最小値
q1
q2
70
80
q3
80
90
最大値
（メディアン）
q1⇒最小値とq2（メディアン）の真ん中の値
四分位範囲 = 80 − 50 = 30
q3⇒q2（メディアン）と最大値の真ん中の値
四分位偏差 =
80 − 50 30
=
= 15
2
2
b) 表・グラフによる記述
1) 折れ線グラフ・棒グラフ・円グラフ・帯グラフ
• 集団の特徴をあらわすためには、代表値や散布度などの数値とともに、
さまざまな表やグラフが用いられる。
• なかでも、折れ線グラフと棒グラフは、さまざまなデータの表現に利用さ
れる。
• 折れ線グラフは、主に時系列データ（時間の順序によって並べたデータ）
に利用される。棒グラフは時系列データにもクロスセクションデータ（1時
点におけるデータを何らかの項目でまとめたもの）にも利用される。
完全失業率の推移(男女計・季節調整値)
チーム別本塁打数
(2013年、パ・リーグ）
5.5
本塁打数(本)
5
4.5
4
3.5
出典：総務省統計局『労働力調査』
140
120
100
80
60
40
20
0
2014年1月
2013年9月
2013年5月
2013年1月
2012年9月
2012年5月
2012年1月
2011年9月
2011年5月
2011年1月
2010年9月
2010年5月
2010年1月
2009年9月
2009年5月
2009年1月
2008年9月
2008年5月
3
2008年1月
完全失業率(%)
6
出典：日本野球機構オフィシャルサイト
＜時系列データとクロスセクションデータ＞
（例）交通事故死亡者数の推移(中国地方5県)
(データ出典：警察庁「交通事故死者数について」)
（単位：人）
年
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
鳥取県
61
79
61
51
45
39
34
30
37
42
26
30
25
島根県
72
73
74
47
69
46
42
42
33
31
31
45
28
岡山県
190
169
175
159
148
144
115
114
107
109
106
112
107
広島県
251
202
187
189
187
165
132
128
142
127
113
125
116
鳥取県の交通事故死亡者数の年次推移
→ 時系列データ
2013年の県別交通事故死亡者数
→ クロスセクションデータ
山口県
152
141
129
106
116
108
115
91
108
96
74
56
65
都道府県別高等学校数
(2013年5月1日現在)
クロスセクション
データには、通常
棒グラフを用いる。
500
450
400
350
300
250
200
150
100
50
0
北青岩宮秋山福茨栃群埼千東神新富石福山長岐静愛三滋京大兵奈和鳥島岡広山徳香愛高福佐長熊大宮鹿沖
海森手城田形島城木馬玉葉京奈潟山川井梨野阜岡知重賀都阪庫良歌取根山島口島川媛知岡賀崎本分崎児縄
道
川
山
島
出典：文部科学省『学校基本調査』
右の図は上の図
を折れ線グラフで
描きなおしたもの
であるが、隣り合
う県†どうしを線で
結んでも、そこに
意味はない。
†都道府県コードの順
なので、必ずしも隣接
してはいない。
都道府県別高等学校数
(2013年5月1日現在)
500
450
400
350
300
250
200
150
100
50
0
？？？
北青岩宮秋山福茨栃群埼千東神新富石福山長岐静愛三滋京大兵奈和鳥島岡広山徳香愛高福佐長熊大宮鹿沖
海森手城田形島城木馬玉葉京奈潟山川井梨野阜岡知重賀都阪庫良歌取根山島口島川媛知岡賀崎本分崎児縄
道
川
山
島

棒グラフは前述のように、クロスセクションデータ対して用い
るが、時系列データに用いられることも少なくない。
• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移
出生数(千人)
合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00
（厚生労働省『平成22年人口動態統計』より作成）
3 000
2 500
3.50
2 000
3.00
1 500
2.50
2.00
1 000
1.50
1.00
500
0.50
年次
2010
2007
2004
2001
1998
1995
1992
1989
1986
1983
1980
1977
1974
1971
1968
1965
1962
1959
1956
1953
1950
1947
0.00
• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合
年齢3階級別総人口の推移
年
1930
20%
1950
40%
2年
3年
4年
0-14歳
1970
15-64歳
65歳-
1990
2010
40%
0%
10人の学生の例から作成
20%
40%
60%
80%
100%
出典：総務省統計局『国勢調査』
2) 度数分布表
• 質的変量および量的変量のうち離散変量は、棒グラフや円
グラフとして表すことができる。
• では、連続変量を棒グラフで表したい場合どのようにすれば
よいであろうか？そのままあらわすと下図のようになる。
身長の棒グラフ(男子)
度数
1
178
176
177
175
175
173
174
172
173
171
171
169
170
168
169
166
167
165
166
0
• このような棒グラフでは、集団の特徴がよくわからない。
• そこで、データをいくつかの階級に分け、その階級に入る度数を表の形
でまとめた度数分布表を作成する必要がある。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元　美穂
海堀　あゆみ
近賀　ゆかり
矢野　喬子
岩清水　梓
鮫島　彩
熊谷　紗希
澤　穂希
宮間　あや
川澄　奈穂美
阪口　夢穂
田中　明日菜
安藤　梢
丸山　桂里奈
大野　忍　大儀見　優季
高瀬　愛実
岩渕　真奈
身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52
階
級
以上
150
155
160
165
170
未満
-
155
160
165
170
175
階級値
度数
152.5
157.5
162.5
167.5
172.5
計
† その階級を代表する値
を階級値という。階級の上
限と下限をたして2で割った
値が用いられることが多い。
1
3
8
4
2
18
• 度数分布表の階級の幅は原則として均一にする。ただし、貯
蓄現在高のようにすべて均一にすることによって、度数が極
めて小さくなる場合には、一部の階級幅を広げることもある。
† 質的変量や離散変量
の場合は、とりうる値1つ
1つが階級となる。
ただし、年収・貯蓄のよう
にとり得る値が多い場合
には、連続変量と同様に
階級を設定する。
3）ヒストグラム・度数折れ線
• 度数分布表を棒グラフであらわしたものをヒストグラムといい、
それぞれの棒は間隔をつめて描かれる。これは階級と階級
の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20
9
8
7
6
5
4
3
2
1
0
15
度数
度数
なでしこジャパンの身長
10
5
0
152.5
157.5
162.5
階級値
167.5
172.5
159 161 163 165 167 169 171 173 175 177 179 181 183
階級値
• 度数分布表の階級幅、階級の上限と下限の値の取り方によ
ってヒストグラムは大きく変化する。
体重のヒストグラム(階級幅５kg)
体重のヒストグラム(階級幅2kg)
6
5
度数
度数
4
3
2
1
0
49
51
53
55
57
59
61
63
65
9
8
7
6
5
4
3
2
1
0
47.5
52.5
階級値
62.5
67.5
階級値
体重のヒストグラム(階級幅３kg(ｂ))
体重のヒストグラム(階級幅３kg(a))
6
7
6
5
4
3
2
1
0
5
4
度数
度数
57.5
3
2
1
0
48.5
51.5
54.5
57.5
階級値
60.5
63.5
66.5
49.5
52.5
55.5
58.5
階級値
61.5
64.5
4) 箱ひげ図
最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。
下の図は、9人のテストの点数を箱ひげ図に表した1例である。
9人のテストの点数の箱ひげ図
100
最大値
90
q3（第3四分位点）
80
70
60
50
×
中央値
q1（第1四分位点）
40
30
20
10
0
最小値
異なる2つのグループのデータを、
箱ひげ図に表して比較することも可能である。
5) 度数分布表における算術平均・分散の導出
• 先の例では、なでしこJAPAN18人の身長のデータを度数分
布表にまとめた。
• 反対に個々のデータが入手できず、度数分布表のみ入手で
きる場合がある。その場合、度数分布表から18人の身長の
算術平均、分散の近似値を求めることができる。
階
級
以上
150
155
160
165
170
計
未満
-
155
160
165
170
175
階級値
152.5
157.5
162.5
167.5
172.5
度数
1
3
8
4
2
18
• 上のような度数分布表のみが入手できたとする。
• この度数分布表で、155cm以上160cm未満の階級は3人い
るが、この3人の個々の身長については情報がないとする。
階
級
以上
• 算術平均を求める場合、
この階級3人の個々の身
長について、何らかの仮
定が必要となる。
150
155
160
165
170
計
未満
-
155
160
165
170
175
階級値
y1 152.5
y2 157.5
y3 162.5
y4 167.5
y5 172.5
度数
f1
f2
f3
f4
f5
1
3
8
4
2
18
• 4人全員が上限のあたりや下限のあたり(3人全員が155ｃｍと
か、3人全員が159cmとか)という状態はあまり考えられない。
通常は上限の近くから下限の近くまで適当に散らばっていると
考えられる。このとき、3人の算術平均を取れば階級の真ん中
あたりの値となると考えるのは自然な発想である。
• 階級値は、そういう意味で階級を代表する値である。
• 算術平均、分散を求める場合、3人全員が階級値の157.5cm
であったと仮定する。
• 算術平均を求める場合、3人の身長の合計は
3×157.5 = 472.5(cm)
となる。(記号で表すとf2y2)
• このように、各階級について度数×階級値 (fiyi)を求め、そ
れを全階級について加えたものが全員の身長の合計(に近
い値)と考えられる。
• よって、算術平均は（度数×階級値）の総和÷度数の総和
として求められる。
𝑓1 𝑦1 + 𝑓2 𝑦2 + ⋯ + 𝑓𝑚 𝑦𝑚
𝑦=
=
𝑓1 + 𝑓2 + ⋯ + 𝑓𝑚
𝑚
𝑖=1 𝑓𝑖 𝑦𝑖
𝑚
𝑖=1 𝑓𝑖
• 度数分布表において算術平均を求めるには、度数×階級値
(fiyi)の列を計算し、その和を求める。
• そしてその和を度数の合計で割れば算術平均が求まる。
階
級
以上
150
155
160
165
170
計
未満
-
155
160
165
170
175
階級値(yi)
152.5
157.5
162.5
167.5
172.5
度数(fi)
1
3
8
4
2
18
fiyi
fiyi2
152.5 23256.25
472.5 74418.75
1300
211250
670
112225
345 59512.5
2940 480662.5
• 算術平均は
2940
𝑦=
= 163.333 ⋯
18
となる。
（元のデータから算術平均を求めると、162.94cmとなる）
• 分散の計算において、この階級の3人の偏差2乗和は
3×（157.5 – 163.33)2 = 3×33.9889 = 101.9667
となる。
• 各階級について度数×（階級値－算術平均）2 を求め、その
総和を度数の総和で割ったものが分散となる。
𝑠2 =
𝑓1 𝑦1 − 𝑦
2
+ 𝑓2 𝑦2 − 𝑦 2 + ⋯ + 𝑓𝑚 𝑦𝑚 − 𝑦
𝑓1 + 𝑓2 + ⋯ + 𝑓𝑚
2
=
𝑚
𝑖=1 𝑓𝑖 𝑦𝑖 −
𝑚
𝑖=1 𝑓𝑖
𝑦
2
この式は次のように変形できる。
f1 ( y1  y ) 2  f 2 ( y2  y ) 2    f m ( ym  y ) 2
s 
f1  f 2    f m
2
f1 y12  2 f1 y1 y  f1 y 2  f 2 y22  2 f 2 y2 y  f 2 y 2    f m ym2  2 f m ym y  f m y 2

f1  f 2    f m
f1 y12  f 2 y22   f m ym2  2 y ( f1 y1  f 2 y2    f m ym )  y 2 ( f1  f 2    f m )

f1  f 2    f m
f1 y12  f 2 y22   f m ym2

 2y  y  y2
f1  f 2    f m
f1 y12  f 2 y22   f m ym2

 y2
f1  f 2    f m
よって、fiyi2の列を求め、その総和を度数の総和で割り、算術
平均の2乗を引いたものが分散の近似値となる。
𝑠2
480662.5
=
− 163.33
18
2
= 26703.47 − 26676.69 = 26.78
（元のデータから分散を求めると、21.83となる）
Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
（例）なでしこJAPANの身長と体重
※ なでしこJAPANの身長と男子日本代表の体重は2
つのデータであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ 澤の身長と川澄の体重を組み合わせても、意味
がない。
• 2変量データの記述
→ それぞれ1変量の記述＋ 2変量の関係の記述
a) 特性値による記述
1) 相関係数
𝑟=
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦
𝑥𝑖 − 𝑥
2
𝑦𝑖 − 𝑦
2
• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r＞０正の相関 1に近いほど関連度が強い
 r＜０負の相関 -1に近いほど関連度が強い
 r＝０無相関
後で説明する散布図と密接な関係がある。
b) 表・グラフによる記述
1) 分割表（クロス集計表）・2次元ヒストグラム
• 2変量についてクロス集計した度数分布表のことを、分割表（またはクロ
ス集計表）という。
• 質的変量、または離散変量で取りうる値の少ないものは、それぞれに対
応する度数を数えればよい。
例) 血液型と性別でクロス集計したもの
男
A型
B型
O型
AB型
計
女
16
9
16
3
44
計
1
2
3
3
9
17
11
19
6
53
• 一方、連続データや離散データでとりうる値の多いものは、2次元の度数
分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52
体
重
48-51
51-54
54-57
57-60
60-63
63-66
計
身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2
なでしこジャパンの身長と体重
4
3
度数
氏名
福元　美穂
海堀　あゆみ
近賀　ゆかり
矢野　喬子
岩清水　梓
鮫島　彩
熊谷　紗希
澤　穂希
宮間　あや
川澄　奈穂美
阪口　夢穂
田中　明日菜
安藤　梢
丸山　桂里奈
大野　忍　大儀見　優季
高瀬　愛実
岩渕　真奈
2
1
0
身長
体重
計
2
5
4
2
3
2
18
2次元の度
数分布表は、
右のように2
次元ヒスト
グラム（グラ
フは3D）で
あらわすこ
とができる。
２）散布図
連続データや離散データでとりうる値の多いものは、横軸にX、縦軸にYをとった
座標軸上に、個々のデータをあらわした散布図であらわされることも多い。
なでしこジャパン
ロンドン五輪予選ベンチ入りメンバー
氏名
福元　美穂
海堀　あゆみ
近賀　ゆかり
矢野　喬子
岩清水　梓
鮫島　彩
熊谷　紗希
澤　穂希
宮間　あや
川澄　奈穂美
阪口　夢穂
田中　明日菜
安藤　梢
丸山　桂里奈
大野　忍　大儀見　優季
高瀬　愛実
岩渕　真奈
身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52
なでしこジャパンの身長と体重
70
65
体重(kg)
•
60
55
50
45
150
155
160
165
身長(cm)
170
175
• 相関係数と散布図は密接な関係があり、右上がりの散布
図は相関係数が＋であり、右下がりの散布図は相関係
数が－である。
• また、相関係数が±１に近いほど、散布図は直線に近く
なる。
正の相関（r＞0)
負の相関（r＜0)
•Xが大きな値をとる
ほど、Yも大きな値を
とる。
•Xが大きな値をとる
ほど、Yは小さな値を
とる。
無相関（r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

Download Report

第1章記述統計の復習