c) 確率分布

2. データのまとめ方
保健統計 2011年度
Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ
b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)
Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図
b) 特性値による記述
1) 相関係数
Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年 性別 出身地 身長
体重
家族の人数 テストの点数
1
2
男 山口県 170.3
61.2
1
60
2
3
女 山口県 155.4
48.6
4
90
3
4
男 広島県 168.2
54.2
5
80
4
2
男 福岡県 171.0
58.5
3
50
5
2
男 島根県 175.4
57.6
2
70
6
3
男 山口県 165.7
63.5
1
10
7
4
女 広島県 157.2
50.1
1
60
8
3
女 愛媛県 162.3
53.4
4
80
9
2
男 山口県 177.1
63.0
3
20
10
3
男 山口県 165.0
52.5
3
80
• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。
• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年 性別 出身地 身長
体重
家族の人数 テストの点数
1
2
1
35
170.3
61.2
1
60
2
3
2
35
155.4
48.6
4
90
3
4
1
34
168.2
54.2
5
80
4
2
1
40
171.0
58.5
3
50
5
2
1
32
175.4
57.6
2
70
6
3
1
35
165.7
63.5
1
10
7
4
2
34
157.2
50.1
1
60
8
3
2
38
162.3
53.4
4
80
9
2
1
35
177.1
63.0
3
20
10
3
1
35
165.0
52.5
3
80
この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。
この表にある変量は次のように分類することができる。
質的変量(質的変数)
量的変量(量的変数)
性別、学年、出身地など
離散変量(離散変数)
家族の人数、テストの点数など
連続変量(連続変数)
身長、体重など
<質的変量と量的変量>
•
•
•
数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。
<離散変量と連続変量>
•
•
•
量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。
テストの点数(離散変量)
50
51
52
53
身長(連続変量)
170
171
172
173
データの種類によって、まとめ方が異なる
Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割である。
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
(テキスト40ページも参照)
• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
完全失業率の推移(男女計・季節調整値)
3.5
3
度数
2.5
2
1.5
1
2007年01月
2007年03月
2007年05月
2007年07月
2007年09月
2007年11月
2008年01月
2008年03月
2008年05月
2008年07月
2008年09月
2008年11月
2009年01月
2009年03月
2009年05月
2009年07月
2009年09月
2009年11月
2010年01月
2010年03月
2010年05月
2010年07月
2010年09月
2010年11月
2011年01月
(%)
6.0
5.5
5.0
4.5
4.0
3.5
3.0
年・月
出典:総務省統計局『労働力調査』
0.5
0
1人
2人
3人
4人
家族の人数
10人の学生の例から作成
5人
• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移
出生数(千人)
(厚生労働省『平成21年 人口動態統計』より作成)
3 000
合計特殊出生率
年間出生数
2 500
合計特殊出生率
2 000
1 500
1 000
1947
1950
1953
1956
1959
1962
1965
1968
1971
1974
1977
1980
1983
1986
1989
1992
1995
1998
2001
2004
2007
500
年次
5.00
4.50
4.00
3.50
3.00
2.50
2.00
1.50
1.00
0.50
0.00
2) 度数分布表とヒストグラム、度数折れ線
(テキスト36-38ページも参照)
• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i
1
2
:
m
合計
階級
下限
上限
c1
c2
c2
c3
cm
-
cm +1
階級値
度数
相対度数
累積度数
累積相対度数
y1
y2
f1
f2
f1/n
f2/n
f1
f1+f2
f1/n
(f1+f2)/n
ym
fm
n
fm /n
1
f1+f2+・
・
・
+fm (f1+f2+・
・
・
+fm )/n
– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの
<ヒストグラムと度数折れ線>
• ヒストグラムは度数分布表を棒グラフであらわしたものであり、
それぞれの棒は間隔をつめて描かれる。これは階級と階級
の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20
度数
15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値
3) 円グラフ、帯グラフ
• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合
年齢3階級別総人口の推移
年
1930
20%
1950
40%
2年
3年
4年
0-14歳
15-64歳
65歳-
1970
1990
2005
40%
0%
10人の学生の例から作成
20%
40%
60%
80%
100%
出典:総務省統計局『国勢調査』
(テキスト42 - 43ページも参照)
b) 特性値による記述
1) 代表値(中心的傾向)
• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)
の3種類がある。
<算術平均>
• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数
x
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
60  90  80  50  70  10  60  80  20  80 600

 60
10
10
<メディアン(中央値)>
• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
点数の低い順に並べ替え
10
20
50
60
60
70
80
80
80
90
真ん中
この2つを足して2で割った
(60+70)÷2=65がメディアン
<モード(最頻値)>
• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。
• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1657万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
995万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿から見たファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)
b) 特性値による記述
1) 散布度(散らばりの傾向)
教員A
• チャイムの5分後に必ず教室
にくる。
教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。
• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差
などがある。
<分散>
• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
n
( x1  x ) 2  ( x2  x ) 2    ( xn  x ) 2
s 

n 1
2
 (x  x)
i 1
2
i
n 1
10人のテストの点数の例では
(60  60) 2  (90  60) 2  (80  60) 2  (50  60) 2  (70  60) 2  (10  60) 2  (60  60) 2  (80  60) 2  (20  60) 2  (80  60) 2
s 
10  1
2

6400
 711 .11
9
出席番号
点数
1
60
2
90
3
80
4
50
5
70
6
10
7
60
8
80
9
20
10
80
-40
20
400 1600
400
算術平均60を引く
偏差
0
30
20
-10
10
-50
0
20
2乗を求める
0
900
400
100
100 2500
0
合計を求める
6400
データ数-1(10-1)で割る
711.11
分散
<標準偏差>
• 標準偏差 ⇒ 分散の平方根
n
s  s2 
 (x  x)
i 1
2
i
n 1
10人のテストの点数の例では
s  711.11  26.666
※ 2人の教員が教室に来る時間の例
回
教員A
教員B
1
4.5
0
2
5.3
6
3
4.8
4
4
5
5
5
5.5
11
(単位:分)
6
4.7
4
7
5.2
8
8
4.8
5
9
4.9
1
10
5.3
6
教員A
xA 
4.5  5.3  4.8  5  5.5  4.7  5.2  4.8  4.9  5.3 50

5
10
10
(4.5  5) 2  (5.3  5) 2  (4.8  5) 2  (5  5) 2  (5.5  5) 2  (4.7  5) 2  (5.2  5) 2  (4.8  5) 2  (4.9  5) 2  (5.3  5) 2
s 
10  1
2
2
2
2
2
2
(0.5)  (0.3)  (0.2)  (0)  (0.5)  (0.3)  (0.2) 2  (0.2) 2  (0.1) 2  (0.3) 2

10  1
0.25  0.09  0.04  0  0.25  0.09  0.04  0.04  0.01 0.09

10  1
0.9

 0.1
10  1
2
A
sA  0.1  0.316
教員B
xB 
0  6  4  5  11  4  8  5  1  6 50

5
10
10
(0  5) 2  (6  5) 2  (4  5) 2  (5  5) 2  (11 5) 2  (4  5) 2  (8  5) 2  (5  5) 2  (1  5) 2  (6  5) 2
s 
10  1
(5) 2  (1) 2  (1) 2  (0) 2  (6) 2  (1) 2  (3) 2  (0) 2  (4) 2  (1) 2

10  1
25  1  1  0  36  1  9  0  16  1

10  1
90

 10
10  1
2
B
sB  10  3.162
s A2  sB2 となり、教員Bの分散の方が大きいことがわかる。
標準偏差についても、 s A  sB と教員Bの方が大きくなる。
<レンジ(範囲)>
• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80
<四分位偏差>
• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
(q3  q1 )
Q
2
最小値
q1
q2
q3
最大値
(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数
1
60
2
90
3
80
4
50
5
6
7
8
9
70
10
60
80
20
点数の低い順に並べ替え
10
20
50
60
60
最小値
q1
q2
70
80
q3
80
90
最大値
(メディアン)
q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値
Q
(80  50) 30

 15
2
2
※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%
最小値
10パーセンタイル値
最大値
• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。
最小値
q1
q2
q3
=
=
=
25パーセンタイル値
最大値
75パーセンタイル値
50パーセンタイル値
<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答
4
※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答
2
Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。
• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述
a) 表・グラフによる記述
1) 分割表(クロス集計表)
• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計
45
5
50
スープを
飲まなかった
2
23
25
合計
47
28
75
• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪予選ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
上尾野辺 めぐみ
岩清水 梓
鮫島 彩
田中 明日菜
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
宇津木 瑠美
安藤 梢
丸山 桂里奈
大野 忍 永里 優季
永里 亜紗乃
高瀬 愛実
身長(cm) 体重(kg)
165
66
170
64
161
53
164
55
157
54
162
54
162
53
164
52
171
59
164
55
157
50
157
50
165
58
168
63
164
57
163
56
154
50
168
60
165
58
165
59
体
重
48-51
51-54
54-57
57-60
60-63
63-66
66-69
計
150-155 155-160
1
2
0
0
0
1
0
0
0
0
0
0
0
0
1
3
身長
160-165 165-170 170-175
0
0
0
3
0
0
4
0
0
1
3
1
0
1
0
0
1
1
0
1
0
8
6
2
計
3
3
5
5
1
2
1
20
• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
4
度数
3
2
1
0
身長
体重
2) 散布図
• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。
正の相関(r>0)
負の相関(r<0)
•Xが大きな値をとる
ほど、Yも大きな値を
とる。
•Xが大きな値をとる
ほど、Yは小さな値を
とる。
無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。
b) 数値による記述
1) 相関係数
r
 ( X  X )(Y  Y )
 ( X  X )  (Y  Y )
2
2
• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)
死亡率と65歳以上人口の割合
なでしこジャパンの身長と体重
(都道府県別、平成17年)
70
12.0
11.0
死亡率(‰)
体重(kg)
65
60
55
10.0
9.0
8.0
7.0
50
6.0
45
150
155
160
165
身長(cm)
r=0.796
170
175
16.0
18.0
20.0
22.0
24.0
26.0
65歳以上人口の割合(%)
r=0.977
28.0