統計学入門

統計学入門
2012 年
i
目次
第1章
1.1
1.2
1.3
1.4
確率の基礎
事象と確率 .
条件つき確率
事象の独立 .
確率の計算 .
第2章
2.1
2.2
2.3
2.4
確率変数と確率分布
確率分布 . . . . . . . . . .
期待値 . . . . . . . . . . .
分散と標準偏差 . . . . . .
期待値と分散の簡単な性質
第3章
3.1
3.2
3.3
3.4
3.5
条件つき期待値
条件つき期待値
コイン投げ . .
壷の問題 . . . .
平均余命 . . . .
クーポン集め .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
第 4 章 社会統計に登場する期待値たち
4.1 合計特殊出生率 . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 コーホートに関する合計特殊出生率 . . . . . . . . .
4.1.2 合計特殊出生率の推定 . . . . . . . . . . . . . . . .
4.1.3 合計特殊出生率を利用した将来の人口の予測の意義
4.2 平均余命 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 生命表 . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 平均余命の数学的性質 . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
4
5
.
.
.
.
7
7
9
11
12
.
.
.
.
.
15
15
16
17
17
19
.
.
.
.
.
.
.
21
21
21
23
24
25
25
27
第 5 章 標本調査
29
5.1 標本調査の方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.1.1 乱数の発生方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.1.2 無作為抽出の例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
ii
5.2
5.3
5.4
5.5
5.1.3 多段抽出法 . . . . . . . . . . . . . . . . . .
5.1.4 層別抽出法 . . . . . . . . . . . . . . . . . .
RDD 方式による標本抽出 . . . . . . . . . . . . . .
5.2.1 朝日新聞社の RDD 方式 . . . . . . . . . . .
5.2.2 日本経済新聞社の RDD 方式 . . . . . . . .
5.2.3 ギャラップ調査 . . . . . . . . . . . . . . . .
偏った標本抽出の諸例 . . . . . . . . . . . . . . . .
5.3.1 無作為でない抽出:インターネット調査の例
5.3.2 無回答:郵送調査の例 . . . . . . . . . . . .
5.3.3 視聴率調査の例 . . . . . . . . . . . . . . . .
回答数と回収率 . . . . . . . . . . . . . . . . . . . .
例:最近の世論調査より . . . . . . . . . . . . . . .
第 6 章 記述統計
6.1 ヒストグラム . . . . . . . . . . . . . . .
6.1.1 分類項目が「質」である場合 . .
6.1.2 分類項目が「離散量」である場合
6.1.3 分類項目が「連続量」である場合
6.1.4 表計算ソフトの利用 . . . . . . .
6.2 代表値 . . . . . . . . . . . . . . . . . . .
6.2.1 中央値の特徴 . . . . . . . . . . .
6.2.2 中央値の求め方 . . . . . . . . . .
6.3 散布度 . . . . . . . . . . . . . . . . . . .
6.3.1 四分位範囲の求め方 . . . . . . .
6.3.2 標準偏差 . . . . . . . . . . . . . .
6.3.3 表計算ソフトの利用 . . . . . . .
6.3.4 算術平均と標準偏差 . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
32
33
33
34
36
37
37
37
38
39
39
.
.
.
.
.
.
.
.
.
.
.
.
.
43
43
43
43
44
46
48
48
49
49
50
52
53
55
第 7 章 分散と標準偏差
59
7.1 2項分布の期待値と分散 . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
第 8 章 2項分布
63
8.0.1 分配の問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
8.0.2 2項分布の確率の数値計算 . . . . . . . . . . . . . . . . . . . . . . 64
第 9 章 超幾何分布
67
iii
第 10 章 母関数
69
10.1 母関数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
10.2 壷の問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
10.2.1 階乗モーメント . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
第 11 章 モンテカルロシミュレーション
11.1 硬貨投げのシミュレーション . . .
11.2 壷の問題のシミュレーション . . .
11.3 標本抽出の方法 . . . . . . . . . . .
11.3.1 単純無作為抽出法 . . . . . .
11.3.2 多段抽出法 . . . . . . . . .
11.3.3 層別抽出法 . . . . . . . . .
11.4 一般の確率分布のシミュレーション
第 12 章 母集団比率の推定
12.1 母集団比率の区間推定 . . . . . .
12.2 社会調査の実例 . . . . . . . . . .
12.3 標本比率の確率分布:数学的説明
12.3.1 標本数の決定 . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
第 13 章 一様性の検定
13.1 一様性の検定の処方箋 . . . . . . . . . . . . . . .
13.1.1 正しいサイコロか? . . . . . . . . . . . .
13.1.2 一様性の検定の基本的アイデア . . . . . .
13.1.3 表計算ソフトを用いたカイ2乗検定の実際
13.1.4 検定の論理 . . . . . . . . . . . . . . . . .
13.2 カイ2乗検定の舞台裏 . . . . . . . . . . . . . . .
13.2.1 カイ2乗検定の主役 . . . . . . . . . . . .
13.2.2 カイ2乗統計量の変動 . . . . . . . . . . .
13.2.3 R によるカイ 2 乗検定 . . . . . . . . . . .
13.2.4 無理数の探求 . . . . . . . . . . . . . . . .
第 14 章 独立性の検定
14.1 いくつかの実例 . . . . . . . . . .
14.1.1 古典的な例 . . . . . . . .
14.1.2 社会調査の例 . . . . . . .
14.2 独立性の検定の処方箋 . . . . . .
14.2.1 検定の基本的な考え方 . .
14.2.2 Excel による独立性の検定
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
73
74
74
74
74
75
75
.
.
.
.
79
79
80
84
85
.
.
.
.
.
.
.
.
.
.
87
87
87
88
89
90
91
91
91
93
93
.
.
.
.
.
.
95
95
95
96
98
98
99
iv
14.3 カイ 2 乗統計量とカイ 2 乗分布 . . . . . . . . . . .
14.4 仮説検定の論理 . . . . . . . . . . . . . . . . . . . .
14.4.1 仮説検定と背理法 . . . . . . . . . . . . . . .
14.4.2 p 値の大小を 0.05 と比較して判断する理由
14.4.3 Yates の補正 . . . . . . . . . . . . . . . . .
14.4.4 セルの度数 . . . . . . . . . . . . . . . . . .
14.5 Fisher の精密検定 . . . . . . . . . . . . . . . . . . .
14.6 R によるカイ 2 乗検定 . . . . . . . . . . . . . . . .
第 15 章 相関
15.1 散布図と相関係数 . . . . . . . . . . . . . . .
15.1.1 例 . . . . . . . . . . . . . . . . . . .
15.1.2 正の相関と負の相関 . . . . . . . . .
15.1.3 相関係数 . . . . . . . . . . . . . . . .
15.1.4 レポート問題 . . . . . . . . . . . . .
15.2 相関係数の数学的背景 . . . . . . . . . . . .
15.2.1 相関係数の定義 . . . . . . . . . . . .
15.2.2 データの標準化 . . . . . . . . . . . .
15.2.3 相関係数の数学的性質 . . . . . . . .
15.3 相関係数の誤用 . . . . . . . . . . . . . . . .
15.4 データがクロス集計表で与えられている場合
15.4.1 例 . . . . . . . . . . . . . . . . . . .
15.4.2 レポート課題 . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
113
. 113
. 113
. 114
. 115
. 115
. 117
. 117
. 118
. 119
. 121
. 124
. 124
. 125
第 16 章 センター試験問題
第 17 章 回帰分析
17.1 Excel による回帰分析 . . . . . . . . . .
17.1.1 例 . . . . . . . . . . . . . . . .
17.1.2 レポート問題 . . . . . . . . . .
17.2 回帰分析の数学的背景 . . . . . . . . .
17.2.1 平均値の特徴付け . . . . . . . .
17.2.2 最小2乗法 . . . . . . . . . . .
17.3 『回帰』の由来 . . . . . . . . . . . . .
17.4 時系列の回帰分析 . . . . . . . . . . . .
17.4.1 合計特殊出生率 . . . . . . . . .
17.4.2 大気中の CO2 濃度 . . . . . . .
17.4.3 日本の国内総生産 GDP の変化
17.5 半対数モデルと両対数モデル . . . . .
101
102
102
102
103
103
104
109
127
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
139
. 139
. 139
. 142
. 144
. 144
. 145
. 146
. 149
. 149
. 149
. 150
. 152
v
17.5.1 肺がん発生率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
17.6 ロジスティック曲線 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
17.6.1 耐久消費財の普及率の変化 . . . . . . . . . . . . . . . . . . . . . . 154
第 18 章 リスクとオッズ
18.1 リスク比 . . . . . . . . . . . . . . . . . .
18.1.1 リスクとリスク比 . . . . . . . . .
18.1.2 リスク比の信頼区間 . . . . . . .
18.2 原爆被曝者調査 . . . . . . . . . . . . . .
18.2.1 寿命調査集団 . . . . . . . . . . .
18.2.2 部位別がん死亡の相対リスク . .
18.3 喫煙とがん . . . . . . . . . . . . . . . .
18.4 オッズ比 . . . . . . . . . . . . . . . . . .
18.4.1 前向き研究と後向き研究 . . . . .
18.4.2 オッズとオッズ比 . . . . . . . . .
18.4.3 患者対照研究 . . . . . . . . . . .
18.5 数学的補足 . . . . . . . . . . . . . . . .
18.5.1 リスク比とオッズ比の関係 . . . .
18.5.2 リスク比の信頼区間の数学的導出
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
第 19 章 t 検定
19.1 t 検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19.1.1 t 検定の考え方 . . . . . . . . . . . . . . . . . . . .
19.1.2 t 検定の手順 . . . . . . . . . . . . . . . . . . . . .
19.2 対応のあるサンプルの t 検定と独立したサンプルの t 検定
19.2.1 独立したサンプルの t 検定の手順 . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
157
. 157
. 157
. 158
. 159
. 159
. 159
. 161
. 162
. 162
. 162
. 163
. 163
. 163
. 164
.
.
.
.
.
167
. 167
. 167
. 169
. 171
. 171
第 20 章 生命表の解析
175
20.1 生存率の計算方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
20.1.1 生存率と生命表解析 . . . . . . . . . . . . . . . . . . . . . . . . . 175
20.1.2 古典的な生命表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
1
第1章
1.1
確率の基礎
事象と確率
ある試行において,起こりうるすべての可能性の集合を,その試行の全事象と言う1 .
全事象を U で表すことにすると,その試行における様々な事象は,すべて U の部分集
合で表すことができる.
たとえば,1 個のさいころを 1 回投げる試行において,全事象は U = {1, 2, 3, 4, 5, 6}
である.また偶数の目が出るという事象を A とすると,A = {2, 4, 6} である.
1 つの試行において,ある事象 A が起こることが期待される割合を,事象 A の確率
といい,P (A) で表す.
中学校で学んだように,ある試行においてどの可能性が起こることも 同様に確からしい
とき,事象 A の起こる確率 P (A) は,次のようにして求めることができる.
P (A) =
n(A)
n(U )
ここで n(U ), n(A) はそれぞれ全事象 U と事象 A の要素の個数を表す.
たとえば,1 個のさいころを 1 回投げる試行において,偶数の目が出るという事象 A
の確率は P (A) = 36 = 12 である.
しかし,
「正しくない」さいころ,すなわちある目が出る可能性と別の目が出る可能性
が同様に確からしくないさいころに対しては,このようにして確率を求めることはでき
ない (中学校数学の限界!).
ところが,同様に確からしい状況でなくても,次のことは必ず成り立つ.
1. 任意の事象 A に対して 0 P (A) 1.
とくに,全事象 U に対して P (U ) = 1,および空事象 ∅ に対して P (∅) = 0 で
ある.
2. 事象 A, B に対して,A, B のどちらかが起こる事象を和事象といい A ∪ B で表
す(どちらか一方だけが起こる,という意味ではない).また,A, B の両方とも
1
標本空間と言うこともあるが,あとで登場する「標本」と紛らわしいので,この用語は使用しないこ
とにする
第 1 章 確率の基礎
2
起こる事象を積事象といい A ∩ B で表す.このとき
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
である.とくに,A, B の両方が同時に起こることが不可能であるとき,A, B は
排反であると言うが,このとき
P (A ∪ B) = P (A) + P (B)
3. 事象 A に対して,この事象が起きないという事象を A の余事象といい A で表す.
余事象に対して
P (A) = 1 − P (A)
が成り立つ.
実は,上記の3つの事柄を (そしてこれらだけを) 理論の出発点として,確率論を研究
することができる.この意味で,上記の3つの事柄を,確率論の公理と言う.高等学校
の確率のカリキュラムは,
「できるだけ」この方針に沿って作られている.
「できるだけ」と述べたのは,実は上記の2番目の公理は不十分だからであって,完
全な公理系にするためには,つぎのように置き換えなければいけないからである.
1. 任意の事象 A に対して 0
P (A)
1.
2. 無限個の事象 A1 , A2 , A3 , · · · が排反であるとき,
P (A1 ∪ A2 ∪ A3 ∪ · · ·) = P (A1 ) + P (A2 ) + P (A3 ) + · · ·
1.2
条件つき確率
学科と実技の両方の試験が実施される資格試験を,100 人が受験した結果は下の表の
ようであったとする.
学科:合格
学科:不合格
計
実技:合格
24
16
40
実技:不合格
24
36
60
計
48
52
100
受験者全員 (100 人) の中から無作為に 1 人を選び出したとき,その人が学科試験に
48
合格している確率は
である.一方,実技試験の合格者 (40 人) の中から無作為に 1
100
24
である.
人を選び出したとき,その人が学科試験にも合格している確率は
40
1.2. 条件つき確率
3
この後者の確率は,無作為に選び出された人が,
「実技試験の合格者である」という事象
を A,
「学科試験の合格者である」という事象を B とすると,
「事象 A が起こったとき
に,事象 B が起こる確率」を考えていることになる.
このような確率を,事象 A が起こったときに事象 B が起こる 条件つき確率と言い,
PA (B) で表すことにする.
問1
条件つき確率 PB (A) を求めよ.
一般に,すべて可能性の起こりやすさが 同様に確からしい 場合に,事象 A, B の要素
の個数は次のようになる.
事象 A が起きる
事象 A が起きない
計
事象 B が起きる
n(A ∩ B)
n(A ∩ B)
n(B)
事象 B が起きない
n(A ∩ B)
n(A ∩ B)
n(B)
計
n(A)
n(A)
n(U )
だから,条件つき確率について
n(A ∩ B)
P (A ∩ B)
n(A ∩ B)
n(U )
=
PA (B) =
=
n(A)
n(A)
P (A)
n(U )
が成り立つ.
このことから,同様に確からしい状況でない場合にも,条件つき確率を,つぎのよう
に 定義する.
PA (B) =
P (A ∩ B)
P (A)
問 2 ある観光バスの乗客のうち,60% が女性で,42% が 50 歳以上の女性である.女
性の中から無作為に 1 人を選び出したとき,その人が 50 歳以上である確率を求めよ.
例 1 5 本のくじの中に 3 本の当りくじがある.甲,乙の二人が引いたくじを元に戻さ
ないで (非復元抽出),甲,乙の順に 1 本ずつくじを引くとき,二人とも当る確率を求め
よ.
第 1 章 確率の基礎
4
(解) 甲が当る事象を A,乙が当る事象を B とすると,求めたい確率は P (A ∩ B) で
3
ある.ところが,P (A) = であり,また甲が当りくじを引いたとき,残り 4 本のくじ
5
2
の中に 2 本の当りくじがあるから PA (B) = である.したがって
4
P (A ∩ B) = P (A) PA (B) =
3 2
3
· =
5 4
10
問 3 例1において,次の事象が起こる確率を求めよ.
(1) 甲が当り,乙がはずれる. (2) 甲,乙がともにはずれる.
問4
例1を,条件つき確率を用いないで解け (中学校数学の知識で解く).
例 2 袋の中に 3 枚のカード a,b,c があり,a は両面とも赤,b は両面とも白,c の両
面は赤と白である.この袋から 1 枚のカードを抜き出してテーブルの上に置き,上の面
を見たら赤であった.このカードの下の面が白である確率を求めよ.
(解) 袋からカードを 1 枚抜き出して,テーブルに置く試行を考える.カードを抜き出
す方法は 3 通りで,各カードをテーブルに置く方法は 2 通りずつあるから,起こりう
る場合の総数は 3 × 2 = 6 通りある.
この試行で,上の面が赤であるという事象を A,下の面が白であるという事象を B
とするとき,PA (B) を求めればよい.
事象 A の起こる場合は,カード a について 2 通り,カード c について 1 通りあり,事象
2+1
1
A∩B の起こる場合は,カード c について 1 通りだけあるから P (A) =
= , P (A∩
6
2
1
1 1
1
B) = .したがって求める確率は PA (B) = P (A ∩ B)P (A) = ÷ = .
6
6 2
3
問 5 例2において,テーブルに置いたカードの上の面が白であったとき,下の面も白
である確率を求めよ.
問6
1.3
例2を,条件つき確率を用いないで解け (中学校数学の知識で解く).
事象の独立
事象 A が起こることが,事象 B が起こる確率に何の影響も与えない,すなわち
PA (B) = P (B) であるとする.このとき容易に PB (A) = P (A) を導くことができる
から,逆に事象 B が起こることが,事象 A が起こる確率に何の影響も与えない,こと
になる.このような 2 つの事象 A, B は互いに独立であるという.言い替えれば,2 つ
の事象が互いに独立であることを,
1.4. 確率の計算
5
P (A ∩ B) = P (A) P (B)
が成り立つことと 定義する.
例 3 白玉 7 個と赤玉 3 個が入っている壷から,玉を 1 個ずつ 2 回取り出すとき,1
回目に白玉を取り出す事象 A と,2 回目に白玉を取り出す事象 B は独立であるか.次
の各場合について答えよ.
(1) 1 回目の玉を壷に戻してから 2 回目の玉を取り出す(復元抽出).
(2) 1 回目の玉を壷に戻さないで 2 回目の玉を取り出す(非復元抽出).
(解)
(1)
72
7
7
=
×
= P (A)P (B)
2
10
10 10
であるから,事象 A, B は互いに独立である.
(2)
7·6
42
3·7
21
P (A ∩ B) =
= , P (A ∩ B) =
=
10 · 9
90
10 · 9
90
であるから,
63
7
P (B) = P (A ∩ B) + P (A ∩ B) =
=
90
10
したがって
( )2
7
42
P (A ∩ B) =
̸=
= P (A)P (B)
90
10
P (A ∩ B) =
であるので,事象 A, B は互いに独立でない.
問 7 大小 2 つのさいころを同時に投げるとき、大きいさいころの目が偶数である事象
と,目の和が 7 である事象は独立であるか.
1.4
確率の計算
例 4 7 本のくじの中に 3 本の当りくじがある.いちど引いたくじを元に戻さないで引
き続けるとき,1 回目に当たりくじを引く確率,2 回目に当たりくじを引く確率,およ
び 3 回目に当たりくじを引く確率を求めよ.
(解) 「k 回目に当たりくじを引く」事象を Ak とする.求めたい確率は P (A1 ), P (A2 ), P (A3 )
である.明らかに P (A1 ) = 3/7 である.
第 1 章 確率の基礎
6
確率 P (A2 ) を求めるために,次の事象
A1 ∩ A2 , A1 ∩ A2
が互いに排反であることに注意する.すると
P (A1 ∩ A2 ) = P (A1 ) · PA1 (A2 ) =
1
3 2
· =
7 6
7
P (A1 ∩ A2 ) = P (A1 ) · PA1 (A2 ) =
2
4 3
· =
7 6
7
となる.同様に,
したがって
P (A2 ) =
1 2
+
7 7
確率 P (A3 ) を求めるために,次の事象
A1 ∩ A2 ∩ A3 , A1 ∩ A2 ∩ A3 , A1 ∩ A2 ∩ A3 , A1 ∩ A2 ∩ A3
が互いに排反であることに注意する.
P (A3 ) = P (A1 ∩ A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 )
すると,
P (A1 ∩ A2 ∩ A3 ) = P (A1 ∩ A2 ) · PA1 ∩A2 (A3 )
= P (A1 ) · PA1 (A2 ) · PA1 ∩A2 (A3 ) =
1
3 2 1
· · =
7 6 5
35
となる.同様に,
3
7
4
P (A1 ∩ A2 ∩ A3 ) = P (A1 ) · PA1 (A2 ) · PA1 ∩A2 (A3 ) =
7
4
P (A1 ∩ A2 ∩ A3 ) = P (A1 ) · PA1 (A2 ) · PA1 ∩A2 (A3 ) =
7
したがって
4
4
6
3
1
+
+
+
=
P (A3 ) =
35 35 35 35
7
P (A1 ∩ A2 ∩ A3 ) = P (A1 ) · PA1 (A2 ) · PA1 ∩A2 (A3 ) =
4
6
3
·
6
3
·
6
·
2
4
=
5
35
2
4
· =
5
35
3
6
· =
5
35
·
問 8 10 本のくじの中に 3 本の当りくじがある.甲,乙二人のうち,まず甲がこのく
じを 1 本引き,当ったときは元に戻さず,はずれたときは元に戻すことにする.次に乙
が 1 本のくじを引くとき,乙の当る確率を求めよ.
問 9 袋 A には白玉 3 個と赤玉 2 個,袋 B には白玉 2 個と赤玉 3 個が入っている.袋
A から玉を 3 個取り出して袋 B に入れた後,袋 B から玉を 1 個取り出すとき,それ
が白玉である確率を求めよ.
7
第2章
2.1
確率変数と確率分布
確率分布
例題 1 赤,青,白の玉と,赤,青,白の箱が,それぞれ 1 つずつある.これらの 3 つ
の玉を,3 つの箱に 1 つずつ入れるとき,箱の色とその中に入れた玉の色が一致したも
のの個数を X とする.確率 P (X = 0), P (X = 1), P (X = 2), P (X = 3) を求めよ.
(解) 赤,青,白の箱を左から右へ順に置いて,たとえば「赤箱に青玉,青箱に白玉、
白箱に赤玉」を入れる場合を,簡潔に bwr と表すことにする.すると,箱に玉を入れ
る方法は,つぎの 3! = 6 通りある.
rbw, rwb, brw, bwr, wrb, wbr
そして,それぞれの場合の X の値は 3, 1, 1, 0, 0, 1 である.ところが,それぞれの場合
1
が起きる確率はすべて である.したがって
6
X
確率
0
2
6
1
3
6
2
0
3
1
6
一般に,上の X のように,試行の結果によってその値が定まる変数を確率変数という.
確率変数 X が k 種類の値 x1 , x2 , · · · , xk をとる可能性があり,しかも各 i = 1, 2, · · · , k
に対して X = xi となる確率が pi であるとき,下の表のような xi と pi の対応が得ら
れる.
表1
X
x1
確率 p1
x2
p2
···
···
xk
pk
この対応を X の確率分布という.明らかに,
p 1 + p2 + · · · + p k = 1
第 2 章 確率変数と確率分布
8
でなければならない.
例題 2 「第 617 回全国自治宝くじ(東日本大震災復興支援グリーンジャンボ)」1 にお
ける,当せん金額と組・番号は以下のようである.このくじを 1 本買うときに得る賞金
を X 円とするとき,X の確率分布を求めよ.
等
一等賞
前後賞
組違賞
二等賞
当せん金額
3 億円
1 億円
10 万円
1000 万円
三等賞
四等賞
五等賞
六等賞
七等賞
500 万円
100 万円
1 万円
3000 円
300 円
組
番号
86
113909
一等の前後の番号
一等の組違い同番号
68
145701
61
193990
組下 1 ケタ =9 149100
各組共通
129481
下 3 ケタ =091
下 2 ケタ =31
下 1 ケタ =9
(解) 「全国自治宝くじ」では,
「組」は 01 ∼ 100 の 102 通り,
「番号」は 100000 ∼ 199999
の 105 通りがあるから,くじの本数は全部で 102 × 105 = 107 本ある.また,たとえば,
• 「前後賞」のくじの本数は 2 本
• 「組違賞」のくじの本数は 100 − 1 = 99 本
• 「三等賞」の組は 09, 19, 29, · · · , 99 であるから,くじの本数は 10 本
• 「四等賞」の組が「各組共通」であるとは,番号が 129481 であれば組は何でもよ
いという意味なので,くじの本数は 100 本
• 「七等賞」では,下 1 ケタ =9 となる場合は 106 通りあるが,その中には「一等
賞」および「組違賞」の場合が含まれているので,正確なくじの本数は 106 − 100
本である
したがって,X の確率分布は次のようになる.
3 × 108
1
確率
107
X
1
108
2
107
105
99
107
抽せん日 2012 年 3 月 23 日
107
2
107
5 × 106
10
107
106
102
107
104
104
107
3 × 103
105
107
3 × 102
106 − 100
107
0
p0
2.2. 期待値
9
ただし,p0 は確率の和が 1 になるように定める.
問 1 「第 614 回全国自治宝くじ(年末ジャンボ)」2 における,当せん金額と組・番号
は以下のようである.このくじを 1 本買うときに得る賞金を X 円とするとき,X の確
率分布を求めよ.
等
一等賞
前後賞
組違賞
二等賞
三等賞
四等賞
五等賞
六等賞
七等賞
当せん金額
2 億円
5000
10
1
100
万円
万円
億円
万円
50 万円
1 万円
3000 円
300 円
組
番号
52
124980
42
163770
一等の前後の番号
一等の組違い同番号
37
101799
組下 1 ケタ =0 148793
組下 1 ケタ =0 147297
各組共通
185170
下 3 ケタ =330
下 2 ケタ =84
下 1 ケタ =9
問 2 「ミニロト」では,購入者は 1 から 31 までの 31 個の数字の中から異なる 5 個
の数字を選んで(申込数字),くじを購入する.一方.抽選では,31 個の数字の中から
5 個の本数字と 1 個のボーナス数字がランダムに選ばれる.当せん金額と当せん条件は
以下のようである.
「ミニロト」を 1 口買うときに得る賞金を X 円とするとき,X の確
率分布を求めよ.
2.2
等
1等
2等
当せん金額
1000 万円
15 万円
3等
4等
1 万円
1000 円
当せん条件
申込数字が本数字に 5 個全て一致
申込数字 5 個のうち 4 個が本数字に一致し,
さらに申込数字の残り 1 個がボーナス数字に一致
申込数字 5 個のうち 4 個が本数字に一致
申込数字 5 個のうち 3 個が本数字に一致
期待値
確率変数 X が表 1 の確率分布をもつとする.このとき
E(X) = x1 p1 + x2 p2 + · · · + xk pk
2
抽せん日 2011 年 12 月 31 日
第 2 章 確率変数と確率分布
10
で定義される量を,確率変数 X の期待値(expectation)という.
期待値はその確率変数の平均的な大きさを示す量 である.
例題 1 前節の例題 1 における,箱の色とその中に入れた玉の色が一致したものの個数
X の期待値を求めよ.
(解)
E(X) = 0 ·
2
3
0
1
+1· +2· +3· =1
6
6
6
6
例題 2 「第 617 回全国自治宝くじ(東日本大震災復興支援グリーンジャンボ)」を 1
本買うときに得る賞金 X の期待値を求めよ.
(解)
1
2
99
2
10
+ 108 · 7 + 105 · 7 + 107 · 7 + (5 × 106 ) · 7
7
10
10
10
10
10
2
4
5
6
10
10
10
10
−
100
+106 · 7 + 104 · 7 + (3 × 103 ) · 7 + (3 × 102 ) ·
+ 0 · p0
10
10
10
107
3
1
− 3 = 137.987 = 約 138
= 138 −
100 10
E(X) = (3 × 108 ) ·
(注)この宝くじは 300 円で販売されているから,平均としては 300 円のうち 138 円し
138
か戻ってこないと考えることができる.この割合
= 46% は「賞金還元率」と呼ば
300
れることがある.
問 1 「第 614 回全国自治宝くじ(年末ジャンボ)」を 1 本買うときに得る賞金 X の期
待値を求めよ.
問2
「ミニロト」 1 口買うときに得る賞金 X の期待値を求めよ.
2.3. 分散と標準偏差
2.3
11
分散と標準偏差
確率変数 X が表 1 の確率分布をもつとし,またその期待値を簡単に m = E(X) で
表すことにする.確率変数 X のとる値は,m より大きくなったり小さくなったりする
が,その値の散らばりがどの程度の大きさであるかを考えたい.そのために,つぎの量
V (X) = E((X − m)2 ) =
k
∑
(xi − m)2 pi
i=1
を定義する.これを確率変数 X の分散(variance)という.
分散は平均 m のまわの散らばり具合を示す量 である.
確率変数 X − m そのものでなく,2 乗した (X − m)2 の期待値を考える理由は,も
し X − m の期待値を考えると,
E(X − m) =
k
∑
(xi − m)pi =
i=1
k
∑
x i pi − m
i=1
k
∑
pi = m − m · 1 = 0
i=1
のように,正負の数が打ち消しあって必ずゼロとなり,意味が無くなるからである.
分散 V (X) は確率変数 (X − m)2 の期待値であるから,たとえば X の測定単位が cm
であるとき,分散の単位は cm2 になる.一方,平均 m = E(X) の単位は cm であるか
ら,平均と分散の大きさを比較をすることは意味がない.平均と分散を比較できるよう
にするためには,単位をそろえる必要がある.そこで,分散の平方根
σ(X) =
√
V (X)
を考え,これを標準偏差(standard deviation)と呼ぶ.
例題 1 前節の例題 1 における,箱の色とその中に入れた玉の色が一致したものの個数
X の分散を求めよ.
(解)
V (X) = (0 − 1)2 ·
3
0
1
2
+ (1 − 1)2 · + (2 − 1)2 · + (3 − 1)2 · = 1
6
6
6
6
例題 2 2種類の宝くじ(A と B)があり,ともに 100 本ずつ販売されているとする.
それぞれの宝くじの賞金とその本数は,つぎのようであるとする.
第 2 章 確率変数と確率分布
12
くじ A
賞金 本数
5000
1
0
99
くじ B
賞金 本数
200
5
150
20
50
20
0
55
くじ A を 1 本引いたときの賞金を X ,くじ B を 1 本引いたときの賞金を Y とする.
このとき,E(X) = E(Y ) = 50 であることは容易にわかる.一方,分散は
V (X) = (5000 − 50)2 ·
99
1
+ (0 − 50)2 ·
99 = 1502 × 11
100
100
および
V (Y ) = (200 − 50)2 ·
5
20
20
55
+ (150 − 50)2 ·
+ (50 − 50)2 ·
+ (0 − 50)2 ·
100
100
100
100
= 302 × 5
であるから,標準偏差は
√
√
σ(X) : σ(Y ) = 150 11 : 30 5 = 約 7.4
となる.くじ A のバラツキはくじ B のバラツキより著しく大きく,当たると大儲けが
できることがわかる.
問 1 100 円硬貨と 10 円硬貨を 1 枚ずつ投げるとき,表の出た硬貨の金額を X 円とす
る.確率変数 X の期待値と分散を求めよ.
問 2 さいころを 2 回投げるとき,出る目の和を X とする.確率変数 X の期待値と分
散を求めよ.
問 3 赤,青,白,黒の玉と,赤,青,白,黒の箱が,それぞれ 1 つずつある.これら
の 4 つの玉を,4 つの箱に 1 つずつ入れるとき,箱の色とその中に入れた玉の色が一致
したものの個数を X とする.確率変数 X の期待値と分散を求めよ.
2.4
期待値と分散の簡単な性質
性質1
m = E(X) と書くとき,
V (X) = E(X 2 ) − m2
2.4. 期待値と分散の簡単な性質
13
(証明)
V (X) =
k
∑
(xi − m) pi =
2
i=1
=
k
∑
k
∑
(x2i − 2mxi + m2 )pi
i=1
x2i pi − 2m ·
i=1
k
∑
x i pi + m 2
i=1
k
∑
pi
i=1
2
= E(X ) − 2m · m + m · 1 = E(X ) − m2
2
性質2
2
a, b が定数であるとき,
E(aX + b) = aE(X) + b
(証明)
E(aX + b) =
k
∑
(axi + b)pi = a ·
k
∑
i=1
xi p i + b ·
i=1
k
∑
pi
i=1
= a · E(X) + b · 1 = aE(X) + b
性質3
a が定数であるとき,
V (aX) = a2 V (X)
(証明)
m = E(X) と書くと,性質2より E(aX) = aE(X) = am であるから,
V (aX) = E((aX)2 ) − (am)2 = a2 E(X 2 ) − a2 m2
= a2 (E(X 2 ) − m2 ) = a2 V (X)
例題 3 「第 617 回全国自治宝くじ(東日本大震災復興支援グリーンジャンボ)」を 1
本買うときに得る賞金 X の分散を求めよ.
(解)
1
2
99
2
10
+ (108 )2 · 7 + (105 )2 · 7 + (107 )2 · 7 + (5 × 106 )2 · 7
7
10
10
10
10
10
2
4
5
6
10
10
10
10
−
1
+(106 )2 · 7 + (104 )2 · 7 + (3 × 103 )2 · 7 + (3 × 102 )2 ·
+ 02 · p0
10
10
10
107
1
3
= 138 −
− 5 = 約 138
100 10
E(X 2 ) = (3 × 108 )2 ·
第 2 章 確率変数と確率分布
14
問 1 「サッカーくじ BIG」では,客に対して,J1 および J2 の 14 試合を対象にホー
ムチームの 90 分間での勝ち・負け・その他(引き分け,延長)をコンピュータがランダ
ムに選択する.すなわち,勝ち・負け・その他をそれぞれ 1, 2, 0 で表すことにして,客
が「くじ」を 1 口購入するごとに,ランダムに作られた 14 桁の数(数字は 1, 2, 0 の 3
種類)を 1 個もらうことになる.そして,実際の試合結果にしたがって,購入した 14
桁の数が何等であるかが決まる.また賞金は,販売金額の 50% のうちの決まった割合
となっている.
等
一等
二等
三等
四等
五等
14 個の数字のうち
すべての数字が一致
1 個はずれ
2 個はずれ
3 個はずれ
4 個はずれ
賞金
78%
10%
4%
4%
4%
「サッカーくじ BIG」を 1 本買うときに得る賞金 X の期待値と分散を求めよ.
15
第3章
3.1
条件つき期待値
条件つき期待値
確率変数 X が値 x1 , x2 , · · · , xk をとる可能性があるとき,確率 P (X = xi ) を基にし
て,確率変数の期待値を
E(X) = x1 P (X = x1 ) + x2 P (X = x2 ) + · · · + xk P (X = xk )
により定義した.
同様に,ある事象 A が起こったときに事象 X = xi が起こる条件つき確率 PA (X = xi )
を基にして,事象 A が起こったときの条件つき期待値 EA (X) を,次のように定義する.
EA (X) = x1 PA (X = x1 ) + x2 PA (X = x2 ) + · · · + xk PA (X = xk )
条件つき確率に関しては,これまでいくつかの例題において利用したように,次の
「場合分けをして確率を計算する」公式が非常に有用である.
事象 A1 , A2 , A3 , · · · が排反であり,かつ和事象 A1 ∪ A2 ∪ A3 ∪ · · · が全事象である場合,
P (B) = P (A1 )PA1 (B) + P (A2 )PA2 (B) + P (A3 )PA3 (B) + · · ·
条件つき期待値に関しても,同様な公式が成り立つ.
事象 A1 , A2 , A3 , · · · が排反であり,かつ和事象 A1 ∪ A2 ∪ A3 ∪ · · · が全事象である場合,
E(X) = P (A1 )EA1 (X) + P (A2 )EA2 (X) + P (A3 )EA3 (X) + · · ·
証明は,する必要もないほど容易である.
∑
∑ ∑
E(X) =
xi P (X = xi ) =
xi
P (Aj )PAj (X = xi )
i
=
∑
j
P (Aj )
∑
i
i
j
xi PAj (X = xi ) =
∑
j
P (Aj )EAj (X)
第3章
16
3.2
条件つき期待値
コイン投げ
表の出る確率が p,裏の出る確率が q(もちろん p + q = 1)であるコインを投げ続け
るとき,X 回目に初めて表が出たとする.X の期待値を求めよう.
確率分布は
P (X = k) = q k−1 p ただし k = 1, 2, 3, · · ·
であるから,
E(X) =
∞
∑
kq k−1 p
k=1
ところが,このように期待値の定義を直接に用いて計算を遂行するためには,微積分
(数学 III)の知識が必要となる.1
以下では,微積分を用いないで,期待値を求めてみよう.1 回目のコイン投げ で表が
出る事象を A とする.明らかに,事象 A, A は排反で,かつ A ∪ A は全事象である.し
たがって,上に述べた条件つき期待値に関する公式を利用することができる.
• 事象 A が起きたとき,X = 1 である.したがって EA (X) = 1 である.
• 事象 A が起きなかったときの条件付き期待値 EA (X) について考える.これを求
めるためには,事象 A が起きなかったときの条件付き確率 PA (X = k) がわかれ
ばよい.ところが,1 回目のコイン投げの結果は,2 回目以降のコイン投げに影
響しない(1 回目のコイン投げの結果,2 回目のコイン投げの結果,3 回目のコイ
ン投げの結果,等は独立である).だから,2 回目からコイン投げを開始したとし
て,開始後 Y 回目に初めて表が出たとすると,PA (X = k) = P (Y = k) である.
だから,EA (X) = 1 + E(Y ) である.ところが実は E(Y ) = E(X) である.した
がって,EA (X) = 1 + E(X) であることがわかる.
条件つき期待値に関する公式より,
E(X) = P (A) · 1 + P (A) · (1 + E(X))
すなわち
E(X) = p + q(1 + E(X)) = 1 + qE(X)
これは未知数 E(X) に関する一次方程式と見なすことができる.したがって,求める
解は
1
E(X) =
q
である.
1
理系の学生であるならば,この計算は容易にできるはずである
3.3. 壷の問題
3.3
17
壷の問題
壷の中に r 個の赤玉と w 個の白玉が入っている.壷から一つの玉を無作為に取り出
し続ける.ただし,取り出した玉は壷に戻さないものとする.X 回目に初めて赤玉を取
り出すとするとき,期待値 E(X) を求めよう.この期待値を記号 aw で表すことにする.
1 回目の玉の取り出し で赤玉を取り出す事象を A とする.
• 事象 A が起きた場合,X = 1 である.したがって EA (X) = 1 である.
• 事象 A が起きなかった場合.2 回目から玉の取り出しを開始したとして(1 回目
の玉の取り出しは過去の事であると忘れて),開始後 Y 回目に初めて赤玉が取り
出されたとすると,だから,EA (X) = 1 + E(Y ) である.ところが 1 回目の玉の
取り出しの結果,壷の中身は,赤玉 r 個,白玉 w − 1 個に変化している.だから
E(Y ) = aw−1 と表すことができる.したがって,EA (X) = 1 + aw−1 である.
そこで条件つき期待値に関する公式より,
aw =
r
w
·1+
· (1 + aw−1 )
w+r
w+r
こうして漸化式
aw = 1 +
w
aw−1
w+r
が得られた.
問1
3.4
上の漸化式を解いて,期待値 aw を求めよ.
平均余命
ある年度に生まれた人の集団から無作為に一人を選ぶ(性別は男女のどちらかに限定
しておく).この人の寿命を X で表す(これは,もちろん,確率変数である).この人
が a 歳まで生存するという事象を A であらわすとき,条件つき期待値 EA (X) を平均
◦
余命と呼び,ea で表すことにする.平均余命はつぎの奇妙な(?)性質をもつ.
◦
◦
a < b であるとき a+ ea < b+ eb
はじめに,a = 0, b = 1 である特別な場合に,証明をする.無作為に選ばれた一人が,
1 歳まで生存する事象を A とし,P (A) = p0 と置く.だから,確率 p0 は 1 歳になる前
に死亡する確率である.すると
E(X) = P (A) · EA (X) + P (A) · EA (X)
第3章
18
これは
◦
e0 = p 0 ·
条件つき期待値
1
◦
+ (1 − p0 ) · (1+ e1 )
2
と書き直せる.したがって
◦
(
◦
e0 = (e1 +1) − p0
が示された.
一般の場合は,
◦
◦
1
e1 +
2
◦
◦
)
◦
<e1 +1
◦
ea <ea+1 +1 <ea+2 +2 < · · · <eb +(b − a)
と考えればよい.
第 20 回生命表
年齢
0
1
2
..
.
2
死亡率
0.00298
0.00045
0.00032
..
.
(男)
生存数 死亡数
100000
298
99702
45
99657
32
..
..
.
.
平均余命
78.56
77.79
76.83
..
.
10 0.00009
11 0.00009
..
..
.
.
20 0.00056
21 0.00060
..
..
.
.
99522
99513
..
.
9
9
..
.
68.93
67.93
..
.
99285
99230
..
.
55
60
..
.
59.08
58.11
..
.
30 0.00074
..
..
.
.
60 0.00883
..
..
.
.
98636
..
.
73
..
.
49.43
..
.
90233
..
.
797
..
.
100 0.34869
..
..
.
.
1188
..
.
414
..
.
2
年齢
0
1
2
..
.
死亡率
0.00252
0.00034
0.00025
..
.
(女)
生存数 死亡数
100000
252
99748
34
99714
25
..
..
.
.
平均余命
85.52
84.73
83.76
..
.
10 0.00007
11 0.00006
..
..
.
.
20 0.00026
21 0.00029
..
..
.
.
99614
99608
..
.
7
6
..
.
75.84
74.85
..
.
99489
99462
..
.
26
28
..
.
65.93
64.95
..
.
99178
..
.
37
..
.
56.12
..
.
22.09
..
.
30 0.00037
..
..
.
.
60 0.00364
..
..
.
.
95086
..
.
347
..
.
27.66
..
.
2.08
..
.
100 0.28088
..
..
.
.
6090
..
.
1711
..
.
2.54
..
.
http://www.mhlw.go.jp/toukei/saikin/hw/life/20th
3.5. クーポン集め
3.5
クーポン集め
19
21
第4章
社会統計に登場する期待値たち
合計特殊出生率
4.1
合計特殊出生率(total fertility rate)とは,一人の女性が一生の間に生む子どもの数
を示す量で,将来の人口の増減を予測する際に用いられる.正確には,次節のように定
義する.
4.1.1
コーホートに関する合計特殊出生率
1. ある年度(西暦 b 年)に生まれた女性の集団を考える(この同一年度生まれの集
団はコーホートと呼ばれている).
2. この集団から一人の女性を無作為に選ぶ.
3. その女性が a 歳になった年度において,その年度に生んだ子どもの数を Xb,a で
表す.
4. ここで,女性の出産可能年齢にはもちろん個人差があるが,調査の都合上,誰も
が 15 ∼ 49 歳であると仮定しておく.すると,和
Yb = Xb,15 + Xb,16 + · · · + Xb,49
は,その女性が一生の間に生む子どもの数を示す.
5. 確率変数 Yb の期待値
E(Yb ) = E(Xb,15 ) + E(Xb,16 ) + · · · + E(Xb,49 )
が合計特殊出生率である.
合計特殊出生率に対して,ある年度の人口 1000 人当たりの出生数を粗出生率(crude
birth rate)と呼ぶ.つぎの例では,粗出生率のデータを用いて,合計特殊出生率を計算
する方法を説明する.
第 4 章 社会統計に登場する期待値たち
22
例 つぎのデータは,母の年齢別にみた粗出生率(ただし女性人口 1000 人当たりの出
生数)である.1
母の年齢
15 ∼ 19
20 ∼ 24
25 ∼ 29
30 ∼ 34
35 ∼ 39
40 ∼ 44
45 ∼ 49
1975 年
4.1
107.0
190.1
69.6
15.0
2.1
0.1
1980 年
3.6
77.1
181.5
73.1
12.9
1.7
0.1
1985 年
4.1
61.7
178.4
84.9
17.7
1.8
0.1
1990 年
3.6
44.8
139.8
93.2
20.8
2.4
0.0
1995 年
3.9
40.4
116.1
94.5
26.2
2.8
0.1
2000 年
5.4
39.9
99.5
93.5
32.1
3.9
0.1
2005 年
5.2
36.6
85.3
85.6
36.1
5.0
0.1
2010 年
4.6
36.1
87.4
95.3
46.2
8.1
0.2
たとえば 1961 ∼ 1965 年に生まれの女性の集団(コーホート)を考える.2 するとこ
のコーホートに属する女性は,
• 1980 年に a = 15 ∼ 19 歳であるから,その年齢で出産する子どもの数の期待値は,
E(Xb,15 ) + E(Xb,16 ) + E(Xb,17 ) + E(Xb,18 ) + E(Xb,19 ) =
3.6 × 5
= 0.0180
1000
である.
• 1985 年に a = 20 ∼ 24 歳であるから,その年齢で出産する子どもの数の期待値は,
E(Xb,20 ) + E(Xb,21 ) + E(Xb,22 ) + E(Xb,23 ) + E(Xb,24 ) =
61.7 × 5
= 0.3085
1000
• 以下同様にして,
E(Xb,25 ) + E(Xb,26 ) + E(Xb,27 ) + E(Xb,28 ) + E(Xb,29 ) =
E(Xb,30 ) + E(Xb,31 ) + E(Xb,32 ) + E(Xb,33 ) + E(Xb,34 ) =
E(Xb,35 ) + E(Xb,36 ) + E(Xb,37 ) + E(Xb,38 ) + E(Xb,39 ) =
E(Xb,40 ) + E(Xb,41 ) + E(Xb,42 ) + E(Xb,43 ) + E(Xb,44 ) =
E(Xb,45 ) + E(Xb,46 ) + E(Xb,47 ) + E(Xb,48 ) + E(Xb,49 ) =
139.8 × 5
= 0.6990
1000
94.5 × 5
= 0.4725
1000
32.1 × 5
= 0.1605
1000
5.0 × 5
= 0.0250
1000
0.2 × 5
= 0.001
1000
したがって
E(Yb ) = 0.0180 + 0.3085 + 0.6990 + 0.4725 + 0.1605 + 0.0250 + 0.001 = 1.6845
1
厚生労働省「人口動態調査」による.残念ながら,母の年齢階級幅は 1 歳ではなく,5 歳にまとめて
公表されている.
2
たとえば,1980 年に 19 歳になると言っても,1980 年 1 月 1 日になる場合もあれば,12 月 31 日
になる場合もあり様々である.そこで考えやすくするために,集団の全員が年度の真ん中の7月 1 日生
まれであると仮定する.すると,1980 年 7 月 1 日に 19 歳になる女性は,1961 年 7 月 1 日生まれの
はずである.だから,b = 1961/7/1 ∼ 1965/7/1 と考えればよい.
4.1. 合計特殊出生率
23
となる.すなわち,1960 ∼ 1964 年に生まれのコーホートの合計特殊出生率は約 1.68 で
ある.
つぎに,たとえば 1986 ∼ 1990 年に生まれのコーホートの合計特殊出生率を求めるこ
とを試みる.2015 年に,このコーホートに属する女性は 25 ∼ 29 歳となる.ところが,
この年度の粗出生率は,未だわかっていない.
したがって,この コーホートの合計特殊出生率を求めることは不可能 である.
問1
1955 ∼ 1959 年に生まれのコーホートの合計特殊出生率を求めよ.
4.1.2
合計特殊出生率の推定
前節の例で見たように,一つのコーホートに関する合計特殊出生率を知るためには,
そのコーホートの粗出生率を 35 年間という長期に渡って調査する必要がある.しかも,
この調査には膨大な労力が要求されるだけなく,知ることができる最新の合計特殊出生
率は 35 年より前に生まれたコーホートのものである.この古い値では,将来の人口の
増減を予測する目的には,全く適わない.そこで,たとえば 2010 年度の合計特殊出生
率を,次のようにして「推定」することにする.
1. 2010 年に a 歳である女性の集団(a = 15, 16, · · · , 49)を考える.このような集団
は全部で 35 集団ある.
2. これらの集団に対する粗出生率は知ることができる(「人口動態調査」).この粗出生
率は,2010 − a 年生まれのコーホートが a 歳になった年度の粗出生率 E(X2010−a,a )
である.
3. これらの和
E(X2010−15,15 ) + E(X2010−16,16 ) + · · · + E(X2010−49,49 )
を計算して,2010 年度の合計特殊出生率とする.
例の続き
2010 年度の合計特殊出生率
4.6 × 5 36.1 × 5
87.4 × 5 95.3 × 5 46.2 × 5 8.1 × 5 0.2 × 5
=
+
++
+
+
+
+
1000
1000
1000
1000
1000
1000
1000
= 1.3895
公表されている合計特殊出生率は,このようにして計算した当該「年度の特殊出生率」
である.
第 4 章 社会統計に登場する期待値たち
24
問2
1990 年度の合計特殊出生率を求めよ.
各年齢の粗出生率が世代(コーホート)によらず同じであるならば,
「コーホートの合計特殊出生率」と「年度の合計特殊出生率」は同じ値になる.
しかし,今日のように晩婚化・晩産化が進行している状況では,各世代の結婚や出産
行動に違いがあり,各年齢の出生率が世代により異なるため,
「コーホートの合計特殊出
生率」と「年度の合計特殊出生率」は一致しない.
4.1.3
合計特殊出生率を利用した将来の人口の予測の意義
単純に考える人は(たとえばマスコミ報道では),合計特殊出生率が 2 より大きけれ
ば将来の人口は増加し,逆に 2 より小さければ将来の人口は減少する,と主張する.
精密に考える人は,
• 男子の方が女子より少し多く生まれる(約 1.06 倍)
• 女子が出産可能年齢の間に(ここでは 15 ∼ 49 歳の間に)死亡する
ことより,
「しきい値」は 2 より少し大きい値であると,主張する.
しかし,このような考え方は正しくない.合計特殊出生率の値は一つの指標に過ぎず,
この値だけで人口予測することは誤りである.その理由は以下の通りである.
• 「コーホートの合計特殊出生率」は 35 年より前の値しか知ることはできない.
「年
の合計特殊出生率」は,
「コーホートの合計特殊出生率」を推定するための便宜的
方法と考えた方がよい.
• もし「コーホートの合計特殊出生率」を正確に知ることができたとし,その値を
人口の予測に利用できたとする.この場合でも,その値は将来の 35 年間に関わる
値であり,特定のある年度の人口の予測には向いていない.
• 最も重要な理由は,過去のデータから推定した指標を将来の予測に利用する作業
(一般に外挿と言う)は,大きな誤りをもたらす可能性がある.人口の予測は,合
計特殊出生率という一つの数値だけでなく,人口構成の詳細な変化を考察して,は
じめて可能になる問題である.
4.2. 平均余命
4.2
25
平均余命
平均余命(life expectancy)とは,ある年齢の人が,その後何年生きられるかという
期待値のことで,生命表を用いて計算することができる.
4.2.1
生命表
生命表は次のような形態をしている.
◦
年齢 x
死亡率 qx
生存数 lx
死亡数 dx
平均余命 ex
0
1
2
..
.
q0
q1
q2
..
.
l0
l1
l2
..
.
d0
d1
d2
..
.
e0
◦
e1
◦
e2
..
.
◦
死亡率 qx
年齢 x の集団の死亡率とは,年齢 x の個体が年齢 x + 1 になるまでに死
亡する確率のことである.
生命表において,実際の調査から求められるデータは,死亡率だけである.
(詳し
い求め方は後述する.
)
生存数 lx 年齢 x に達するまで生きていると期待される人数.
死亡数 dx x 歳における生存数 lx のうち,x + 1 になる前に死亡する人数.
◦
平均余命 ex x 歳における生存数 lx 人の集団から,無作為に選ばれた一人が以後生きる
ことのできる年数を Yx で表すとき,確率変数 Yx の期待値 E(Yx ) のことを,年
齢 x の集団の平均余命と呼ぶ.
単純な数値を用いた例
年齢
0
1
2
3
死亡率
0.4
0.5
0.7
1.0
生存数
100000
60000
30000
9000
死亡数
40000
30000
21000
9000
平均余命
1.49
死亡率がわかると,生存数と死亡数が容易に計算できる.
1. 年齢 0 の集団の個体数は,たとえば 100000 であるとする.
第 4 章 社会統計に登場する期待値たち
26
2. 年齢 0 の集団の死亡率は 0.4 であるから,1 歳になるまでに 100000 × 0.4 = 40000
の個体が死亡し,したがって年齢 1 の生存数は 60000 となる.
3. 年齢 1 の集団の死亡率は 0.5 であるから,2 歳になるまでに 60000 × 0.5 = 30000
の個体が死亡し,したがって年齢 2 の生存数は 30000 となる.
4. 年齢 2 の集団の死亡率は 0.7 であるから,3 歳になるまでに 30000 × 0.7 = 21000
の個体が死亡し,したがって年齢 3 の生存数は 9000 となる.
◦
年齢 0 の集団の平均余命(たんに平均寿命とも言う)e0 は,つぎのようにして計算
できる.
1. 最初の集団の個体数は 100000 である.
2. 1 歳になるまでに 40000 の個体が死亡するが,無作為に選ばれた個体がこの 1 年間
のいつ死亡したかは不明なので,この個体の寿命は 0 と 1 の中央値 0.5 歳である
と考える.言い換えれば,個体の寿命が 0.5 歳である確率は 40000/100000 = 0.40
である.
3. つぎの 1 年間に 30000 の個体が死亡するが,無作為に選ばれた個体の寿命は 1 と
2 の中央値 1.5 歳であると考える.言い換えれば,個体の寿命が 1.5 歳である確
率は 30000/100000 = 0.30 である.
4. つぎの 1 年間に 21000 の個体が死亡するが,無作為に選ばれた個体の寿命は 2 と
3 の中央値 2.5 歳であると考える.言い換えれば,個体の寿命が 2.5 歳である確
率は 21000/100000 = 0.21 である.
5. 最後の 1 年間に 9000 の個体が死亡するが,無作為に選ばれた個体の寿命は 3 と
4 の中央値 3.5 歳であると考える.言い換えれば,個体の寿命が 3.5 歳である確
率は 9000/100000 = 0.09 である.
だから,確率変数 X の確率分布は,
値
確率
0.5
0.40
1.5 2.5
0.30 0.21
3.5
0.09
したがって,
E(Y0 ) = 0.5 × 0.40 + 1.5 × 0.30 + 2.5 × 0.21 + 3.5 × 0.09 = 1.49
となる.
4.2. 平均余命
27
問 1 年齢 1 の集団,年齢 2 の集団,および年齢 3 の集団について,それぞれの平均
余命を計算せよ.
◦
一般に,年齢 x の集団の平均余命 ex = E(Yx ) は,次のようにして求めることができ
る.はじめに,確率変数 Yx の確率分布は
値
確率
1
2
dx
lx
3
2
dx+1
lx
5
2
dx+2
lx
···
···
したがって,
1 dx 3 dx+1 5 dx+2
·
+ ·
+ ·
+ ···
2 lx
2 lx
2 lx
[
]
1 1
3
5
=
dx + dx+1 + dx+2 + · · ·
lx 2
2
2
[
]
1 1
3
5
=
(lx − lx+1 ) + (lx+1 − lx+2 ) + (lx+2 − lx+3 ) + · · ·
lx 2
2
2
[
]
1 1
=
lx + lx+1 + lx+2 + lx+3 + · · ·
lx 2
E(Yx ) =
(4.1)
(4.2)
これらの式のうち,(4.1) または (4.2) を用いて計算すればよい.
4.2.2
平均余命の数学的性質
平成 16 年簡易生命表(男性)によれば、0 歳児の死亡率は 0.00301 であり、また 1
歳児の平均余命は 77.87 である。たとえば 0 歳児が 100000 人いるとしたとき、その
うち 301 人が 1 歳になる前に死亡するから、この児たちの寿命は 0.5 歳であり、残り
100000 − 301 = 99699 人の平均寿命は 77.87 + 1 + 78.87 歳である。したがって、0 歳
児の平均寿命は
99699
301
+ 78.87 ×
= 78.63
0.5 ×
100000
100000
歳となるはずである。これは簡易生命表の結果と一致している(小数第 2 位が異なって
いるのは、1 歳児の平均余命 77.87 が不正確なため。)
問 2 もし 0 歳児の死亡率を現在の約半分 0.00195 に下げることができるならば、0 歳
児の平均寿命は何歳になるか。
問 3 現在夫は 30 歳、妻は 25 歳である。この夫婦がそろって妻の還暦(満 60 歳)を
祝うことができる確率を求めよ。
29
第5章
標本調査
集団全体を調査する全数調査に対して,一部分のみを調査する方法を標本調査という.
調査の対象とされる集団全体のことを母集団(population)と呼ぶ.
たとえば総務省統計局が作成している『家計調査』の母集団は農林漁業世帯
と単身者世帯を除いた全国の消費者世帯であり,また財務省が作成している
『法人企業統計』の母集団は金融・保険を除く全営利法人である.
標本調査では,母集団から適当な標本(sample)を抽出し,取り出された標本からの
知識にもとづいて,母集団に関する推論が行われる.標本の抽出は無作為抽出(random
sampling)により行われる.
5.1
標本調査の方法
最も単純な無作為抽出法は,母集団に属する すべての対象を等確率で選ぶ 方法であ
る.たとえば,ある市が世論調査を行う場合,母集団(市民全体)から「くじ引き」で
標本を選び出す.しかし実際に「くじ引き」を行うのは不可能であるから,サンプリン
グ台帳から,乱数を用いて机上で「くじ引き」を行うことになる.ここで,サンプリン
グ台帳とは,母集団に属する対象を洩れなく書き上げたリストのことであるが,住民票
(住民基本台帳)を用いるのがふつうである.
5.1.1
乱数の発生方法
10 個の数字 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 をランダムに発生させるには,たとえば正 20 面体
のサイコロを振ればよい.
第5章
30
標本調査
しかし現代ではコンピュータを用いて,乱数発生させるのが普通である.その結果は,
たとえば次のような乱数表が得られる.
8
4
5
7
4
9
6
1
9
5
3
1
0
2
2
6
7
1
7
7
5.1.2
例1
7
1
1
7
9
3
0
3
9
1
7
9
6
6
9
7
1
9
9
4
9
2
8
3
1
3
5
8
6
5
1
5
3
6
8
2
0
3
4
9
3
8
0
1
6
2
0
5
1
4
7
6
0
4
4
5
2
5
8
3
2
2
4
8
6
2
4
4
8
8
5
6
0
8
2
1
8
6
0
4
4
5
2
3
7
7
5
0
6
0
6
4
9
2
3
1
7
5
2
3
3
9
9
8
4
7
0
7
6
5
5
2
8
3
2
1
1
3
2
8
9
7
2
6
1
7
9
9
7
2
9
5
5
9
2
0
2
5
3
6
6
7
3
5
5
9
8
8
3
4
7
4
7
6
4
0
1
7
2
4
1
8
5
8
1
5
9
6
0
3
6
2
6
4
9
1
0
0
6
7
0
3
5
9
1
2
8
7
2
1
2
8
0
3
1
7
0
8
6
6
1
9
4
8
4
7
0
9
5
0
8
0
9
6
7
6
9
8
9
4
1
9
9
9
9
9
5
8
2
6
無作為抽出の例
35 校の小学校から 7 校を無作為に選ぶには次のようにすればよい.
1. 学校に番号 00, 01, 02, · · · , 34 を付ける.
2. 乱数表の数字を
83 77 91 37 25 46 35 99 67 16 02 18 14 11 ...
のように 2 桁区切りに読む.
3. それら 2 桁の数を 35 で割った余りを求める.
13 07 21 02 25 09 00 29 32 16 02 18 14 11 ...
5.1. 標本調査の方法
31
ただし,たとえば 77 を 35 で割った余りは 02 のように記す.
4. 最初の数から始めて,7 個の「異なる」数を選ぶ.もし前に選んだ数が再び現れ
た場合,その数はスキップする.選ばれた 7 個の数を番号にもつ学校が抽出され
たことになる.
問 1 10 人のお客様に,ランダムな順番でテーブルスピーチをしていただきたい.どの
ようにして順序を決めたらよいか.
5.1.3
多段抽出法
大規模調査において単純無作為抽出法を適用すると,選ばれた標本が地理的に散在し,
調査費用と労力が大きくなりすぎて,現実には調査が不可能になる.そこでこのような
欠点を除くために,標本が散在しないようにまとめる工夫をする.
たとえば,全国の世帯を母集団とする場合,
• はじめに,全国の市町村のリストを用いて,そこからいくつかの市町村を抽出す
る.つぎに,選ばれた市町村における世帯のリストを用いて,そこから世帯を抽
出する.これを2段抽出法と言う.
• 場合によっては,選ばれた市町村の中をいくつかのブロック(区画)に分けて,そ
こからいくつかのブロックを抽出する.そして,選ばれたブロックにおける世帯
のリストを用いて,そこから世帯を抽出する.これを3段抽出法と言う.たとえ
ば『家計調査』では,母集団は全国の消費者世帯(ただし農林漁業世帯および単
身者世帯は除く)であり,3段抽出法を行っている.
注意すべき事は,たとえば全国の市町村のリストから市町村を抽出する際,それぞれ
の市町村を等確率で選ばずに,それぞれの市町村の世帯数に比例する確率で抽出しなけ
ればいけない.この方法を確率比例抽出法と言う.
例 2 5 つの学校 A,B,C,D,E があり,それぞれの生徒数は 100, 200, 300, 400, 500 名で
ある.総数 1500 名の生徒から,50 名を無作為抽出して,学力テストを実施する計画が
ある.ただし,学校どうしは距離が離れているので,はじめに 2 校を抽出し,つぎに生
徒 50 名を抽出することにした (2段抽出法).そのためには
• 学校 A,B,C,D,E から 2 校を無作為抽出する際,それぞれを抽出する確率は
1 2 3 4 5
, , , ,
15 15 15 15 15
としなければならない.
第5章
32
標本調査
1. 乱数表の数字を
83 77 91 37 25 46 35 99 67 16 02 18 14 11 ...
のように 2 桁区切りに読み,それらの数を 15 で割った余りを求める.
08 02 01 07 10 01 05 09 07 01 02 03 14 11 ...
2. 最初の数から始めて数を選び続けるとき,00 の場合は学校 A を,01,02 の
場合は学校 B を,03,04,05 の場合は学校 C を,06,07,08,09 の場合は学
校 D を,10,11,12,13,14 の場合は学校 E を抽出する.
• この結果,たとえば学校 B,D が抽出されたとき,次は,この 2 校の生徒数の合計
600 名から 50 名を無作為抽出することになる.これは普通の無作為抽出である.
問 2 上の例で,はじめに 3 校を抽出し,つぎに生徒 50 名を抽出することにした (2
段抽出法).どの学校が選ばれるか?
5.1.4
層別抽出法
たとえば調査結果が,性別・年齢階級別・職業別等の様々な層別で異なることが,前
もって予想できるとする.このようなときに単純無作為抽出法を適用すると,たとえば
ある層の標本が偶々全く選ばれない,ということが起こりえる.そこで,そうならない
ように,それぞれの層から,必ずある数の標本が選ばれるように配慮する必要がある.
これを層別抽出法と言う.
平成 20 年の『家計調査』では,母集団は,平成 17 年『国勢調査』に基づき,
二人以上の世帯が約 3461 万世帯,単身世帯が約 1350 万世帯である.層別の
方法は,たとえば中都市および小都市 A では,家計指標と相関が高いとみら
れる社会・経済指標 (人口集中地区人口比率,人口増減率,第一次および第
二次産業就業者数の割合,世帯主の年齢) を組み合わせて,各層の調査対象
世帯数が,できるだけ等しくなるようしている.層別の配分は,各県庁所在
地およびいくつかの大都市で 51 層,中都市および小都市 A で 75 層,小都
市 B で 42 層,のようにして計 168 に層別を行っている.調査世帯数は全部
で「わずか」8076 世帯にすぎない.
『法人企業統計』では,母集団は全国の法人企業(ただし金融・保険業は除
く)であり,それを資本金規模別に 4 層に層別している.平成 3 年の『法人
企業統計』では,全国で 464, 587 の法人企業があり,そこから全部で 22, 523
個の標本を抽出している.
5.2. RDD 方式による標本抽出
5.2
33
RDD 方式による標本抽出
世論調査の方法は従来は主に「個別訪問面接聴取法」であった.これは,調査員が調
査対象者の自宅を直接訪問し面接での聴取を行うか.または事前に回答調査書を配布し
て調査対象者に記入してもらい,後日調査書を回収する方式である.
しかし近年は電話による RDD 方式(乱数番号法,Random Digit Dialing)が多く採
用されている.これは,コンピュータで乱数計算を基に電話番号を発生させて電話をか
け,応答した相手に質問を行う方式で,従来の固定電話を対象として行なわれる.NTT
などの電話帳に掲載されていない電話番号も抽出対象となりえる.
以下では,
「朝日新聞社の RDD 方式」1 と「日本経済新聞社の RDD 方式」2 におい
て,標本を無作為抽出をするため用いられている様々な工夫について紹介する.
5.2.1
朝日新聞社の RDD 方式
「RDD」とは「ランダム・デジット・ダイヤリング」の略で,コンピューターで無作
為に数字を組み合わせて番号を作り,電話をかけて調査する方法です.この方式だと,
電話帳に番号を掲載していない人にも調査をお願いすることができるため,電話帳から
番号を調べる方式より偏りなく調査の対象となる人を選ぶことができます.朝日新聞社
では,選挙情勢を探る調査で,1999 年 11 月の奈良県知事選挙から調査方法を「朝日
RDD」方式に切り替え,選挙結果の予測などが正確にできることを確認しました.その
うえで,2001 年 4 月から内閣支持率などを調べる全国世論調査についても「朝日 RDD」
方式に切り替えました.
電話番号の作り方
電話番号は [市外局番]-[市内局番]-[家庭用番号] の計 10 桁の数字でできています.
朝日新聞社では,全国の電話帳に記載されている番号を参考にして,実際に使われてい
る上 8 桁の番号をリストにして保存しています.このリストはあらかじめ,それぞれの
上 8 桁番号がどの地域で多く使われ,電話帳にはどのぐらいの件数が掲載されている
か,などの情報をもとに分類してあります.
そして,調査に使う電話番号を実際に作る際,このリストの中から,調査対象地域や
電話帳への掲載度合いなどに偏りが出ないよう工夫したうえで,上 8 桁の番号を無作為
に選びます.
次に,残りの下 2 桁を 00 ∼ 99 の範囲で乱数を発生させて計 10 桁の番号を作ります.
このようにして作った電話番号の中には,使われていない番号も多く含まれるため,
これを自動判別するコールシステムによってふるいにかけ,残った番号を調査に使いま
1
2
http://www.asahi.com/special/08003/rdd.html
http://www.nikkei-r.co.jp/service/phone/method.html
第5章
34
標本調査
す.
調査の進め方
調査当日は,これらの番号にオペレーターが次々と電話をかけます.朝日新聞では,
機械による自動音声を使っての調査は実施していません.
世論調査の対象となるのは,一般世帯に居住する有権者です.もし,電話が法人など
一般世帯以外につながった場合は対象外として処理します.
世帯に電話がつながったら,調査の趣旨を説明した後,その世帯に住んでいる有権者
の人数を聞きます.コンピューターでサイコロを振る形で,その中から1人を選んで調
査の対象者になってもらいます.電話に最初に出た人を対象にすると,在宅率の高い主
婦や高齢者の回答が多くなってしまい正確な調査になりません.
選ばれた人が不在でも,一度決めた対象者は変えず,時間を変えて最大6回まで電話
をかけます.また,すぐには応じていただけない場合でも,重ねて協力をお願いしてい
ます.これも,回答者の構成を「有権者の縮図」に近づけるためです.
また,調査は原則午後 10 時まで(予約ができれば午後 11 時まで)行い,仕事など
で帰宅が遅い人からも回答してもらえるようにしています.
集計方法にも工夫
世論調査の対象となる人は,偏りなく等しい確率で選ぶ必要があります.そのため,
集計の際に世帯内に一緒に住んでいる有権者の人数や固定電話の本数に応じて,統計的
に等確率で選ばれた結果になるように以下のような調整をしています.
• 【固定電話の本数に応じた調整】 自宅に2本の固定電話を持っている世帯があり
ます.この場合,1本しかない世帯に比べて電話がかかってくる確率は2倍にな
るため,得られた回答結果に対して数値を2分の1にする調整をします.
• 【有権者の人数に応じた調整】 電話がつながって調査対象者を選ぶ際,ひとり暮
らしの世帯ではその人が対象者に選ばれるのに対し,同居する有権者が多い世帯
ではそのうちの1人だけが選ばれるため,ひとり暮らしの人は調査に当たる確率
が高いといえます.そのため,世帯内に一緒に住んでいる有権者の人数に応じて
調整をします.
• 【年代など】 上のような調整をしたうえで,さらに,全体として地域別,性別,
年代別の構成比のゆがみをなくす補正をします.回答者の構成比が総務省発表の
実態構成比と同じになるようにします.
5.2.2
日本経済新聞社の RDD 方式
標本抽出法
5.2. RDD 方式による標本抽出
35
調査の母集団は「全国の有権者」,標本の抽出枠は「全国の固定電話加入世帯」,標
本の大きさは約 1600 である.詳しくは,
1. 全国で稼動中の固定電話の局番(市外局番+市内局番)に,加入者番号(0000 ∼
9999)を付加した番号集合を抽出枠とします.
2. 電話番号局番を小さい順に配列した上で,系統抽出法(等間隔抽出法)で 1 万件
の電話番号の属する局番を無作為抽出します.
3. 抽出された局番からそれぞれ 1 個の加入番号を単純無作為抽出します(0000 ∼
9999 の一様乱数を発生させて、その乱数を4桁の加入番号とします).
4. こうして抽出した電話番号標本のうち,現在使われていない番号を自動判定シス
テムで除去します.この結果,平均的に 4 千数百件の稼動番号が得られ,この電
話番号に日経リサーチのオペレーターが電話をします。
5. すべての電話をかけた結果,約 1600 件が世帯であることが経験的に期待できま
す. この世帯のうち有権者のいることが確認された世帯が調査対象となります。
6. 調査対象となった世帯のうち,約 900 件以上の協力を得ることを目標とします.
調査実施法
1. 約 4 千件に対して電話をかけさせていただきます.
2. 世帯電話でない場合は,調査協力を依頼しません.
3. 世帯電話の場合はオペレーターが調査の趣旨説明をして協力をお願いします.
4. ご協力いただける場合には,世帯内の有権者の人数を確認させていただきます.
5. 有権者の人数以下の整数乱数を発生させ,
「年齢が上から○(乱数)番目の人」と
いうように,回答していただく方を決めさせていただきます.
6. 回答者が電話に出た方である場合は,そのままアンケートを始めさせていただき
ます.
7. 回答者が別の家族である場合は,電話口に交代してもらって質問を始めます.回
答者が不在の場合には帰宅時間を確認した上で,時間をおいて再びお電話させて
いただきます.いったん決まった回答者を変更することはできませんのでご了承
ください.
8. 調査期間は通常,週末の3日間です.実施時間帯は原則として 9 : 00 ∼ 21 : 30 と
します.
第5章
36
標本調査
集計方法
• 「有権者のいる世帯」と確認できた集合を抽出標本とします.そのうち「回答を
得られた有権者」の集合を回収標本とします.
• 回答率は「回収標本÷抽出標本」で定義します.
• 内閣支持率などの比率の算出は,回答を得られた件数(回収標本)を分母とします.
例えば,抽出標本 =3000,回収標本 =2000 で,内閣を「支持する」と回答した人数
=1000 の場合は,回答率 = 2000 ÷ 3000 = 67%,内閣支持率 = 1000 ÷ 2000 = 50%
です.
• 集計の際には「世帯内有権者数」n と「世帯の有する電話番号数」t で n/t の重み
調整をします.例えば,世帯内有権者数 n = 1 で電話番号数 t = 1 の場合の回答
者に与える重みは n/t = 1 です.世帯内有権者数 n = 3 で電話番号数 t = 2 の場
合の重みは n/t = 3/2 = 1.5 となります.
5.2.3
ギャラップ調査
ギャラップ調査は,商業的世論調査機関であるギャラップ社が行う世論調査の総称で,
特に大統領選挙の予想で有名である.3
1936 年,大統領選挙において,民主党のフランクリン・ルーズベルトと,共和党のア
ルフレッド・ランドンという 2 人の候補がいた.大手雑誌である『リテラリー・ダイジェ
スト』誌は,230 万人もの世論調査の末,ルーズベルトの落選を予想した.対して,は
るかに少ない調査を行ったギャラップ社は再選を予想した.ルーズベルトは再選し,そ
の予想の的中により,ギャラップ社は一躍脚光を浴びた.
『リテラリー・ダイジェスト』誌の予想が外れたのは,当時としては珍しい電話を使っ
た世論調査の特性を見落としていたからといわれている.当時は電話の普及率 40% で,
早くから電話が普及していた富裕層と,それ以外の層で,普及率に差があった.共和党
支持者は富裕層に多いため,ランドン候補に有利なデータが出てしまったとの分析であ
る.それに対し Graham Walden はリ社の調査結果の偏向は調査方法(普及率が 40%
の電話)によるよりも,1,000 万の聞き取りに対し 230 万の有効回答しか得られなかっ
たこと,またリ社の読者層は保守派である事による回答者層の偏りによるものであると
指摘している.
問 「朝日新聞社の RDD 方式」および「日本経済新聞社の RDD 方式」において,
「標
本を無作為抽出する」目標が達成できていない箇所があるとしたら,それはどの箇所で
あるか可能性をできるだけ多くを挙げて論ぜよ.
3
ギャラップ (George Horace Gallup) (1901 年∼1984 年)はアメリカの心理学者,統計学者である.
世論の統計的調査法を創始し,1935 年に米国世論調査所を設立した.
5.3. 偏った標本抽出の諸例
37
偏った標本抽出の諸例
5.3
5.3.1
無作為でない抽出:インターネット調査の例
つぎは,朝日新聞に掲載された記事『ネット調査、「不満」高めの傾向 訪問面接と
比較』である.4
ここ数年急増するインターネットでの調査は、従来の訪問調査に比べ世の中への不
満が強く、将来に不安を感じる傾向が強めに出ることが、厚生労働省の外郭団体「労
働政策研究・研修機構」の調べで分かった。手軽さから政府の調査でもよく使われ
るが、同機構は「結果を公表する時は、偏りがあることに留意する必要がある」と
している。
ネット調査は商品開発のためのマーケティングや社会的な意識調査などに多用され
ている。その結果に偏りが出ないかなどを調べるため、04年に訪問面接型で実施
した「勤労生活に関する調査」について、同時期に4社のネット調査会社にも依頼
した。訪問型とネットで同じ調査をして比較、検証するのは初めてという。
訪問調査は無作為抽出した20歳以上の男女各2千人が対象。ネット調査は各社が
それぞれ登録モニター1650人に実施し、20代から60代まで、年齢性別が偏
らないようにした。
訪問調査の詳細な結果は集計中だが、ほぼ同じ数値が出た01年調査の結果と比較
すると、「もっとも望ましい職業キャリア」を聞く質問では、訪問調査は▽ 「一企
業に長く勤務する」が39.6%▽「複数企業を経験する」が29.4%だった。
しかし、ネット調査では、4社とも「一企業」と「複数企業」が逆転、日本型終身
雇用に否定的な数字が強く出る傾向があった。
「世の中が公平かどうか」の質問に対しては、
「公平でない、あまり公平でない」と
いう回答の割合が、訪問調査より、ネット調査の方が高かった。
ネット調査4社のうち3社の 回答者は公募したモニター で、高学歴で専門技術職
の人が多く、一方で、派遣やパートなどの非正社員が訪問調査よりも多い傾向も分
かった。空き時間を使って謝礼をもらうためにモニター登録をする人も多かった。
同機構の本多則恵情報管理課長は「ネット調査の回答者には、自分の能力はもっと
高いのに、社会が悪いから生かせないと感じている人が多いのでは」と分析する。
日本マーケティング・リサーチ協会の調査方法別の売り上げ構成比をみると、訪問
調査は90年の45%が02年に25%と激減する一方、ネット調査はこの間に0
%から13%に急増している。
5.3.2
無回答:郵送調査の例
郵送調査は回収率が悪いことが多く,督促をおこなわない限り,普通 20 ∼ 30% であ
るといわれている.下の表は,少し古い(昭和 24 年)が法人企業に対する郵送調査に
よる回収率を資本規模別に示したものである.5
4
5
2005/02/06,http://www.asahi.com/tech/asahinews/TKY200502060068.html
石田望 「法人企業調査:標本調査ガイドブック」 東洋経済社
第5章
38
標本調査
回答率は資本の大きなものほど高い.
資本規模(円)
第 1 回締切
第 2 回締切
1 万未満 ∼ 10 万 ∼ 100 万 ∼ 1, 000 万 ∼ 1 億 ∼ 10 億 10 億以上 不明
16
16
18
27
39
41
50
10
49
61
66
74
88
89
100
57
記入式訪問調査の例
家計調査や農家生計費調査は一定期間(前者は 6 ヶ月,後者は最低 1 年)家計簿をつ
けてもらう面倒な調査であるため,調査拒否が多い.拒否された場合,リストの上で次
の世帯を選ぶので,全体としての数を満たし,表面上は調査もれのようなものがないか
の形をしている.下表は,家計調査の拒否率(昭和 32 年 8∼12 月)を示した貴重なデー
タである.記入拒否率は,記入拒否世帯数を調査実施世帯数で割った数値である(拒否
率 100% 以上は誤りでないことに注意).6
世帯人員別では 2 人世帯,8 人以上世帯の両端が高い.2 人世帯はたとえば共稼ぎの
若夫婦のためであり,8 人以上世帯はたとえば複合世帯など家庭内が複雑なため記入が
厄介なためであろう.また,職業別では臨時および日雇労務者が目立つ
世帯人員別
全体
2人
3人
4人
5人
6人
7人
8 人以上
5.3.3
56.4
119.1
55.1
49.5
48.2
38.5
57.8
83.2
世帯主の職業別
全体
常用労務者
臨時および日雇労務者
民間職員
官公職員
商人・職員
経営者
自由業者
その他
無職
世帯主の産業別
56.4
53.7
125.9
60.8
45.4
48.2
93.8
65.8
28.0
77.7
全体
鉱業
建設業
製造業
卸・小売業
金融・保険
不動産
通信・運輸
サービス業
公務
その他
56.4
210.9
100.7
35.4
121.6
32.5
164.2
44.6
67.4
34.9
84.1
視聴率調査の例
ビデオリサーチ社による「世帯視聴率」調査方法の概略を述べる.7
• 調査の対象となるのは,地上波放送,BS 放送,CS 放送,CATV などのテレビ放
送である.
6
7
菊池貞二 「家計調査における調査不能世帯についての分析」 統計局研究彙報第 9 号(1958 年 8 月)
http://www.videor.co.jp/rating/wh/
5.4. 回答数と回収率
39
• 関東・関西・名古屋の 3 地区の調査対象世帯数はそれぞれ 600 世帯.また,鹿児
島等の 24 地区の調査対象世帯数はそれぞれ 200 世帯.
• 鹿児島等の 24 地区ではオンラインメータにより調査する.8 .
1. 家庭内の最大 3 台までのテレビの視聴状況を測定する.チャンネルセンサで
視聴しているチャンネルを測定する.
2. 記録されたデータは,データ通信回線を用いて,毎日早朝に自動ダイヤルに
よりデータセンターに送信される.
3. 世帯視聴率の最小単位は 1 分で,毎分視聴率が集計できる.
• 標本抽出の方法:関東地区の例.
1. 国勢調査の世帯数データをもとに調査エリアの総世帯数を調べる.ここでは,
たとえば 1500 万世帯とする.
2. 系統抽出法を用いる.系統抽出の間隔は 1500 万 ÷ 600 = 25000 となる.
3. 乱数表を用いて 25000 より小さな数を一つ選び,それを 1 番目の調査対象世
帯候補とする.以下,25000 間隔で調査対象世帯候補を決める.
4. これら調査対象世帯候補に,調査協力を依頼する.調査協力が得られない場
合,または調査不能であった場合,同一地点より世帯特性を考慮して,代替
世帯を抽出する.
問 ビデオリサーチ社の視聴率調査において,偏った標本抽出がされている可能性の
有無を具体的に検討せよ.
5.4
回答数と回収率
5.5
例:最近の世論調査より
朝日新聞社,産経新聞社,および共同通信社が最近に行った世論調査(の一部)を比
較検討してみる.9
調査方法はどの社も RDD を用いている.回答状況は,朝日新聞社の場合「世帯用
と判明した (電話)番号は 3198 件,有効回答は 1736 人,回答率は 54%。」であり,
共同通信社の場合「実際に有権者がいる世帯に (電話)がかかったのは 1430 件,う
8
関東・関西・名古屋の 3 地区では PM(ピープルメータ)を用ることにより,世帯視聴率だけでなく
個人視聴率も調査できる
9
朝日新聞社(5 月 19,20 日),産経新聞社と FNN(5 月 19,20 日),共同通信社(5 月 26,27 日)
第5章
40
標本調査
ち 1013 人から回答を得た。
(だから回答率は 71%)」であった.なお,産経新聞社
と FNN の調査対象者数は 1000 名であるが,回答状況は公表されていない.
つぎに,それぞれ世論調査の質問項目のうち,原発再稼働に関する質問と回答状況を比
較する.
• 朝日新聞社の場合.
1. 「原子力発電所の運転再開問題についてうかがいます。定期検査で停止している福
井県の大飯原発の運転再開に賛成ですか。反対ですか。
賛成 29
反対 54
2. 「あなたはいま,原子力発電に対する政府の安全対策を、どの程度信頼していますか」
大いに信頼している
1
ある程度信頼している
20
あまり信頼していない
51
まったく信頼していない 27
3. 「原発の運転再開やこの夏の電力確保について,野田内閣のこれまでの取り組みを
どの程度評価しますか」
大いに評価する
1
ある程度評価する
25
あまり評価しない
49
まったく評価しない 22
4. 「原発の運転を再開しないことで,仮に電力が不足し,日々の生活に不便があった
としても,よいと思いますか.よくないと思いますか.
」
よい
44
よくない 47
5. 「この夏,節電にどの程度取り組むつもりですか.
」
大いに取り組む
23
ある程度取り組む
66
9
あまり取り組まない
まったく取り組まない
1
• 産経新聞社と FNN の場合.
「国内で稼働する原子力発電所がなくなったことなどを受け,
一部の地域でことし (2012 年) の夏に電力不足が懸念されています.次に挙げる考え方に
ついてあてはまると思いますか,思いませんか.それぞれについてお知らせください.
」
1. 「電気の使用が制限された場合、経済面や安全面で悪影響が生じると思いますか」
思う
82.7
思わない
15.5
わからない・どちらともいえない
1.8
2. 「電力が不足するのなら、安全が確認された原発は再稼働させてもよいと思いますか」
思う
51.5
思わない
43.6
わからない・どちらともいえない
4.9
5.5. 例:最近の世論調査より
41
3. 「政府や電力会社が示す電力需給の見通しは、信頼できると思いますか」
思う
18.6
思わない
75.7
わからない・どちらともいえない
5.7
• 共同通信社の場合.
1. 「定期検査などで全国に 50 基ある商業用原発はすべて停止しました.あなたは,こ
の夏の電力不足に不安がありますか,不安はありませんか.
不安がある
21.6
ある程度不安がある 43.4
21.8
あまり不安はない
不安はない
12.9
わからない・無回答
0.3
2. 「原発の発電がなくなって電力供給が減っています。これまでの暮らし,ライフスタ
イルに比べ,不便になることが考えられます.あなたは,これまでの暮らし,ライフ
スタイルに比べ,不便になることを受け入れられますか,受け入れられませんか.
」
受け入れられる
76.9
受け入れられない
20.5
わからない・無回答
2.6
3. 「あなたは定期検査で停止している原発について,政府が『安全性は確認された』と
して再稼働することに賛成ですか,反対ですか.
」
賛成
36.0
56.3
反対
わからない・無回答
7.7
42
第5章
標本調査
調査対象全体(母集団)から偏向なくサンプリングを行わなければ結果は不正確なも
のとなる.また意図的・無意図的にかかわらず,設問文や設問順によって回答が誘導さ
れる(残留効果),恣意的な設問,などによる世論誘導が行われないよう実施しなけれ
ばならない.さらに,
「あいまいな回答」や「無回答・分からない」という回答の扱い方
が難しいため,統計学的に母集団を推定するうえでは問題もある.
回答率は調査の主体によっても左右される.たとえば,朝日新聞の調査には回答を拒
否しても,産経新聞の調査には応じるなどである.特に政治的問題では,調査主体に好
意的な回答者の回答率が高くなり,そうではない回答者の回答率は極端に下がる.たと
えば,死刑廃止を訴えるアムネスティ・インターナショナル日本支部が 1996 年の衆議院
総選挙候補者に行ったアンケートでは,当時与党であった自民党候補者の回答率が極端
に低かった.これは,調査主体に批判される材料として使われることを恐れたり,そも
そも調査主体を嫌っているからと思われる(従って,アムネスティの調査に無回答の候
補者は,死刑賛成の立場である可能性が高い [独自研究?]).おおむね,公的機関や大手
マスメディアの調査に対する回答率は比較的高いが,回答率が低すぎる場合,有効回答
者の回答を,サンプル全体に当てはめることはできない.選挙プランナーと称する三浦
博史は,1 社だけでは不正確なマスコミの調査も,複数の調査を合わせれば,精度の高
い結果になるとしている.10
RDD 方式 [編集]
固定電話を引かず,IP 電話や携帯電話の所有で済ませている人々の回答が反映されな
いという問題がある.固定電話を持たない人々の年齢層などに偏りが存在すれば,サン
プルにも歪みが生じる可能性がある.
さらに固定電話があっても,調査対象者がどんな世帯のどんな人物なのかを特定でき
ない.場合によっては選挙の調査に選挙権がない年齢の人が答えているという可能性も
ある.近年は DTMF を用いた電話調査も進んでいるが,
「プッシュホンではない」「0 発
信電話のため押しボタンが使えない」など電話調査に対応できないこともある.調査に
進んで参加したい人でも参加できないという不都合がでている.
調査員との直接対面で答える場合と比較し,回答者があまり熟慮せず反応的に答える
傾向がある,という点も指摘されている.[誰によって?]
10
三浦『洗脳選挙』光文社ペーパーバックス,2005 年 1 月,ISBN 4-334-93351-3,72 頁参照
43
第6章
6.1
6.1.1
記述統計
ヒストグラム
分類項目が「質」である場合
つぎの度数分布表(表 1-1)は,平成 21 年の労働力調査による,職業別就業者数を示
している.この度数分布表では,分類項目は量ではなく質(quality)である.
表 1-1
職業
人数(万人)
専門
968
管理
168
事務
1295
販売
857
サービス
804
農林漁業
257
運輸・通信
198
生産工程
1678
分類不能
57
表 1-2
職業
相対度数(%)
専門
15.4
管理
2.7
事務
20.6
販売
13.6
サービス
12.8
農林漁業
4.1
運輸・通信
3.2
生産工程
26.7
分類不能
0.9
場合によっては,度数分布表でなく,相対度数分布表(表 1-2)を使う方が便利なこ
ともある.
これらの表をグラフに描いたものをヒストグラム(柱状グラフ)と呼ぶ.
この例では,分類項目は質的なのでヒストグラムは棒グラフで描く とよい.
6.1.2
分類項目が「離散量」である場合
つぎの度数分布表(表 2-1)は,平成 17 年国勢調査による,鹿児島県の世帯人員別
世帯数を示している.この度数分布表では,分類項目は離散量(discrete quantity)で
ある.
第6章
44
表 2-1
世帯人員
人数
1
228,495
2
225,704
3
123,801
4
95,007
5
37,820
6
9,063
7
2,201
8
579
9
133
10 以上
64
世帯人員
1
2
3
4
5
6
7
8
9
10 以上
記述統計
表 2-2
相対度数 累積相対度数
31.6
31.6
31.2
62.8
17.1
80.0
13.2
93.1
5.2
98.3
1.3
99.6
0.3
99.9
0.1
100.0
0.0
100.0
0.0
100.0
場合によっては,度数分布表や相対度数分布表ではなく,累積度数分布表や累積相対
度数分布表(表 2-2)を使う方が便利なこともある.
この例では,分類項目は離散量なのでヒストグラムは棒グラフで描く とよい.
6.1.3
分類項目が「連続量」である場合
つぎの度数分布表は,平成 17 年国勢調査による鹿児島県の「年齢別人口」
(男女の合
計)の一部である.この度数分布表では,分類項目は連続量(continuous quantity)で
ある.
年齢は離散量のように見えるかもしれないが,年齢は産まれてからこれまで生きてき
た「時間」を「切り捨て」た量と考える方が正しい.すなわち年齢は連続量である.
下の度数分布表でおいて,年齢欄に書かれている 0, 1, 2, · · · は,正確には 0 歳以上 1
歳未満,1 歳以上 2 歳未満,2 歳以上 3 歳未満,等を意味している.
表 3-1
年齢
総数
0 14, 750
1 15, 020
2 15, 369
..
..
.
.
20 17, 635
..
..
.
.
60
..
.
16, 936
..
.
男
7, 559
7, 662
7, 884
..
.
女
7, 191
7, 358
7, 495
..
.
8, 369 9, 266
..
..
.
.
8, 265 8, 671
..
..
.
.
6.1. ヒストグラム
45
分類項目が連続量である場合,階級の幅を変えるごとに,異なるヒストグラムが描か
れる.
図 3-1 階級の幅が 1 の場合
図 3-2 階級の幅が 20 の場合
図 3-1 のように,階級の個数が多いと,細部が詳し過ぎて,分布の全体的な傾向を読み
取りにくくなる.逆に図 3-2 のように,階級の個数が少ないと,細部が消え過ぎて,や
はり分布の全体的な傾向が読み取れない.
一般に,階級の個数を 10 ∼ 20 程度にする と,適切なヒストグラムを描くことができ
る(図 3-3).
第6章
46
図 3-3
表 3-2
階級
0∼4
5∼9
10 ∼ 14
15 ∼ 19
20 ∼ 24
25 ∼ 29
30 ∼ 34
35 ∼ 39
40 ∼ 44
45 ∼ 49
50 ∼ 54
55 ∼ 59
60 ∼ 64
65 ∼ 69
70 ∼ 74
75 ∼ 79
80 ∼ 84
85 ∼ 89
90 ∼ 94
95 ∼ 99
100 ∼ 104
105 ∼ 109
110 ∼ 114
6.1.4
記述統計
総数
76, 979
82, 526
92, 780
99, 017
89, 523
96, 483
100, 956
94, 788
103, 007
118, 485
133, 601
128, 556
101, 544
104, 696
109, 830
96, 127
66, 074
36, 423
16, 492
4, 336
529
49
3
男
39, 423
41, 932
47, 490
49, 977
42, 304
46, 009
48, 503
44, 773
49, 517
58, 171
67, 286
64, 322
48, 066
47, 432
47, 999
38, 926
22, 179
10, 467
3, 874
705
60
6
1
女
37, 556
40, 594
45, 290
49, 040
47, 219
50, 474
52, 453
50, 015
53, 490
60, 314
66, 315
64, 234
53, 478
57, 264
61, 831
57, 201
43, 895
25, 956
12, 618
3, 631
469
43
2
表計算ソフトの利用
ヒストグラムを描くためには,統計ソフトウェアを用いる必要がある.表計算ソフト
ウェアは,分類項目が連続量の場合のヒストグラムを描く機能を持っていない.しかし,
手元に表計算ソフトウェアしかないのであれば,
分類項目が質であるかまたは離散量の場合には棒グラフ を,
分類項目が連続量の場合には折れ線グラフを描く とよい.
例 表 3-2 の度数分布表の「総数」のデータから,相対度数を計算し,折れ線グラフを
描いてみよう.
6.1. ヒストグラム
1
2
..
.
47
A
2.5
7.5
..
.
B
C
D E
76, 979 39, 423 37, 556
82, 526 41, 932 40, 594
..
..
.. ..
.
.
. .
3
1
2
F
..
.
23 112.5
24
25
=SUM(B1:B23)
1. A 列に階級の中央値を入れることにする.すなわち 0 ∼ 4 と書く代わりに 2.5 等
と書く.
(a) セル A1 に数値 2.5 を入力.
(b) セル A2 に式 =A1+5 を入力.
(c) セル A2 をセル A3:A23 に[コピー][貼り付け] する.
2. B 列に総人口を,C 列に男性人口を,D 列に女性人口を入力する(この作業が一
番手間がかかる).
3. セル B25 に式 =SUM(B1:B23) を入力して,度数の合計を求める.
4. F 列に相対度数を計算する.
(a) セル F1 に式 =B1/B$25 を入力する.ここで「$」記号は,その直後の行番号
である「25」を固定させる役割をもつ.
(b) セル F1 をセル F2:F23 に[コピー][貼り付け] する.
F 列に計算された相対度数はパーセント表示するとよい.
5. 折れ線グラフを描く.
(a) 折れ線グラフにしたいデータのあるセル F1:F23 をマウスで選択したのち,
メニュー[挿入][折れ線] をクリックする.
(b) 奇妙なグラフが描かれるので,これを修正するために,グラフ上でマウスを
右クリックして,
[データの選択] をクリック.
(c) [横(項目)軸ラベル] のデータの範囲に,セル A1:A23 を指定する.
課題 鹿児島県の年齢別人口の分布が,男女で異なるかどうかを調べたい.
(1) G 列に男性の相対度数を,H 列に女性の相対度数を計算せよ.
(2) これら両方の相対度数の折れ線グラフを同時にグラフに描け.
(3) 二つの折れ線グラフを比較して,男女の年齢分布の類似点・相異点を論ぜよ.
第6章
48
記述統計
代表値
6.2
分布の全体的大きさを,一つの数値で代表させたものを,代表値と言う.つぎの3種
類の代表値が,よく用いられる.
最頻値(モード mode) 度数が最も多い階級値のこと.度数分布表より直ちに求める
ことができる.
平均値(ミーン mean) 小学校以来なじみの,平均値のことである.
中央値(メディアン median) データを昇順に並べた時に,真ん中に位置する値を,
中央値と言う.たとえば,データの個数が 5 個であるときは,それらを昇順に並
べて小さい方から 3 番目の値が中央値である.
6.2.1
中央値の特徴
例 つぎのデータの平均値と中央値を求めよ.
(1) 2, 4, 7, 9, 12, 15, 17 (2) 2, 4, 7, 9, 12, 15, 17, 46, 54 (3) 4, 6, 9, 10, 11, 12
(解)
(1) 平均値は 9.43,中央値は 9 である.
(2) 平均値は 18.4,中央値は 12 である.(2) は (1) に二つの極端にデータを付け加えた
ものだが,平均値はほぼ倍増するのに対して,中央値はさほど変化はしない.
極端に大きなデータまたは極端に小さなデータのことを外れ値と呼ぶ.この例のよう
に,中央値は外れ値の影響を受けにくい 特徴をもつ.
(3) 中央値は 9 と 10 の間にある.そこで普通は (9 + 10)/2 = 9.5 とする.
問 1 27 匹の豚について乳離れしてからベーコンにすることができるまで太らせるの
に,どれだけの日数がかかるかを調べ,25 匹についてつぎの結果を得た.
121
119
116
106
142
147
105
123
117
120
118
111
106
114
109
111
114
121
137
116
115
109
113
126
115
(1) 中央値を求めよ.
(2) 残りの 2 匹は 150 日までに一定の基準に達しなかった.この情報を加えて,中央値
を求めよ.
問2
23 本のムギの穂の麦粒の個数を調べて,つぎの結果を得た.中央値を求めよ.
6.3. 散布度
49
21 23 26 23 24
23 22 22 26 21
24 23 21 23 24
20 25 24 25 22
ほかに 20 粒未満 2 本、
30 粒以上 1 本 6.2.2
中央値の求め方
例 表 1 は平成 17 年国勢調査による鹿児島県の世帯人員別世帯数である.中央値を求
めよ.
表
世帯人員
1
2
3
4
5
6
7
8
9
10 以上
1
世帯数
228,495
225,704
123,801
95,007
37,820
9,063
2,201
579
133
64
世帯人員
1
2
3
4
5
6
7
8
9
10 以上
表2
相対度数
31.6
31.2
17.1
13.2
5.2
1.3
0.3
0.1
0.0
0.0
累積相対度数
31.6
62.8
80.0
93.1
98.3
99.6
99.9
100.0
100.0
100.0
(解) データ数が多い場合,中央値より小さいデータは全体の約 50% あり,また中央
値より大きいデータも全体の約 50% ある.
そこで中央値を求めるためには,累積相対度数を用いると便利である(表 2).すると
中央値は
50 − 31.6
1.5 +
= 約 2.1
31.2
であることがわかる.
6.3
散布度
たとえ代表値が同じであっても,度数分布は一致しない.とくに,分布の散らばり具
合は異なるのがふつうである.分布の散らばり具合を一つの数値で表したものを散布度
と言う.つぎの 2 種類の散布度がよく用いられる.
標準偏差(standard deviation) データが 平均値の回りにどれくらい散らばっているか
を表す量.
第6章
50
記述統計
四分位範囲(inter-quartile range) データが 中央値の回りにどれくらい散らばっているか
を表す量.
中央値が外れ値の影響を受けにくい のと同様に,
四分位範囲も外れ値の影響を受けにくい 特徴をもつ.
6.3.1
四分位範囲の求め方
四分位範囲を求めるためには,まず第 1 四分位数 Q1 と第 3 四分位数 Q3 を求めてお
く必要がある.
• 第 1 四分位数 Q1 とは,データを小さい方から順番に並べたとき,Q1 より小さい
データの個数が全体の 14 = 25% あるような値である.
• 第 3 四分位数 Q3 とは,データを小さい方から順番に並べたとき,Q3 より小さい
データの個数が全体の 34 = 75% あるような値である.
• 四分位範囲とは第 3 四分位数 Q3 と第 1 四分位数 Q1 の差 のことである.
• 中央値とは,データを小さい方から順番に並べたとき,中央値より小さいデータ
の個数が全体の 24 = 50% あるような値のことでああった.だから,中央値とは
「第 2 四分位数」と同じ意味である.
例 表 1 は平成 21 年全国消費実態調査による「二人以上の世帯」の「年間収入」(万
円)の分布である.世帯数の相対度数(%)と累積相対度数(%)が示されている.中
央値と四分位範囲を求めよ.
表1
階級
200 未満
200 ∼ 300
300 ∼ 400
400 ∼ 500
500 ∼ 600
600 ∼ 800
800 ∼ 1000
1000 ∼ 1250
1250 ∼ 1500
1500 以上
相対度数
4.401
8.389
15.070
14.478
12.404
19.246
11.756
7.389
3.452
3.415
累積相対度数
4.401
12.790
27.860
42.338
54.742
73.988
85.744
93.133
96.585
100
階級
150 未満
150 ∼ 300
300 ∼ 450
450 ∼ 600
600 ∼ 750
750 ∼ 900
900 ∼ 1200
1200 ∼ 1500
1500 ∼ 2000
2000 ∼ 3000
3000 ∼ 4000
4000 以上
表2
相対度数
11.271
9.184
8.964
7.717
7.190
5.554
9.500
6.975
8.642
10.205
5.875
8.923
累積相対度数
11.271
20.455
29.419
37.136
44.326
49.880
59.380
66.355
74.997
85.202
91.077
100
6.3. 散布度
51
(解)
50 − 42.338
× 100 = 約 561.8
12.404
25 − 12.790
= 300 +
× 100 = 約 381.0
15.070
75 − 73.988
= 800 +
× 200 = 約 817.2
11.756
= 817.2 − 381.0 = 436.2
中央値 = 500 +
Q1
Q3
Q3 − Q1
ちなみに,平均値は約 638.2 である.
問 3 表 2 は平成 21 年全国消費実態調査による「二人以上の世帯」の「貯蓄現在高」
(万円)の分布である.世帯数の相対度数と累積相対度数が示されている.中央値と四
分位範囲を求めよ.
(ちなみに,平均値は約 1368.9 である.
)
問 4 つぎの表は,平成 17 年国勢調査による鹿児島県の年齢別人口である.男性と女
性のそれぞれの場合に,中央値と四分位範囲を求めよ.
(なお,表中で「相対」と「累積」
の見出しは,それぞれ「相対度数(%)」と「累積相対度数(%)」のことである.
)
階級
0∼4
5∼9
10 ∼ 14
15 ∼ 19
20 ∼ 24
25 ∼ 29
30 ∼ 34
35 ∼ 39
40 ∼ 44
45 ∼ 49
50 ∼ 54
55 ∼ 59
60 ∼ 64
65 ∼ 69
70 ∼ 74
75 ∼ 79
80 ∼ 84
85 ∼ 89
90 ∼ 94
95 ∼ 99
100 ∼ 104
105 ∼ 109
110 ∼ 114
度数(男)
39, 423
41, 932
47, 490
49, 977
42, 304
46, 009
48, 503
44, 773
49, 517
58, 171
67, 286
64, 322
48, 066
47, 432
47, 999
38, 926
22, 179
10, 467
3, 874
705
60
6
1
度数(女) 相対(男)
37, 556
4.81
40, 594
5.12
45, 290
5.80
49, 040
6.10
47, 219
5.16
50, 474
5.61
52, 453
5.92
50, 015
5.46
53, 490
6.04
60, 314
7.10
66, 315
8.21
64, 234
7.85
53, 478
5.87
57, 264
5.79
61, 831
5.86
57, 201
4.75
43, 895
2.71
25, 956
1.28
12, 618
0.47
3, 631
0.09
469
0.01
43
0.00
2
0.00
相対(女)
4.02
4.35
4.85
5.25
5.06
5.41
5.62
5.36
5.73
6.46
7.10
6.88
5.73
6.14
6.62
6.13
4.70
2.78
1.35
0.39
0.05
0.00
0.00
累積(男)
4.81
9.93
15.72
21.82
26.99
32.60
38.52
43.98
50.03
57.13
65.34
73.19
79.05
84.84
90.70
95.45
98.16
99.43
99.91
99.99
100.00
100.00
100.00
累積(女)
4.02
8.37
13.23
18.48
23.54
28.95
34.57
39.92
45.65
52.12
59.22
66.10
71.83
77.97
84.59
90.72
95.42
98.20
99.56
99.94
100.00
100.00
100.00
第6章
52
6.3.2
記述統計
標準偏差
3 個のデータ x1 , x2 , x3 があるとする.このとき,個々のデータの平均値 x = (x1 +
x2 + x3 )/3 からの差 x1 − x, x2 − x, x3 − x は,
「個々のデータのバラツキ」を示している,
と考えてよい.だから,これらの差の合計を考えれば,
「データ全体のバラツキ」を示す
量が得られるであろう.
しかし,単純に合計すると,正の差と負の差が打ち消しあって,
(x1 − x) + (x2 − x) + (x3 − x) = 0
となり,無意味である.そこで負の差が出ないように,たとえば2乗してから,合計す
ることにする:
(x1 − x)2 + (x2 − x)2 + (x3 − x)2
このような素朴な発想により,標準偏差の考えが生まれる.
一般に n 個のデータ x1 , x2 , x3 , · · · , xn が与えられたとき,個々のデータと平均値と
の差の2乗の合計を考える.この合計が n 項の和になることに注意して,さらに n で
割った量を考え,それを s2 で表すことにする:
s2 =
]
1[
(x1 − x)2 + (x2 − x)2 + (x3 − x)2 + · · · + (xn − x)2
n
そして,s2 の平方根 s を 標準偏差 (standard deviation)と呼ぶ.
s2 でなく,その平方根 s を考える理由は容易に理解できる.たとえば,もしデータ
が身長を表しているならば,その単位は cm であるから,s2 の単位は cm2 となる.す
なわち,元のデータは「長さ」という量であるのに,s2 は面積という異なる種類の量に
なってしまう.そこで,元の種類の量に戻すために,平方根をとるのである.
例 1 2つのクラス(A と B)で数学の試験を行った結果,成績がつぎのようになった
とする(計算を簡単にするために,それぞれのクラスの人数は 5 名ずつとしている).
A
B
50
20
55
40
60
60
65
80
70
100
このとき,2つのクラスの平均点はともに 60 となり一致している.しかし,見た目に
も明らかに B の方が A よりも点数のバラツキは大きい.そこで標準偏差を計算してみ
る.A クラスに対しては,
]
1[
(50 − 60)2 + (55 − 60)2 + (60 − 60)2 + (65 − 60)2 + (70 − 60)2
5
= 50
s2A =
6.3. 散布度
53
√
であるから,sA = 5 2.一方,B クラスに対しては,
]
1[
s2B =
(20 − 60)2 + (40 − 60)2 + (60 − 60)2 + (80 − 60)2 + (100 − 60)2
5
= 800
√
であるから,sB = 20 2 となる.したがって,B クラスの標準偏差は A クラスの標準
偏差の 4 倍の大きさとなり,バラツキが大きいという直観と合致している.
例 2 2種類の宝くじ(A と B)があり,ともに 1 本の価格は 100 円で,また 100 本
ずつ販売されているとする.そして,それぞれの宝くじの還付金とその本数は,つぎの
ようであるとする.
くじ A
還付金 本数
5000
1
0
99
くじ B
還付金 本数
200
5
150
20
50
20
0
55
このとき,くじ A の還付金の平均値,くじ B の還付金の平均値はともに 50 となり一
致している.一方,標準偏差は
]
1 [
s2A =
(5000 − 50)2 × 1 + (0 − 50)2 × 99 = 1502 × 11
100
および
]
1 [
s2B =
(200 − 50)2 × 5 + (150 − 50)2 × 20 + (50 − 50)2 × 20 + (0 − 50)2 × 55
100
= 302 × 5
√
√
であるから,sA = 150 11, sB = 30 5.となり,くじ A の標準偏差は,くじ B の標準
偏差の約 7.4 倍の大きさである.くじ A のバラツキは,くじ B のバラツキより,著し
く大きく,当たると大儲けができることが,数字の上からもわかる.
6.3.3
表計算ソフトの利用
標準偏差を実際に計算するためには,表計算ソフトを利用するとよい.たとえば,下
の問題 1 の 6 年生のデータに対して,標準偏差 s を計算してみよう.この場合


7
3

1 

2
2 + ···
2
2 
s2 =
(10
−
(17
−
x)
+
·
·
·
(10
−
x)
x)
+
·
·
·
(17
−
x)


100
= (10 − x)2 ×
7
3
+ · · · (17 − x)2 ×
100
100
第6章
54
記述統計
である(ただし,x は平均を表している).このような計算を,表計算ソフトで行うに
は,つぎのようにすればよいだろう.
1. データを入力したあと,はじめに相対度数を計算する.そのためにはつぎのよう
にする.
(a) セル B10 に式 B2 / $S2 を入力し,それをセル範囲 B10 : R15 の範囲にコ
ピーする.
2. つぎに平均を計算する.そのためにはつぎのようにする.
(a) セル B18 に式 B$1 * B10 を入力し,それをセル範囲 B18 : R23 の範囲にコ
ピーする.
(b) セル S18 に式 SUM(B18:R18) を入力して,それをセル範囲 S18 : S23 の範
囲にコピーする.
3. さいごに標準偏差を計算する.そのためにはつぎのようにする.
(a) セル B26 に式 (B$1 - $S18)^2 * B10 を入力し,それをセル範囲 B26 : R31
の範囲にコピーする.
(b) セル S26 に式 SUM(B26:R26) を入力して,それをセル範囲 S26 : S31 の範
囲にコピーする.
(c) セル T26 に式 SQRT(S26) を入力して,それをセル範囲 T26 : T31 の範囲に
コピーする.
6.3. 散布度
55
問題 1 つぎの表は,ある小学校で,知っている色の名前の個数を調査した結果を示し
ている.表において,度数は小学生の人数であり,また空欄は人数がゼロであることを
示している.各学年に対して,知っている色の名前の個数の平均値と標準偏差を求め,
学年を経たときに知っている色の名前の個数がどのように変化するかについて論ぜよ.
学年
2
1
2
3
4
5
6
3 4 5 6
13 7 13 6
7
40
3
3
3
2
1
8 9
10 11
7 3
個数
10 11
3 13
7
3
7 7
7 3
12 13 14 15 16 17 18
18
10
15
13
19
7
23
27
13
23
20
23
24
16
29
13 10
23 11
25
13 18 10
13 3 3
3
3
問題 2 国勢調査の結果「世帯人員(10 区分)別一般世帯数(全国,昭和 35 年,45 年
∼平成 17 年)」”se02.xls” のデータより,各調査年度の世帯人員数の平均値と標準偏差
を求め,世帯人員数の変化について論ぜよ.
6.3.4
算術平均と標準偏差
算術平均と標準偏差の間には密接な関係があることを説明しよう.
第6章
56
記述統計
n 個のデータ x1 , x2 , · · · , xn が与えられたとし,それらの適当な代表値(たとえば平
均値)を x で表そう.前節で説明したように,データと代表値の差をそのまま合計する
と,正負が打ち消しあう可能性があるので,これらの差からどんな場合でも正になる量
を作って,それらの和を考えることにする.
このとき,たとえば偏差の絶対値の和,二乗の和,四乗の和
n
∑
k=1
|xk − x|,
n
∑
n
∑
(xk − x) ,
(xk − x)4
2
k=1
k=1
等,多くの種類のものを考えることができるだろう.これらのどれもが,データのバラ
ツキの度合いを表す候補者の資格がある.しかし,じつはこれら候補者の中で,特別に
重要なものがある.それは偏差の二乗の和である.この理由を説明しよう.
データのバラツキを表す関数
f (x) =
n
∑
(xk − x)2
k=1
を考える.ここで x は代表値を表している.直感的に言って, 代表値は,データの大
きさの全体的な傾向を表す量だから,データの中央付近に位置すると考えられので,こ
のバラツキを表す関数を小さくする傾向があるであろう.そこで,考えを単純化して,
代表値は関数 f (x) を最小にする,と考えることにする.
式を簡潔に表すために,つぎのように書くことにする:
n
1 ∑
x=
xk ,
n k=1
すると
x2
n
1 ∑ 2
=
x .
n k=1 k
[
]
f (x) = nx 2 − 2nxx + nx2 = n (x − x)2 + x2 − x2
であるから,関数 f (x) は x = x のときに最小となる.こうして,つぎの重要な事実が
わかった.
偏差の二乗の和を最小にする代表値は,算術平均である.
ガウスは,この『逆』も成立する,ことを発見した.二乗だけでなく,一般の関数 g
を用意して,つぎの和を考える(ただし g は非負の偶関数であるとする)
:
f (x) =
n
∑
g(x − xk )
k=1
和 f (x) を最小にする代表値が算術平均であるためには,関数 g は『二乗』
でなければならない.
6.3. 散布度
57
ガウスにとって,この事実を証明することは,非常に容易であっただろう.しかし,証
明が容易である事は,証明された事実が「取るに足らない」ことを決して意味しない.
ガウスは,この重要な発見をきっかけにして,統計学という前人未踏の知の領域に,さ
らに分け入ることになる.
問題
データのバラツキを表す関数として,偏差の絶対値の和
f (x) =
n
∑
|xk − x|
k=1
を考えるとき,この関数を最小にする代表値 x は何であるか?
59
第7章
分散と標準偏差
小学校算数を振り返ると,k 個の数 x1 , x2 , · · · , xk に対して,
x1 + x2 + · · · + xk
k
が,
「平均」と呼ばれる量であった.伝統的には「算術平均」と呼ばれていたものだが,
ここでは「単純平均」と呼ぶことにしよう.
たとえば,高校の入試では国語・社会・数学・理科・英語の配点が同じであることが
多い.この場合,この 5 教科の合計点で合否の判定することは,5 教科の単純平均で合
否の判定をすることと同じである.一方,ある高校の入試では,3 教科(国語・数学・英
語)の配点が,他の 2 教科の配点の 2 倍であるとしよう.この高校では,合否の判定を
2
1
2
1
2
· 国語 + · 社会 + · 数学 + · 理科 + · 英語
7
7
7
7
7
2 1 2 1 2
という平均で判定することになる.このような平均を,
「重み」が , , , , の「重み
5 5 5 5 5
つき平均」という.
一般に,k 個の数 x1 , x2 , · · · , xk に対して,重み w1 , w2 , · · · , wk の重み付き平均は,
w1 x 1 + w2 x 2 + · · · wk x k
により定義される.
「単純平均」は,重みがすべて
る.
1
に等しい重みつき平均のことであ
k
確率変数に戻ると,期待値とは重みが確率 p1 , p2 , · · · , pk である重みつき平均のことで
ある.
7.1
2項分布の期待値と分散
確率変数 X は2項分布 B(n, p) にしたがっているとする.はじめに,その期待値
E(X) =
n
∑
k=0
k · n Ck pk q n−k
第7章
60
を求めてみよう.容易にわかるように,k
分散と標準偏差
1 のとき,
k · n Ck = n · n−1 Ck−1
(7.1)
である.そこで
n
∑
E(X) =
k · n Ck pk q n−k =
k=1
= np ·
n
∑
n · n−1 Ck−1 pk q n−k
k=1
n
∑
n−1 Ck−1 p
k−1 n−k
q
k=1
ここで,j = k − 1 と置くと,
E(X) = np ·
n−1
∑
n−1 Cj p
j n−1−j
q
j=0
ところが
n−1
∑
n−1 Cj p
j n−1−j
q
j=0
は2項分布 B(n − 1, p) の確率の和であるから 1 に等しい.したがって E(X) = np が
示された.
次に m = E(X) と書くと
V (X) = E(X 2 ) − m2 = E(X(X − 1) + X) − m2 = E(X(X − 1)) + m − m2
がわかる.だから V (X) を求めるためには,E(X(X − 1)) を計算すればよい.ところ
が (??) と同様にして,k 2 のとき,
k(k − 1) · n Ck = n(n − 1) · n−2 Ck−2
(7.2)
がわかる.そこで
E(X(X − 1)) =
n
∑
k(k − 1) · n Ck pk q n−k =
k=2
n
∑
n(n − 1) · n−2 Ck−2 pk q n−k
k=2
= n(n − 1)p2 ·
n
∑
n−2 Ck−2 p
k−2 n−k
q
k=2
こんどは,j = k − 2 と置くと,
E(X(X − 1)) = n(n − 1)p ·
2
n−2
∑
n−2 Cj p
j n−2−j
q
j=0
= n(n − 1)p2 · 1 = n(n − 1)p2
7.1. 2項分布の期待値と分散
61
したがって
V (X) = n(n − 1)p2 + m − m2 = npq
となる.
以上まとめて,
2項分布 B(n, p) に対して
平均 = np,
分散 = npq
問題 確率変数 X が超幾何分布 HG(n, r, w) にしたがっているとき,その期待値と分
散を求めよ.
63
第8章
2項分布
表が出る確率が p である硬貨(すなわち裏が出る確率が q = 1 − p である硬貨)を n
回投げる.このとき,表が出た回数を X とする.X の確率分布を求めよう.
n 回投げたとき,表が k 回,裏が n − k 回出るパターンは n Ck 通りあり,またパター
ンの一つ一つが生じる確率はどれも pk q n−k である.したがって
P (X = k) = n Ck pk q n−k
この確率分布は2項分布 binomial distribution と呼ばれている.以下では,上記の2
項分布のことを B(n, p) と略記する.
なお,2項分布の名称は,有名な2項展開 binomial expansion の公式
n
(a + b) =
n
∑
n Ck
ak bn−k
k=0
に由来する.
問1 1 個のさいころいを 5 回投げるとき,次の確率を求めよ.
(1) 1 の目がちょうど 3 回出る確率
(2) 同じ目がちょうど 3 回出る確率
問2 正しい硬貨を,甲は 4 回,乙は 5 回投げるとき,次の確率を求めよ.
(1) 甲が 3 回表を出し,乙が 2 回表を出す確率
(2) 甲乙二人が表を出す回数の和が 5 である確率
8.0.1
分配の問題
甲と乙がゲームを続け,甲はあと a 回勝てば最終的な勝者となり,
乙は b 回勝てば最終的な勝者となる時点で,ゲームを中止した.
1 回のゲームで甲が勝つ確率は p,乙が勝つ確率は q = 1 − p であるとする.
賭金を公平に分配するにはどうしたらよいか?
第8章
64
2項分布
ゲームは中止されなかったと仮定して,その場合に甲が最終的な勝者となる確率を P ,
乙が最終的な勝者となる確率を Q とする.このとき,甲と乙に公平に賭金を分配する
には,比 P : Q にしたがって分配すればよい.したがって,確率 P, Q を求めることが
問題となる.
(Fermat による解)最終的な勝者を決めるには,ゲームを中止せずに,さらに n = a+b−1
回のゲームを行えばよい.甲が最終的な勝者となるのは,甲が n 回のゲームのうち a
回以上勝つ場合であり,逆に乙が最終的な勝者となるのは,甲が n 回のゲームのうち
a − 1 回以下のゲームに勝つ場合である.
したがって
n
a−1
∑
∑
k n−k
k n−k
P =
. Q=
n Ck p q
n Ck p q
k=a
k=0
となる.
(Monmort による解) 最終的な勝者を決めるために,ゲームを続行したとする.甲が
最終的な勝者となるのは,甲がゲームに「ちょうど」a 回勝つ前に,乙が k 回勝ったと
して,k < b である場合である.すなわち,a − 1 + k 回のゲームのうち,甲が a − 1 回
勝ち,さらに最後のゲームで甲が勝つ場合となる.この確率は
a−1+k Ca−1
pa−1 q k × p = a−1+k Ca−1 pa q k
である.
問題1 甲と乙が正しい硬貨をそれぞれ n 回投げるとき,表が同じ回数出る確率を求
めよ.
(ヒント: 甲と乙は硬貨を合わせて 2n 回投げる.乙が表を出したとき,
「裏を出し
た」と見なすことにするとき,甲と乙は合わせて何回表を出すことになるかを考えよ.
)
8.0.2
2項分布の確率の数値計算
表計算ソフト Excel を用いて,2項分布の確率を具体的に計算する方法を説明しよう.
計算したい確率を
bk = n Ck pk q n−k
と書くことにする.以下では,n = 20, p = 0.1 の場合に説明する.
方法1 最初の方法は,Excel の関数 COMBIN(n,k) を用いて,確率 bk (k = 0, 1, 2, · · · , 20)
を直接に計算する.この関数は組合せの数 (combinatorial number) n Ck を計算するもの
である.
65
1. A 列に k = 0, 1, 2, ... , 20 を入力する.
2. B 列に確率 bk を計算する.
そのためには,セル B1 に式 =COMBIN(20,A1)*0.1^A1*0.9^(20-A1) を入力し,
それをセル B2:B21 にコピーするとよい.
方法2
直接計算より良い方法は,漸化式を用いることである.容易に
n Ck
n Ck−1
=
n!
(k − 1)!(n − k + 1)!
n−k+1
·
=
k!(n − k)!
n!
k
がわかるから,漸化式
bk = bk−1 ×
(n − k + 1)p
kq
(8.1)
が導かれる.
1. A 列に k = 0, 1, 2, ... , 20 を入力する.
2. セル B1 で確率 b0 を計算する.
そのためには,式 =0.9^(20) を入力するとよい.
3. セル B2:B21 で上の漸化式を計算する.
そのためには,セル B2 に式 =B1*(21-A2)/A2/9 を入力して,コピーすればよい.
問
(1) 上記の計算を検算するために,確率の総和が 1 になることを確かめよ.
(2) 棒グラフを描き,その形状が釣鐘型であることを確認せよ.
67
第9章
超幾何分布
壷の中に赤玉が r 個,白玉が w 個入っている.壷から n 個の玉を,取り出した玉を
元に戻さずに,取り続ける (または,n 個の玉を同時に取り出す).すなわち,非復元抽
出を行う.このとき取り出された赤玉の個数を X とする.
X = k となる状況を考えてみよう.壷の中の玉の総数は r + w 個で,ここから n 個
を取り出す場合の数は r+w Cn である.また,r 個の赤玉から k 個を取り出す場合の数
は r Ck であり,w 個の白玉から n − k 個を取り出す場合の数は w Cn−k である.
したがって
P (X = k) =
r Ck
· w Cn−k
r+w Cn
なお,この式で k の取り得る範囲は,n 以下かつ r 以下であることに注意する.
この確率分布は超幾何分布 hyper-geometric distribution と呼ばれている.1 以下では,
上記の超幾何分布のことを HG(n, r, w) と略記する.
壷の問題で復元抽出をする場合,すなわち壷から n 個の玉を,取り出した玉を元に戻
しながら,取り続ける場合を考えると,X の確率分布は2項分布 B(n, p) になる.ただ
r
しp=
である.
r+w
問1 白玉 7 個と赤玉 3 個の入っている袋から,玉を取り出すとき,次の確率を求め
よ.
(1) 1 個取り出して元に戻すことを 5 回行ったとき,3 回白が出る確率
(2) 順に 1 個ずつ,元に戻さないで 5 個取り出したとき,3 個が白で,2 個が赤である
確率
(3) 同時に 5 個を取り出したとき,3 個が白で,2 個が赤である確率
問2 男子 25 人,女子 15 人のクラスから,くじ引きで 3 人の委員を選ぶとき,選ば
れる男子の人数を X とする.確率変数 X の確率分布を求めよ.
1
この名称は,有名なガウスの超幾何関数に由来する
69
第 10 章 母関数
10.1
母関数
10.2
壷の問題
壷の中に r 個の赤玉と w 個の白玉が入っている.壷から一つの玉を無作為に取り出
し続ける.ただし,取り出した玉は壷に戻さないものとする.Xw 回目に初めて赤玉を
取り出すとするとき,母関数 fw (t) = E(tXw ) を求める.
1 回目に赤玉を取り出す事象を A とすると,
{
1
事象 A が起きた場合
Xw =
1 + Xw−1 事象 A が起きなかった場合
したがって
r
w
t+
tfw−1 (t)
w+r
w+r
また,X0 = 1 であるから f0 (t) = t である.
漸化式 (10.1) より,
fw (t) =
(10.1)
1
[rt + t2 ],
1+r
1
f2 (t) =
[r(1 + r)t + 2rt2 + 2t3 ],
(1 + r)(2 + r)
1
f3 (t) =
[r(1 + r)(2 + r)t + 3r(1 + r)t2 + 6rt3 + 6t4 ]
(1 + r)(2 + r)(3 + r)
f1 (t) =
等が得られる.しかし,一般の fw (t) を閉じた式で表すことは難しいと思われる.とも
あれ,fw (t) は t の w + 1 次多項式である.
10.2.1
階乗モーメント
k 次階乗モーメント
µ(k)
w = E(Xw (Xw − 1)(Xw − 2) · · · (Xw − k + 1))
第 10 章 母関数
70
に関する漸化式を導く.
k = 1 の場合.漸化式 (10.1) を微分して,
fw′ (t) =
w
r
′
+
(fw−1 (t) + fw−1
(t))
w+r w+r
そして t = 1 と置くことにより,
µ(1)
w = 1+
w
(1)
µw−1
w+r
この解は容易に求めることができ(「条件付き期待値」の章を参照),
µ(1)
w =
w
+1
1+r
であることがわかる(これは w の1次関数である).
k 2 の場合.漸化式 (10.1) を微分して,
]
w [ (k)
(k−1)
tfw−1 (t) +k C1 fw−1 (t)
fw(k) (t) =
w+r
であるから,
µ(k)
w =
)
w ( (k)
(k−1)
µw−1 + kµw−1
w+r
(10.2)
漸化式 (10.2) の解は,幸いなことに帰納的に発見することができる.その過程を記
すと長くなるので,ここでは結果だけを記そう.結果を述べるために,次の記号を用い
ると便利である.1
任意の実数 x に対して,
[x]n = x(x − 1)(x − 2) · · · (x − n + 1),
[x]n = x(x + 1)(x + 2) · · · (x + n − 1)
と書くとき,
µ(k)
w =
k!
(w + 1 + r)[w]k−1
[1 + r]k
証明は数学的帰納法を用いればよい.
(k)
(w + r)µ(k)
w − wµw−1
k!
=
{(w + r) · (w + 1 + r)[w]k−1 − w · (w + r)[w − 1]k−1 }
[1 + r]k
1
ベルジュ『組合せ論の基礎』より借用する記号
10.2. 壷の問題
=
=
=
=
=
=
71
k!
(w + r) {(w + 1)[w]k−1 + r[w]k−1 − w[w − 1]k−1 }
[1 + r]k
k!
(w + r) {[w + 1]k − [w]k + r[w]k−1 }
[1 + r]k
k!
(w + r) {k[w]k−1 + r[w]k−1 }
[1 + r]k
k!
(w + r)(k + r)[w]k−1
[1 + r]k
(k − 1)!
k·
(w + r)[w]k−1
[1 + r]k−1
(k − 1)!
kw ·
(w + r)[w − 1]k−2
[1 + r]k−1
(k−1)
= kwµw−1
階乗モーメントの表現を用いれば,特につぎを得る.
V ar(Xw ) =
r
w(w + 1 + r)
(1 + r)2 (2 + r)
73
第 11 章 モンテカルロシミュレーション
11.1
硬貨投げのシミュレーション
例1 正しいさいころを n = 20 回投げる試行をシミュレーションする.そのためには
つぎのようにするとよい.
1. セル A1 に式 =INT(6*RAND())+1 を入力
2. それをセル範囲 A2:A20 にコピー
ここで
• 関数 RAND() は,0 以上 1 未満の一様乱数を発生する.一様乱数とは,(0 以上 1
未満の) どの小数が発生するしやすさも,同様に確からしい ことを意味している.
すなわち,たとえば 0 に近い小数が発生しやすいとか,0.5 に近い小数が発生し
やすい,というような事はない.
• 式 6*RAND() により,0 以上 6 未満の乱数が作られる.
• 関数 INT(x) は,数 x の小数部分を「切り捨てる」.たとえば,INT(3.14) = 3
となる.
• したがって,式 =INT(6*RAND()) により,0 以上 6 未満の乱数の小数部分が切り
捨てれた結果,整数 0, 1, 2, 3, 4, 5 が作られる.しかも,元々の一様乱数から作っ
ているから,どの整数も同じ確率で作られる.
例2 表が出る確率が p = 23 の硬貨を n = 20 回投げる試行をシミュレーションする.
表が出ることは数字 1 が現れること,裏が出ることは数字 0 が現れることと見なすな
らば,確率 23 で数字 1 が現れ,確率 13 で数字 0 が現れる乱数を発生させることになる.
そのためにはつぎのようにするとよい.
1. セル A1 に式 =IF(RAND() < 1/3,0,1) を入力
2. それをセル範囲 A2:A20 にコピー
問1
35 校の小学校から 7 校を無作為に選ぶにはどうしたらよいか.
問2 10 人のお客様に,ランダムな順番でテーブルスピーチをしていただきたい.どの
ようにして順序を決めたらよいか.
第 11 章 モンテカルロシミュレーション
74
11.2
壷の問題のシミュレーション
問題 壷の中に赤玉 3 個,白玉 7 個が入っている.壷から玉をひとつずつ取り出す試
行 (非復元抽出) のシミュレーションを行え.
11.3
標本抽出の方法
集団全体を調査する全数調査に対して,一部分のみを調査する方法を標本調査という.
調査の対象とされる集団全体のことを母集団 population と呼ぶ.
たとえば総務省統計局が作成している『家計調査』の母集団は,農林漁業世帯と単
身者世帯を除いた全国の消費者世帯であり,また財務省が作成している『法人企業
統計』の母集団は,金融・保険を除く全営利法人である.
標本調査では,母集団から適当な標本(sample)を抽出し,取り出された標本からの
知識にもとづいて,母集団に関する推論が行われる.標本の抽出は,ふつう無作為抽出
(random sampling)により行われる.
11.3.1
単純無作為抽出法
これは,母集団に属する すべての対象を等確率で選ぶ 方法である.たとえば,ある
市が世論調査を行う場合,母集団(市民全体)から「くじ引き」で標本を選び出す.し
かし実際に「くじ引き」を行うのは不可能であるから,サンプリング台帳から,乱数を
用いて机上で「くじ引き」を行うことになる.ここで,サンプリング台帳とは,母集団
に属する対象を洩れなく書き上げたリストのことであるが,住民票(住民基本台帳)を
用いるのがふつうである.
11.3.2
多段抽出法
大規模調査において単純無作為抽出法を適用すると,選ばれた標本が地理的に散在し,
調査費用と労力が大きくなりすぎて,現実には調査が不可能になる.そこでこのような
欠点を除くために,標本が散在しないようにまとめる工夫をする.
たとえば,全国の世帯を母集団とする場合,
• はじめに,全国の市町村のリストを用いて,そこからいくつかの市町村を抽出す
る.つぎに,選ばれた市町村における世帯のリストを用いて,そこから世帯を抽
出する.これを2段抽出法と言う.
11.4. 一般の確率分布のシミュレーション
75
• 場合によっては,選ばれた市町村の中をいくつかのブロック(区画)に分けて,そ
こからいくつかのブロックを抽出する.そして,選ばれたブロックにおける世帯
のリストを用いて,そこから世帯を抽出する.これを3段抽出法と言う.
『家計調査』では,母集団は全国の消費者世帯(ただし農林漁業世帯および単身者
世帯は除く)であり,3段抽出法を行っている.
注意すべき事は,たとえば全国の市町村のリストから市町村を抽出する際,それぞれ
の市町村を等確率で選ばずに,それぞれの市町村の世帯数に比例する確率で抽出しなけ
ればいけない.この方法を確率比例抽出法と言う.
11.3.3
層別抽出法
たとえば調査結果が,性別・年齢階級別・職業別等の様々な層別で異なることが,前
もって予想できるとする.このようなときに単純無作為抽出法を適用すると,たとえば
ある層の標本が偶々全く選ばれない,ということが起こりえる.そこで,そうならない
ように,それぞれの層から,必ずある数の標本が選ばれるように配慮する必要がある.
これを層別抽出法と言う.
たとえば,平成 20 年の『家計調査』では,母集団は,平成 17 年『国勢調査』に基
づき,二人以上の世帯が約 3461 万世帯,単身世帯が約 1350 万世帯である.層別の
方法は,たとえば中都市および小都市 A では,家計指標と相関が高いとみられる社
会・経済指標 (人口集中地区人口比率,人口増減率,第一次および第二次産業就業
者数の割合,世帯主の年齢) を組み合わせて,各層の調査対象世帯数が,できるだ
け等しくなるようしている.層別の配分は,各県庁所在地およびいくつかの大都市
で 51 層,中都市および小都市 A で 75 層,小都市 B で 42 層,のようにして計 168
に層別を行っている.調査世帯数は全部で「わずか」8076 世帯にすぎない.
『法人企業統計』では,母集団は全国の法人企業(ただし金融・保険業は除く)で
あり,それを資本金規模別に 4 層に層別している.平成 3 年の『法人企業統計』で
は,全国で 464, 587 の法人企業があり,そこから全部で 22, 523 個の標本を抽出し
ている.
11.4
一般の確率分布のシミュレーション
たとえば 10 校の学校 A,B,C,...,I,J があり,それぞれの生徒数は 100, 200, · · · , 1000 名
である.総数 5500 名の生徒から,50 名を無作為抽出して,学力テストを実施する計画
第 11 章 モンテカルロシミュレーション
76
がある.ただし,学校どうしは距離が離れているので,はじめに 2 校を抽出し,つぎに
生徒 50 名を抽出することにした (2段抽出法).そのためには
1. 学校 A,B,...,I,J を無作為抽出する際,それぞれを抽出する確率は
1 2 3
9 10
, , ,···, ,
55 55 55
55 55
(11.1)
としなければならない.
2. この結果,たとえば学校 C,F が抽出されたとき,次は,この 2 校の生徒数の合
計 900 名から 50 名を無作為抽出することになる.
この例の場合に,実際に標本抽出の作業を行うには,確率分布 (11.1) をもつ確率変数の
シミュレーションが必要となる.
一般に,確率変数 X が確率分布
X
x1
確率 p1
x2
p2
···
···
xk
pk
をもつ場合に,Excel を用いて,X の値をランダムに発生させてみよう.そのためには
VLOOKUP 関数を利用する.
1. 適当な場所,たとえばセル F1:Gk に,VLOOKUP 関数が参照する表 T を作成す
る.すなわち
(a) はじめに,セル E1:Ek に確率 p1 , p2 , · · · , pk を入力する.
(b) つぎに,セル F1:Fk に累積確率
q 1 = p 1 , q 2 = p 1 + p2 , q 3 = p1 + p 2 + p 3 , · · · , q k = p 1 + p2 + · · · + pk
を計算する.ただし実際には,セル F1:Fk に「ひとつずらした」値
0, q1 , q2 , · · · , qk−1
を置く.
(c) そして,セル G1:Gk に確率変数がとる値
x1 , x 2 , · · · , x k
を入力する.
2. A 列に,RAND() 関数を用いて,0 以上 1 未満の乱数を発生させる.
11.4. 一般の確率分布のシミュレーション
77
3. セル B1 に式 =VLOOKUP(A1, F$1:G$k, 2) を入力し,それを B 列 のセル B2 以
降にコピーする.
関数 VLOOKUP(z, T, 2) はつぎのように働く.
• 第一引数の z はひとつの数 (いま考えている場合は,ひとつの乱数) である
• 第二引数の表 T はセル F1:Gk に作成した次の表
0
q1
q2
..
.
x1
x2
x3
..
.
qk−1
xk
のことである
• 第三引数の ’2’ は表 T の 2 列目を指示している.
そして,
• もし z < q1 であるならば,関数の値 = x1 ,そうではないが,
• もし z < q2 であるならば,関数の値 = x2 ,そうではないが,
• もし z < q3 であるならば,関数の値 = x3 ,そうではないが,
• 以下同様
のように働く.
問題 正しい硬貨を 5 回投げるとき,表の出た回数を X とする.この試行を 10 回繰
り返すシミュレーションを行え.
79
第 12 章 母集団比率の推定
12.1
母集団比率の区間推定
ある市における近視の人の比率 p を知りたいとする.全数調査の実施は経済的にも
時間的にも困難なので,標本調査を行うことにした.n 人の標本を抽出して視力検査を
行ったところ,標本における近視の人の比率は pˆ であった.未知の母集団比率 p を標
本比率 pˆ を用いて推定したい.
標本は無作為抽出されたもので,標本比率は母集団比率にある程度近い値になるであ
ろう.
ところが,標本比率の値はどの標本が抽出されたかに応じて変動する.だから標本比率
が母集団比率にピッタリ一致することはありえない.すなわち標本比率と母集団比率の
間に必ず 推定誤差 がある.この推定誤差の大きさは,次のようにして見積ることがで
きる.
1. 標本比率 pˆ を求める.
√
pˆ(1 − pˆ)
2. 標準誤差 sˆ =
を計算する(ただし n は標本数).
n
3. 95% の確率で,推定誤差は ±1.96 × sˆ である.また,99% の確率で,推定誤差は
±2.545 × sˆ である.
すなわち,95% の確率で,母集団比率 p は pˆ − 1.96 × sˆ 以上,pˆ + 1.96 × sˆ 以下であ
る,という風に言い表すことができる.この「何々以上、何々以下」という形で得られ
た区間は,信頼度 95% の信頼区間と呼ばれている.
例 1 つぎは,1977 年 9 月 26 日以降に放送されたアニメ番組(関東地区)の世帯視聴
率を高い順に並べたものである.関東地区の調査対象世帯数は 600 世帯である.1
1
http://www.videor.co.jp/data/ratedata/junre/03anime.htm
1977 年 9 月 26 日 (オンライン調査開始) 以降に放送された 15 分 以上の番組が対象.レギュラー番組が
対象で,タイトルが同じものは同一番組とし,最高のもの 1 番組を抽出.
第 12 章 母集団比率の推定
80
番組名
ちびまる子ちゃん
サザエさん
Dr. スランプ
ど根性ガエル
まんが日本昔ばなし
ルパン三世・最終回
タッチ
あしたのジョー
ドラえもん
ゲゲゲの鬼太郎
放送日
1990/10/28(日)
1979/9/16(日)
1981/12/16(水)
1979/2/23(金)
1981/1/10/(土)
1978/12/8(金)
1985/12/22(日)
1980/3/13(木)
1983/2/11(金)
1986/3/22(土)
放送時間
18 : 00 ∼ 18 : 30
18 : 30 ∼ 19 : 00
19 : 00 ∼ 19 : 30
18 : 00 ∼ 18 : 30
19 : 00 ∼ 19 : 30
18 : 00 ∼ 18 : 30
19 : 00 ∼ 19 : 30
18 : 00 ∼ 18 : 30
19 : 00 ∼ 19 : 30
18 : 30 ∼ 19 : 00
放送局
フジテレビ
フジテレビ
フジテレビ
日本テレビ
TBS
日本テレビ
フジテレビ
日本テレビ
テレビ朝日
フジテレビ
番組平均世帯視聴率 (%)
39.9
39.4
36.9
34.5
33.6
32.5
31.9
31.6
31.2
29.6
「ちびまる子ちゃん」
(1990/10/28 放送)の視聴率をほぼ 40% であると見なして,信
頼度 95% の推定誤差を求めよ.
(解)
1. n = 600,
pˆ = 0.399 である.
√
0.4 × (1 − 0.4)
2. sˆ =
= 0.02
600
3. したがって 95% 信頼度での誤差は ±1.96 × sˆ = ±0.04 である.
問 1 ゲゲゲの鬼太郎(1986/3/22 放送) 視聴率をほぼ 30% であると見なして,信頼度
95% の推定誤差を求めよ.
問 2 ある湖に棲む魚の数を調べたい.もちろん,すべての魚を捕獲してその数は調べ
ることは不可能である.そこで,始めに魚を 100 匹捕獲し,それらに目印を付けてか
ら,解き放った.その日から1週間後に,再び魚を 100 匹捕獲したところ,それらのう
ち 10 匹に目印が付いていた.湖に住む魚の数の 95% 信頼区間を求めよ.
12.2
社会調査の実例
例 2 文部科学省が実施する『学校保健調査』の健康状態調査では,つぎのように標本
抽出を行っている.
1. 都道府県別,学校種別に児童生徒数に応じ,学校を層別する.
2. それぞれの層において,調査実施校を無作為抽出する.
3. それぞれの調査実施校では,児童生徒の全員に対して調査する.
12.2. 社会調査の実例
81
とくに鹿児島県においては,平成 22 年度調査の場合,標本数はつぎのようである(幼
児・児童・生徒全体の約 20% である).
学校数
人数
幼稚園
35
1, 650
小学校
58
27, 930
中学校
39
17, 380
高等学校
26
21, 201
その結果,たとえば,裸眼視力 1.0 未満の者も比率(%)はつぎのようであった.
比率
問3
幼稚園
26.43
小学校
29.91
中学校
52.73
高等学校
55.64
小学校の場合,信頼度 95% の推定誤差を求めよ.
例 3 昭和 25(1950)年の『農業センサス』では,全数調査と標本率 1/20 の標本調査
の二種類の調査が行われた.その結果の一部は以下の通りであった.
全数調査
標本調査
総数(千戸)
6, 176
専業農家数
3, 086
比率(%)
50.0
45.0
標本調査における標本誤差を計算してみる.抽出率 1/20 であるから,標本数 n は
n = 6176 × 1000/20 = 308800
標本比率は pˆ = 0.45 であるから,
√
pˆ(1 − pˆ)
= 0.000895
n
したがって信頼度 95% の標本誤差は,
1.96 × 0.000895 = 0.00175 = 約 0.002
となる.すなわち,母集団比率 p は 0.45 − 0.002 以上 0.45 + 0.002 以下であると判断
してよい.ただし,この判断が誤りである確率は 1 − 0.95 = 0.05 である.ところが全
数調査によれば,母集団比率 p = 0.50 であるから,標本調査と全数調査の結果は矛盾
している.どちらが正しいのだろうか?
この両調査とも,専業農家の定義は同一で,農業以外に生産的な労働または収入があ
れば兼業農家となる.
82
第 12 章 母集団比率の推定
• 全数調査の場合,調査票は単に「あなたの家は専業ですか兼業ですか」と聞いて,
農家の主観により専業・兼業を決めるようになっていた.当時,専業農家は誇り
を持っていて,少しぐらいの兼業収入があっても専業と答えた.一方,標本調査
では別の目的もあり,現金収入を作物別に聞いていたが,農業現金収入が少ない
と生活できないので,収入について聞き返していた.
• 全数調査では調査員は同じ村の人であり,一方,標本調査の調査員は統計職員で,
回答にチェックを行っていた.
この事情を考慮すると,実は標本調査の方が正確で,全数調査の回答には「偏り」があ
ると判断できる.
12.2. 社会調査の実例
例4
83
つぎのデータは 1960 ∼ 1979 年の出生数(千人)と出生性比である.
年度
出生数
性比
年度
出生数
性比
1960 1961 1962 1963
1, 606 1, 589 1, 619 1, 660
105.6 105.9 106.1 105.7
1970 1971 1972 1973
1, 934 2, 001 2, 039 2, 092
107.1 106.7 106.5 106.2
1964
1, 717
105.9
1974
2, 030
106.4
1965
1, 824
105.3
1975
1, 901
106.2
1966
1, 361
107.6
1976
1, 833
106.2
1967 1968 1969
1, 936 1, 872 1, 890
105.3 107.1 107.2
1977 1978 1979
1, 755 1, 709 1, 643
106.1 106.0 106.2
1966 年はいわゆる「丙午の年」で,女子の出生届けが少なかったことにより,出生数
が少なく,また出性比が大きくなった.その反動で,翌年は出生数が多くなり,また出
性比が小さくなった.では 1968 年以降数年間,出性比が 107 を越えているが,これは
何故だろうか?
出生数等の調査は出生届を「集計」したもので,全数調査であり,標本調査ではな
い.しかし,現実の社会と,同じ食生活・衛生・医療等の状態をもつ仮想の社会を考
え,その仮想社会での出生現象を考えることができる(「無限母集団」の考え方).す
ると 1968 年の場合,標本数は n = 1, 872, 000 であり,また男子の出生の標本比率は
pˆ = 107.1/(107.1 + 100) = 0.517 である.したがって信頼度 95% の標本誤差は,
√
0.517 × (1 − 0.517)
1.96 ×
= 1.96 × 0.000365 = 約 0.0007
1, 872, 000
すなわちこの年の男子の出生の母集団比率は 0.517 − 0.0007 以上 0.517 + 0.0007 以下で
あると判断してよい(この判断が誤りである確率は 0.05).
一方,比較のために通常の出生性比であった年として,たとえば 1964 年を見ると,男
子の出生の標本比率は 105.9/(105.9 + 100) = 0.514 である.したがって,1968 年の出
生性比は明白に大きい.この原因は単なる偶然とは考えられない.実は,
1968 年から「集計」方法が変わり,地方でマークシートを作ることになっ
た.1968 年の結果が公表されて,性比が以上に高いことが問題となった.そ
こで,厚生省がマークシートのチェックを行った結果,女子であるのに前に
ある男子の枠を塗ったミスが,逆のミスよりも多かった.
このような理由で,1968 年以降数年間の出生性比の以上な高さは,
「集計」ミスによる
ものと考えられる.
問 4 国勢調査の速報として 1% 集計が発表されている.1980 年の国勢調査の場合,つ
ぎの比率にはどの程度の標本誤差があるかを算出せよ.
(1) 女性の比率 (2) 20 歳代の比率.
ただし,総人口 117, 060 千人,女性人口 59, 467,20 歳代人口 16, 882 である.
第 12 章 母集団比率の推定
84
12.3
標本比率の確率分布:数学的説明
母集団比率を推定するための数学的準備として,標本比率の確率分布を知ることが必
要になる.視力検査の結果,近視の人が X 人いたとすると,確率変数 X は2項分布
B(n, p) にしたがい,かつ標本比率は
pˆ =
X
n
と表すことができる.
したがって,期待値と分散の性質から,
E(ˆ
p) =
1
1
· E(X) = · np = p
n
n
および
1
1
pq
· V (X) = 2 · npq =
2
n
n
n
であることがわかる.すなわち,標本比率
pˆ の平均的な大きさは母集団比率 p に等し
√
pq
く,そのまわりに
程度散らばっている.
n
V (ˆ
p) =
ところが 標本数 n が十分大きい とき,
「2項分布の正規分布による近似」とか「ド-モ
アブル・ラプラスの定理」の名称で呼ばれている結果を利用して,つぎのことが証明で
きる.
P (p − zs
pˆ
p + zs) = 1 − α(z)
ここで,
√
s=
pq
n
と書いた.また α(z) の値は,近似的に,
α(1.645) = 0.10, α(1.96) = 0.05, α(2.575) = 0.01
である.
不等式
√
√
p(1 − p)
p−z
n
を,未知数 p に関する 2 次不等式
(p − pˆ)2
p(1 − p)
n
pˆ
p+z
z2 ·
p(1 − p)
n
12.3. 標本比率の確率分布:数学的説明
85
と見なして,解いてみる.すなわち,2 次不等式
(
)
(
)
z2
z2
2
1+
p − 2 pˆ +
+ pˆ2
n
2n
0
を解く.判別式は
)2 (
)
z2
z2
− 1+
· pˆ2
D =
pˆ +
2n
n
pˆ(1 − pˆ)
z4
= z2 ·
+ 2
n
4n
(
となる.ここで,標本数 n は十分に大きい 場合を考えていることを思い出すと,右辺
第 2 項は第 1 項と比較して無視できる.そこで,
D = 約 z2 ·
すなわち,記号を簡単にするために,
sˆ =
√
pˆ(1 − pˆ)
n
pˆ(1 − pˆ)
n
(12.1)
p
(12.2)
√
と書くことにすると, D = 約 zˆ
s である.したがって,2 次不等式の解
) √
(
) √
(
z2
z2
− D
pˆ + 2n
+ D
pˆ + 2n
p
2
2
1 + zn
1 + zn
は簡単化できて,次のようになる.
pˆ − zˆ
s
pˆ + zˆ
s
出発点の 2 次不等式は確率 1 − α(z) で成立しているのだから,その解である不等式
(12.2) も同じ確率で成立している.したがって,つぎの結果を得ることができた.
確率 1 − α(z) で,未知の母集団比率 p は pˆ − zˆ
s 以上,pˆ − zˆ
s 以下である.
√
pˆ(1 − pˆ)
ただし
sˆ =
n
12.3.1
標本数の決定
例 5 政党 A の支持率を調査するとき,支持率の 95% 信頼区間の幅を 2% 以下にする
ためには,標本数をいくつ以上にしなければいけないか?
第 12 章 母集団比率の推定
86
(解) 信頼区間は [ˆ
p − zs, pˆ + zs] であるから,その幅は 2zs である.幅を w% 以下
にしたいのすれば,2zs w とすればよい.だから
s
w
2z
とすればよい.すなわち
pˆ(1 − pˆ) ( w )2
n
2z
とすればよい.数 I の知識「2 次関数 f (x) = x(1 − x) の最大値は
こす.すると,上の不等式を成り立たせるためには,
( z )2
( w )2
1
, すなわち n
4n
2z
w
1
4
である」を思い起
(12.3)
とすればよい.
95% 信頼区間を考えているから z = 1.96 であり,また幅を 2% 以下にしたいのだか
ら w = 0.02 と置く.すると,公式 (12.3) を用いて,n 9604 が得られる.
問 4 ある市では,糖尿病患者の割合を知るために,集団検診を実施する予定である.
糖尿病患者の割合の 95% 信頼区間の幅を 1% 以下にするためには,標本数をいくらに
したらよいか?
87
第 13 章 一様性の検定
13.1
一様性の検定の処方箋
13.1.1
正しいサイコロか?
例 13.1.1 つぎの表は平成 21 年度の名瀬市の月別出生数 (男子と女子の計) を示してい
る.1
1月
48
2月 3月
45
48
4月
46
5月
53
6月
44
7月
56
8月
51
9 月 10 月 11 月 12 月
57
62
42
61
出生数は月に無関係であるか? すなわち,一人の新生児が生まれる確率はどの月も
に等しいか?
1
12
例 13.1.2 つぎの表は平成 21 年度の鹿児島市の曜日別火災発生件数を示している.2
日
39
月
31
火
32
水
35
木
41
金
31
土
39
火災発生件数は曜日に無関係であるか? すなわち,一件の火災が発生する確率はどの
1
曜日も に等しいか?
7
上の二つの問題のように,いくつかの場合が起きる可能性があって,それぞれの場合
が起きる確率がたがいに等しいかどうかを調べる問題は,現実の世界にしばしば現れる.
これらの問題は,つぎの『賭博場』で現れる問題と,じつは全く同じ種類の問題である.
例 13.1.3 つぎの表は,サイコロを 60 回投げたときに,それぞれの目が出た回数を示
している(架空の例).
サイコロ A
サイコロ B
1
1の目
12
7
2の目
7
10
3の目
8
7
4の目
10
6
5の目
12
6
6の目
11
24
『人口動態統計調査』http://www.pref.kagoshima.jp/tokei/bunya/jinko/jinkodotai/H21jinnkoudoutai.html
『消防年報』http://www.kagoshima-fd.jp/pdfs/nenpou/h22nenpou.pdf
2
第 13 章 一様性の検定
88
二つのサイコロ A, B は正しいサイコロであるか? すなわち,それぞれの目が出る確率
1
はどの目も に等しいか?
6
いくつかの場合が起きる可能性があって,それぞれの場合が起きる確率がたがいに等
しいかどうかを調べるテスト方法,すなわち確率が『一様』であるかどうかを調べるテ
スト方法を,一様性の検定と言う.
13.1.2
一様性の検定の基本的アイデア
正しいサイコロを 60 回投げたとき,それぞれの目が出る回数は『ほぼ』 10 回ずつ
になるだろう.だから例 3.1.3 で,サイコロ A のような結果が現れても,誰も不思議に
思わない.しかし,サイコロ B のような結果が現れたとしたら,誰もが「6 の目が出す
ぎているので,このサイコロは正しくない」,と判断するであろう.
一般に,ある偶然現象では k 種類の結果が起きる可能性があり,実際に調査(または
観察)したところ,それぞれの結果が起きた度数が
X1 , X2 , · · · , Xk
であったとする.このとき仮説
それぞれの結果が起きる確率は
1
k
である
が正しいかどうかを,データに基づいて判断したい.
仮説が正しいとき,それぞれの結果が起きる期待度数は
n×
1
n
=
k
k
ずつである(ただし n は度数の合計 n = X1 + X2 + · · · + Xk である).このとき
• もし実際の度数と期待度数の差
X1 −
n
n
n
, X2 − , · · · , Xk −
k
k
k
がすべて小さいならば,
「仮説は正しい」と判断する.
• 逆に,実際の度数と期待度数の差が,ある結果に対して大きすぎるならば,
「仮説
は正しくない」と判断する.
この基本的アイデアにしたがって,一様性の検定を行うことができる.この検定方法
は,統計学においてカイ2乗検定と呼ばれている.3
3
「カイ」はギリシャ文字の χ を表す.
「カイ2乗検定」の名称は,この方法を最初に考案した カール・
ピアソンによるが,検定方法の中身はギリシャ文字の χ とは何の関係もない.
13.1. 一様性の検定の処方箋
13.1.3
89
表計算ソフトを用いたカイ2乗検定の実際
例 3.1.3 のサイコロ A のデータに対して,Excel を用いてカイ2乗検定を行うには,
つぎのようにすればよい.
1. 真偽を検討したい仮説は「サイコロは正しい」である.
2. 観察度数(データ)を A 列に入力し,期待度数を B 列に入力する.
A
1
2
3
4
5
6
B
12
7
8
10
12
11
10
10
10
10
10
10
3. セル D1 に式 =CHITEST(A1:A6,B1:B6) を入力する.すると,その場所に p 値が
計算される.今の例の場合,p 値 = 0.8208 である.
4. p 値は仮説が正しい確率と解釈してよい.今の例の場合,p 値は大きいので,
「仮
説は正しい」と判断できる.
サイコロ B のデータに対して同様のことを行うと,つぎのようになる.
1. 真偽を検討したい仮説は「サイコロは正しい」である.
2. 観察度数(データ)を A 列に入力し,期待度数を B 列に入力する.
A
1
2
3
4
5
6
B
7
10
7
6
6
24
10
10
10
10
10
10
3. セル D1 に式 =CHITEST(A1:A6,B1:B6) を入力する.すると p 値 = 0.0001664 と
なる.
4. p 値は小さいので「仮説は正しくない」と判断できる.
第 13 章 一様性の検定
90
13.1.4
検定の論理
注意1 前節では,p 値が 0.8208 であるときは「大きい」と見なし,0.0001664 である
ときは「小さい」と見なした.では,たとえば p 値が 0.02 であるときや, 0.07 である
ときは,どのように見なしたらよいだろうか?
慣例では,p 値が 0.05 未満のときは「小さい」と見なし,
0.05 以上のときは「大きい」と見なしている.
ここで,仮説検定のような合理的な思考の場面で,
「慣例」が用いられることは,奇妙
だと思うかもしれない.しかし,仮説検定の結果を述べる際,
「仮説を棄却した」または
「しなかった」という結論だけを述べることはせず,必ず p 値を記す.A 氏が「仮説検
定を行って,仮説を棄却しました」と述べたときに,もし p 値を述べ忘れたとしても,
それを聞いた B 氏は「p 値が 0.05 より小さいので,仮説は棄却されたのだな」と推測
できる.このように,この「慣例」が,誤った推論,意見の相違をうむことは無い.
注意2
仮説検定の論理の流れを図示すると次のようになるだろう.
仮説が正しいとしたら・
・
・
⇒
p 値の計算
⇓
仮説を棄却
⇐
p 値が小さい
これは,次の背理法の論理の流れとよく似ている.
仮定が正しいとしたら・
・
・
⇒
推論
⇓
仮定を棄却
⇐
矛盾
ただ一つの,しかし大きな相違点は,背理法において矛盾が起きたとき,仮定は絶対
的に誤りであるのに対し,仮説検定において p 値が小さいとき,慣例にしたがって仮説
を棄却するが,じつは仮説が正しい可能性もある事である.
注意3 仮説検定において仮説が果たす役割は,背理法における仮定の役割と同じであ
ることがわかった.ところで,背理法における仮定は,それが誤りを示す目的で置かれ
たものである.同様に,仮説検定における仮説も,じつは,それが誤りを示す目的で置
く.この意味で,仮説検定における仮説は帰無仮説と呼ばれている.
13.2. カイ2乗検定の舞台裏
13.2
カイ2乗検定の舞台裏
13.2.1
カイ2乗検定の主役
91
k 種類の結果が起きる可能性がある偶然現象を実際に観察したところ,それぞれの結
果の観察度数が X1 , X2 , · · · , Xk であったとする.このとき帰無仮説
それぞれの結果が起きる確率は
1
k
である
の真偽を判断したい.
前節で説明したように,カイ2乗検定では観察度数と期待度数の差の計算に基づいて,
仮説の真偽を判断する.具体的には,つぎの量
χ2 =
(X1 − e)2 (X2 − e)2
(Xk − e)2
+
+ ··· +
e
e
e
(13.1)
の計算に基礎をおく.ここで e = n/k は期待度数を示す.この量は χ2 はカイ 2 乗統計
量と呼ばれているが,これがカイ2乗検定の主役を勤める.
13.2.2
カイ2乗統計量の変動
k 種類の結果が起きる可能性がある偶然現象をシミュレーションすることにより,カイ
2乗統計量がどのように変動するか,を調べてみる.つぎの関数 chi2 は帰無仮説が正しい
と仮定してシミュレーションを行い,n 個のデータを発生し(すなわち X1 +X2 +· · ·+Xk =
n),そのデータに対してカイ 2 乗統計量 (13.1) の値を計算する.
chi2 <- function(n,k) {
y <- as.integer(runif(n,1,k+1))
x <- table(y)
e <- n/k
w <- sum((x-e)^2/e)
return(w)
}
• y <- as.integer(runif(n,1,k+1)) により,数字 1, 2, · · · , k を用いた長さ n の
乱数列が作られる.
• x <- table(y) により,乱数列 y から度数分布表(各数字が何回現れたかを示す
表)が作られる.
• e <- n/k は期待度数を計算している.
第 13 章 一様性の検定
92
• w <- sum((x-e)^2/e) では,少しわかりにくいかもしれないが,カイ 2 乗統計量
(13.1) の値を計算している.
例 13.2.1 サイコロを n = 60 回投げる実験を 1000 回行うことにする.実験結果のヒ
ストグラムを描くには,次のようにすればよい.
w <- c(1:1000)
for (k in 1:1000) {
w[k] <- chi2(60,6)
}
hist(w)
問題 13.2.1 サイコロを n = 100 回投げる実験を 10000 回行い,実験結果のヒストグ
ラムを描け.
このヒストグラムは,つぎの方法で描かれる,自由度 11 のカイ 2 乗分布の密度関数
のグラフにそっくりである.
t <- c(1:300)/10
f <- dchisq(t, 11)
plot(t,f,type="l")
そこで,シミュレーションの結果より,つぎの関係が予想できる.
P {a
χ2
b} =
カイ 2 乗分布の密度関数のグラフと t 軸,
直線 t = a,直線 t = b により囲まれる部分の面積
確率の合計は 1 に等しいから,曲線と t 軸に囲まれる領域の面積は 1 に等しい.
例 13.2.2 P {χ2 b} = 0.95 である b の値を求めるには,曲線と t 軸と直線 t = b に
より囲まれる領域の面積が 0.95 に等しくなるような b を探せばよい.このためには,
つぎのようにすればよい.
qchisq(0.95,11)
この値は約 19.7 である.だから,カイ 2 乗値 χ2 が 19.7 より大きくなる確率は,0.05
に等しい.
13.2. カイ2乗検定の舞台裏
13.2.3
93
R によるカイ 2 乗検定
例 13.2.3 例 3.1.3 に戻る.仮説「サイコロ A は正しい」をカイ 2 乗検定するには,つ
ぎのようにするとよい.
x <- c(12,7,8,10,12,11)
chisq.test(x)
すると次の結果が得られる.カイ 2 乗統計量の値は 2.2 であり,また p 値は 0.8208
となっている.
Chi-squared test for given probabilities
data: x
X-squared = 2.2, df = 11, p-value = 0.8208
つぎに,サイコロ B の場合を調べると,結果はつぎのようになる.
Chi-squared test for given probabilities
data: x
X-squared = 24.6, df = 11, p-value = 0.0001664
13.2.4
無理数の探求
問題 13.2.2 つぎの表は,円周率 π の小数第 1 位から第 10000 位までに,それぞれの
数字が現れる度数を示している.数字は一様に現れるか?
0
968
1
1026
2
1021
3
974
4
1012
5
1046
6
1021
7
970
8
948
9
1014
√
問題 13.2.3 つぎの表は, 2 の小数第 1 位から第 10000 位までに,それぞれの数字が
現れる度数を示している.数字は一様に現れるか?
0
952
1
1005
2
1004
3
980
4
1016
5
1001
6
1032
7
964
8
1027
9
1019
95
第 14 章 独立性の検定
14.1
いくつかの実例
14.1.1
古典的な例
エンドウ豆に関するメンデルの実験 種子が丸く子葉が黄色の品種と,種子にしわが
あり子葉が緑色の品種を交配した結果,子の世代ではすべて「丸・黄」になった.これ
を自花受粉させて得られた孫の世代では,それぞれの形質の組合せをもつ豆の数は,以
下のようになった.種子の形と子葉の色という2つの形質は独立に遺伝しているのであ
ろうか?
丸
しわ
腸チフスの予防接種の効果
1
黄
315
101
緑
108
32
予防接種の効果はあったのか?
注射を受けた者
受けなかった者
病気にかかった者
56
272
かからなかった者
6759
11396
双生児犯罪者の兄弟姉妹 2 双生児の片方が犯罪者である場合に,他方も犯罪者である
かどうかを調査した.一卵性双生児の場合と二卵性双生児の場合で,犯罪者になる傾向
に差があると言えるだろうか?
一卵性
二卵性
1
2
犯罪者
10
2
フィッシャー 『研究者のための統計的方法』 例 10
フィッシャー 『研究者のための統計的方法』 例 13.1
非犯罪者
3
15
第 14 章 独立性の検定
96
14.1.2
社会調査の例
「日本人の国民性調査」(第 12 次調査,2008 年)より,宗教に関する調査結果の一
部を見てみよう.
「宗教を信じるか」
質問 宗教についておききしたいのですが,たとえば,あなたは,何か信仰とか信心と
かを持っていますか?
回答
結果
1 もっている,信じている
2 もっていない,信じていない,関心がない
男性
女性
20 歳代
30 歳代
40 歳代
50 歳代
60 歳代
70 歳代以上
6 大都市
市人口 20 万以上
市人口 10∼20 万
市人口 5∼10 万
市人口 5 万未満
郡部
北海道
東北
関東
中部 (東)
中部 (西)
近畿
中国
四国
九州
信じている
204
265
24
52
65
97
137
94
51
165
66
85
30
75
25
34
103
38
64
82
37
20
69
信じていない
611
649
162
238
218
262
244
136
144
447
188
180
96
202
66
115
386
110
113
210
70
39
148
14.1. いくつかの実例
97
「あの世」を信じるか
質問 あなたは「あの世」というものを,信じていますか?
1
2
回答 3
4
5
結果
信じる
どちらともきめかねる
信じてはいない
その他[記入]
わからない
男性
女性
20 歳代
30 歳代
40 歳代
50 歳代
60 歳代
70 歳代以上
6 大都市
市人口 20 万以上
市人口 10∼20 万
市人口 5∼10 万
市人口 5 万未満
郡部
北海道
東北
関東
中部 (東)
中部 (西)
近畿
中国
四国
九州
信じる
261
402
91
116
116
129
118
83
74
239
91
111
42
100
40
61
186
64
65
85
41
36
80
どちらとも
163
228
33
67
68
79
91
57
37
141
74
64
18
61
16
37
108
36
35
85
19
12
50
信じていない
342
220
56
84
79
129
137
74
74
196
76
74
50
94
26
45
181
38
64
99
39
10
63
第 14 章 独立性の検定
98
14.2
独立性の検定の処方箋
14.2.1
検定の基本的な考え方
つぎの表は,ある小学校の 6 年生に対して、視力検査を実施した結果である (架空の
データ).近視(裸眼視力 1.0 未満)になる「なりやすさ」は,男子と女子で差があるだ
ろうか?
男子
女子
計
観測度数表
1.0 未満 1.0 以上
30
70
28
42
58
112
計
100
70
170
標本変動に正しく対処するためには,つぎのように考えると良い.
1. はじめに帰無仮説「近視になるなりやすさは男子と女子で同じである」を考える.
58
2. そのとき男子と女子の合計 170 人のうち近視者の割合は
であるから,一人の
170
58
子が近視になる「なりやすさ」は確率
であると推定できる.
170
3. そこで帰無仮説が正しいとすると,男子 100 人のうちで近視になる人数および女
子 70 人のうちで近視になる人数は,それぞれ
58
× 100 = 約 34.1,
170
58
× 70 = 約 23.9
170
であることが期待できる.そこで次の表を作る.
男子
女子
期待度数表
1.0 未満 1.0 以上
34.1
65.9
23.9
46.1
4. 観測度数表と期待度数表の対応する(4 つの)セルの数値を比較し,対応する数
値の差が相等に大きいならば帰無仮説は偽であると判断し棄却し,対応する数値
の差が比較的小さいならば帰無仮説は真であると判断する.
14.2. 独立性の検定の処方箋
14.2.2
99
Excel による独立性の検定
前節の例を用いて,独立性の検定の処方箋を説明する.
1. 始めに,観測度数を入力し,さらに各行,各列の度数の合計を計算する.
A
1
2
3
B
30
28
58
C
100
70
170
70
42
112
2. 帰無仮説「近視になるなりやすさは男子と女子で同じである」が真であると仮定
して,期待度数を計算する.そのためには,セル A5 に式 =A$3*$C1/$C$3 を入力
し,それをコピーすればよい.
A
..
.
..
.
5
6
B
..
.
34.1
23.9
65.9
46.1
3. セル E1 に p 値を計算する.そのためには,式 =CHITEST(A1:B2,A5:B6) を入力
すればよい.すると,約 0.2344 と計算される.この値は 0.05 より大きいので,帰
無仮説は棄却されない.
例 「宗教を信じるか」という質問に対する回答に,年齢による差があるか否か,を
調べたい.
1. 第1節に与えられているデータは割合(パーセント)なので,この節の後半に掲載
した度数データを用いる.度数データを,たとえばセル A1:B6 に置くことにする.
2. 各行各列の和を計算する.
A
1
2
3
4
5
6
7
24
52
65
97
137
94
469
B
162
238
218
262
244
136
1260
C
186
290
283
359
381
230
1729
第 14 章 独立性の検定
100
3. 帰無仮説は「宗教を信じている割合に年齢で差は無い」である.この帰無仮説が
正しいと仮定して,各セルの期待度数を計算する.そのためには,セル A9 に式
=A$7*$C1/$C$7 を入力し,それをコピーすればよい.すると,つぎのようになる.
9
10
11
12
13
14
A
50.45
78.66
76.77
97.38
103.35
62.39
B
135.55
211.34
206.23
261.62
277.65
167.61
4. セル E1 に p 値を計算する.そのためには,式 =CHITEST(A1:B6,A9:C14) を入力
すればよい.すると,約 6.57 × 10−12 と計算される.この値は非常に小さいので,
帰無仮説は棄却される.
14.3. カイ 2 乗統計量とカイ 2 乗分布
14.3
101
カイ 2 乗統計量とカイ 2 乗分布
観測度数と期待度数の間に大きな差かどうかを判断するために,カイ2乗統計量を用
いる.カイ2乗統計量はクロス集計表が何行何列であっても定義できるが,説明を簡単
にするために,たとえば 4 行 3 列の場合を考えよう.
データである度数が次のようであるとする:
A
1
2
3
4
B
x11
x21
x31
x41
C
x12
x22
x32
x42
x13
x23
x33
x43
一方,期待度数は次のようであるとする:
A
6
7
8
9
B
e11
e21
e31
e41
C
e12
e22
e32
e42
e13
e23
e33
e43
このときカイ2乗統計量は次のように定義される:
χ2 =
(x11 − e11 )2 (x12 − e12 )2 (x13 − e13 )2
+
+
e11
e12
e13
2
2
(x21 − e21 )
(x22 − e22 )
(x23 − e23 )2
+
+
+
e21
e22
e23
2
2
(x31 − e31 )
(x32 − e32 )
(x33 − e33 )2
+
+
+
e31
e32
e33
(x41 − e41 )2 (x42 − e42 )2 (x43 − e43 )2
+
+
+
e41
e42
e43
このようにカイ2乗統計量は,クロス集計表の各セルに対する,データである度数と
期待度数の差の2乗の「重みつき平均」という形をしている.
「重みつき平均」は,小学
校以来なじみの「平均」の一種であるから,見かけは難しい式でない.しかし実際には,
カイ2乗統計量の性質を正確に理解するためには,かなり高度な数学的素養が必要であ
る.そこで,カイ2乗統計量の数学的性質に関しては,後の付録の節で解説することに
する.
この節では Excel を利用してカイ2乗検定を行う仕方だけを説明する.そのためには,
上の 4 行 3 列のクロス集計表の場合,CHITEST 関数を用いて,式 =CHITEST(A1:C4,A6:C9)
を入力する.この式を,データや期待度数の書かれている場所と重ならないよう,たと
えばセル F1 に入力すると,その場所に p 値が計算される.p 値は,
第 14 章 独立性の検定
102
帰無仮説が正しいと仮定したときにデータが得られる確率,端的に言えば,
帰無仮説が正しい確率
を表している.
「宗教を信じているか」の例の場合,p 値は 0.0643 となる.今の例の場合 p 値は小
さいとは言えない(0.05 と比較して,小さいかどうかを判断するのが慣例).したがっ
て,帰無仮説を棄却することはできない.すなわち,
「宗教を信じている割合に男性と女
性で差がある」と考えるだけの証拠(データ)はない.
14.4
仮説検定の論理
14.4.1
仮説検定と背理法
実は私たちは心の中で,近視の割合は男子と女性で異なる,と考えている.しかし,
あえて「近視の割合は男子と女性で同じである」と仮定して推論を進め,この仮定が正
しいとすると実験・調査で今回のデータを得る確率が小さいことを計算して示す.そし
て,確率が小さい事象が起きたと考えるよりは,元の仮定が誤っていたと判断する.こ
のような推論の仕方を,仮説検定と言う.ところで,いわゆる背理法では,仮定が正し
いとして推論を進め,不可能な結論が生じたとき,元の仮定を棄却する.したがって,
仮説検定の思考方法は,背理法に倣ったものであることがわかる.
仮説検定の始めに設定した仮定のことを,帰無仮説と呼ぶ.
仮説検定の目的は,帰無仮説をデータという証拠によって,棄却することである.
質の良いデータを手に入れることができれば,この目的を果たす(仮説を棄却すること)
ことができるだろう.しかし,データの質が悪いと,この目的を果たすことができない.
14.4.2
p 値の大小を 0.05 と比較して判断する理由
帰無仮説を棄却するか否かの判断に,すなわち p 値の大小を判断する際に,比較する
数値は有意水準と呼ばれている.有意水準とは,
帰無仮説が真であるときに誤って棄却される確率
のことである.普通,有意水準には 0.05 という値が用いられている.しかし素朴に考
えると,有意水準を半々の確率 0.5 にするのが良いのでは,と思うのではないだろうか.
14.4. 仮説検定の論理
103
実は,有意水準に 0.05 という小さい確率を用いる理由は,帰無仮説が真であるとき
に誤って棄却される確率を小さくしたいからである.仮説はいったん棄却されると,何
か別の理由が生じないかぎり,省みられなくなることが多い.
(いったんごみ箱に捨てた
ごみは,何か別の理由が生じないかぎり,ごみ箱から戻しはしない.
)だから,仮説を棄
却する行為は,危険な行為であるとも言える.そこで安全のために,仮説を棄却する確
率を小さめに設定しておくのである.
14.4.3
Yates の補正
実は Excel は,p 値を計算するとき,あまり正確でない計算を行っている.これは数
学的には,数列の和を積分で近似する場合に,必ず生じる問題である.より正確な p 値
を計算するためには,
「Yates の補正」が必要になる.
「宗教を信じているか」の例の場合,データを次のように補正しておいた方がよい.
1
2
3
A
204.5
264.5
469
B
610.5
649.5
1260
C
815
914
1729
すると p 値はより正確に,0.0725 と計算される.
14.4.4
セルの度数
カイ2乗統計量 χ2 がしたがう確率分布は,統計学ではカイ2乗分布と呼ばれている.
しかし正確には,カイ2乗統計量 χ2 は,データ数が無限大のときに,カイ2乗分布に
したがうことが証明できる.データ数が有限(現実の世界)のときは,近似的にカイ2
乗分布にしたがうにすぎない.そして,データ数が多ければ近似は良いが,データ数が
少ないと近似は悪い(「近似」ではなくなる).クロス集計表の場合,
あるセルのデータ数が 5 未満である場合,カイ2乗分布による近似は悪い.だ
から,あるセルのデータ数が 5 未満である場合,カイ2乗検定を用いることはできない.
第1節の例で言えば,双生児犯罪者の兄弟姉妹のデータに対しては,カイ2乗検定を用
いることはできない.
第 14 章 独立性の検定
104
14.5
Fisher の精密検定
事象 E と事象 F が独立であるかどうかを調べた結果,観測度数がつぎのようになっ
たとする.
事象 E が起きた
a
c
a+c
事象 F が起きた
事象 F が起きなかった
計
事象 E が起きなかった
b
d
b+d
計
a+b
c+d
N
ただし N = a + b + c + d と置いた.
このデータに基づいて,帰無仮説「事象 E と事象 F が独立である」の真偽を判断し
たい.事象 E が起きる確率を p1 (事象 E が起きない確率を q1 = 1 − p1 ),事象 F が
起きる確率を p2 (事象 F が起きない確率を q2 = 1 − p2 )と置く.もし帰無仮説が真
であるならば,事象 E と F がともに起きる確率は p1 p2 ,事象 E は起きるが事象 F は
起きない確率は p1 q2 等であるから,観測度数 a, b, c, d が得られる確率 f (a, b, c, d) は
N!
(p1 p2 )a (q1 p2 )b (p1 q2 )c (q1 q2 )d
a! b! c! d!
n!
=
pa+c
q1b+d pa+b
q2c+d
1
2
a! b! c! d!
f (a, b, c, d) =
となる.
この確率は,p1 , p2 が未知であるので,具体的には計算できない.しかし,
周辺度数 a + c, b + d, a + b, c + d が同一である a, b, c, d だけを考える ならば,
f (a, b, c, d) =
K
a! b! c! d!
と表すことができる.ここで比例定数 K = n! pa+c
q1b+d pa+b
q2c+d は未知の数である.と
1
2
ころが,式の形をよく見ると,K は周辺度数だけに依存していて,観測度数そのもの
a, b, c, d には依存していない.この性質を利用して,次の事を示すことができる.
定理1
帰無仮説「事象 E と事象 F が独立である」が真であるとする.
周辺度数 a + c, b + d, a + b, c + d が与えられたとき,
観測度数 a, b, c, d が得られる条件付き確率は
f (a, b, c, d) =
· c+d Cc
N Ca+c
a+b Ca
14.5. Fisher の精密検定
105
(証明) 確率の総和は 1 に等しいから,
∑
1
=
K
a+c,b+d,a+b,c+d
が一定
1
a! b! c! d!
である.この右辺の和を具体的に求めよう.a + b = k, a + c = l と置く.2 項定理より
∑
∑
c
n−k
a
k
および
n−k Cc x = (x + 1)
k Ca x = (x + 1)
0 c n−k
0 a k
である.この両辺どうしを掛け合わせて,xl の係数を比較してみる.右辺の積は (x + 1)n
であるから,xl の係数は
n!
n Cl =
(a + c)! (b + d)!
に等しい.一方,左辺の積は
∑
k Ca
∑
· n−k Cc =
a+c=l
a+c,b+d,a+b,c+d
が一定
(a + b)! (c + d)!
a! b! c! d!
に等しい.したがって
1
=
K
∑
a+c,b+d,a+b,c+d
が一定
1
N!
=
a! b! c! d!
(a + b)! (c + d)! (a + c)! (b + d)!
となる.これを用いれば,求めたい f (a, b, c, d) の表現を得ることができる.
(証明終わり)
注意 定理1の確率分布は,壷の問題の解として現れるものと同じである.その事に気
がつくと,定理1の別証明 (しかもはるかに簡単な証明) が得られる.a + b = R, c + d =
W, a + c = n と置く.計 N 回の試行のうち,事象 F は R 回起き,W 回起きなかった
わけであるが,この事を,壷の中に計 N 個の球があり,そのうち R 個は赤球で,W 個
は白球であることに『翻訳』する.考えやすくするために,事象 F は時間的に早く起
きる (または起きない) とし,事象 E は時間的に遅く起きる (または起きない) とする.
帰無仮説が真であるとすると,事象 F が起きた (または起きなかった) ことは,事象 F
が起きる (または起きない) ことに全く影響しない.この事は,壷から球を取り出す際,
どの一つの赤球を取り出す確率も,どの一つの白球を取り出す確率も,すべて同一であ
ることを意味する.したがって,壷から n 個の球を取り出すとき (非復元抽出),赤球を
a 個,白球を c 個取り出す確率は
· W Cc
N Cn
R Ca
に等しい.これが定理1の確率分布である.この確率分布は超幾何分布と呼ばれている.
第 14 章 独立性の検定
106
観測度数 a, b, c, d が得られた場合に,カイ二乗統計量
∑
χ2 =
すべてのセル
(観測度数 − 期待度数)2
期待度数
を具体的に計算する式は,つぎのような単純な式となる.
定理2
帰無仮説が真であるとする.
χ2 =
N
· (ad − bc)2
(a + b)(c + d)(a + c)(b + d)
(証明) 各セルの期待度数は N p1 p2 , N q1 p2 , N p1 q2 , N q1 q2 となるが,確率 p1 , p2 等は未
知であるから,このままではカイ二乗統計量を具体的に計算することはできない.そこ
で確率 p1 , p2 等を推定することにする.最も自然な推定値は
pˆ1 =
a+b
c+d
a+c
b+d
, qˆ1 =
, pˆ2 =
, qˆ2 =
N
N
N
N
である.したがって,カイ二乗統計量 (の推定値) は
χˆ2
[
]2 [
]2
(a + b)(a + c)
(a + b)(b + d)
a−
b−
N
N
=
+
(a + b)(a + c)
(a + b)(b + d)
N
N
[
]2 [
]2
(c + d)(a + c)
(c + d)(b + d)
c−
d−
N
N
+
+
(c + d)(a + c)
(c + d)(b + d)
N
N
となる.この式を整理すると,求めたい表現が得られる.
(証明終わり)
帰無仮説が真であるとき,カイ二乗統計量は小さい値 (ゼロに近い値) に傾向が強い.
だから,実際の観測度数から計算したカイ二乗値が大きい値となるならば,帰無仮説は
偽であると判断し,棄却するとよい.
例 a = 4, b = 3, c = 1, d = 7 であるとする.このとき周辺度数は a + b = 7, c + d =
8, a + c = 5, b + d = 10 となる.そこで同一の周辺度数をもつ,すべての可能な観測度
数の組を考えてみると,つぎのようになる.
14.5. Fisher の精密検定
107
表 T0
表 T1
0
5
5
表 T2
7 7
3 8
10 15
1 6 7
4 4 8
5 10 15
表 T4
表 T3
3
2
5
2
3
5
5 7
5 8
10 15
5
0
5
2 7
8 8
10 15
表 T5
4 7
6 8
10 15
4 3 7
1 7 8
5 10 15
さらに,定理1と定理2を用いて,それぞれの表の観測度数が起きる確率およびカイ二
乗値 (よりはむしろ単純に ad − bc) を計算すると,つぎのようになる.
表
確率
ad − bc
T0
T1
T2
T3
T4
T5
8
70
429 429
−35 −20
168
429
−5
140
429
10
40
429
25
3
429
40
ここで ad − bc の値を見ると,
T 2 , T3 , T1 , T4 , T0 , T5
の順に大きくなっている,すなわち帰無仮説が真であることに反する.今,実際には T4
が起きたとする.このとき
p 値 = P {T5 } + P {T0 } + P {T4 } =
51
= 0.119
429
これは 0.05 より大きいので,仮説は棄却しない.(なお,この例でカイ二乗検定を無理
矢理行うと,p 値 = 0.200 となり,これは精密な値の約 2 倍の大きさである.)
問題1 Fisher’s Tea Drinker あるイギリス人女性が「私はミルクとお茶のどちら
が先にカップに入れられたかを見分けることができる」と主張した.この主張をテスト
するために,彼女にミルクティーの入った 8 個のカップが与えられた.実験では,8 個
のカップのうち 4 個にはミルクを先に入れた.この実験の結果,女性は,ミルクを先に
入れた 4 カップのうち 3 個を正しく推測し,お茶を先に入れた 4 カップのうち 3 個を
正しく推測した(逆に言うと,ミルクを先に入れた 4 カップのうち 1 個を誤って推測
し,お茶を先に入れた 4 カップのうち 1 個を誤って推測した).女性の主張は正しいと
考えてよいか?
第 14 章 独立性の検定
108
例題 モルトウイスキーとブレンドウイスキーを区別できるか,を調べる実験が行われ
た.3 . 実験では,
「普段ウイスキーを飲んでいる群」と「あまり飲んでいない群」に分
けて,それぞれの群にモルトウイスキーとブレンドウイスキーをランダムにブラインド
テイスト方式で提示して,その属性を当てさせる.4 実験の結果は以下の通りであった.
「普段ウイスキーを飲んでいる群」
実際
モルト ブレンド
推測
モルト
36
24
ブレンド
36
48
「あまり飲んでいない群」
実際
モルト ブレンド
推測
モルト
32
33
ブレンド
39
40
「普段ウイスキーを飲んでいる群」は,モルトウイスキーとブレンドウイスキーを区
別することができるか?帰無仮説は「モルトウイスキーとブレンドウイスキーを区別す
ることができない」である.
1. 周辺度数を固定し,また分割表の左上隅の度数を a と置くと,すべての可能な場
合はつぎの表で 0 a 60 となる,計 61 通りがある.
a
72 − a
72
60 − a
a + 12
72
60
84
144
2. セル A1:A61 に 0, 1, · · · , 60 を入力する.
3. セル B1:B61 に,それぞれの表が起きる確率を計算する.そのためには,セル B1
に式 =COMBIN(60,A1)*COMBIN(84,72-A1)/COMBIN(144,72) を入力し,それをコ
ピーすればよい.ここで関数 COMBIN(n, k) は n Ck を計算する.
4. セル C1:C61 に |ad−bc| を計算する.そのためには,セル C1 に式 =ABS(A1*(A1+12)-(60-A1)*(7
を入力し,それをコピーすればよい.ここで関数 ABS(x) は x の絶対値を計算する.
5. 実際のデータは a = 36 であり,そのとき |ad−bc| = 864 である.そこで |ad−bc|
864 であるすべての場合の確率を合計する.そのためには,式 =SUM(B1:B25)+SUM(B37:B61)
を入力すればよい.
6. こうして p 値 = 0.0626 となることがわかったので,帰無仮説は棄却できない.
問題2 「あまり飲んでいない群」は,モルトウイスキーとブレンドウイスキーを区別
することができるか?
3
Chadwick and Dudley ”Can malt whisky be discriminated from blended whisky? The proof. A
modification of Sir Ronald Fisher’s hypothetical tea tasting experiment.”, Br. Med. J. (Clin Res Ed)
1983, 287, 1912-1915
4
モルトウイスキーには Glendiddch, Springbank, Glenmorangic という有名なものを使用し,ブレン
ドウイスキーには White Horse, Bells, Haig を使用する.ちなみに,Glendiddch の 30 年ものなら 7 万
円前後,White Horse の 18 年では 2 千円程度の市価である.
14.6. R によるカイ 2 乗検定
14.6
R によるカイ 2 乗検定
> x <> x
[,1] [,2]
[1,] 204 611
[2,] 265 649
>
Pearson’s Chi-squared test with Yates’ continuity correction
data: x
X-squared = 3.225, df = 1, p-value = 0.07252
> fisher.test(x)
Fisher’s Exact Test for Count Data
data: x
p-value = 0.06568
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.6565327 1.0177880
sample estimates:
odds ratio
0.8177861
> x <- matrix(c(261,163,342,402,229,219),ncol=3,byrow=T)
> x
[,1] [,2] [,3]
[1,] 261 163 342
[2,] 402 229 219
> chisq.test(x)
Pearson’s Chi-squared test
data: x
X-squared = 63.8728, df = 2, p-value = 1.350e-14
109
第 14 章 独立性の検定
110
> fisher.test(x)
Fisher’s Exact Test for Count Data
data: x
p-value = 1.162e-14
alternative hypothesis: two.sided
> x <- matrix(c(315,108,101,32), ncol=2, byrow=T)
> x
[,1] [,2]
[1,] 315 108
[2,] 101
32
> chisq.test(x)
Pearson’s Chi-squared test with Yates’ continuity correction
data: x
X-squared = 0.0513, df = 1, p-value = 0.8208
> x <- matrix(c(56,6759,272,11396), ncol=2, byrow=T)
> x
[,1] [,2]
[1,]
56 6759
[2,] 272 11396
> chisq.test(x)
Pearson’s Chi-squared test with Yates’ continuity correction
data: x
X-squared = 55.3714, df = 1, p-value = 9.978e-14
> x <- matrix(c(10,3,2,15), ncol=2, byrow=T)
> x
[,1] [,2]
[1,]
10
3
[2,]
2
15
> chisq.test(x)
14.6. R によるカイ 2 乗検定
Pearson’s Chi-squared test with Yates’ continuity correction
data: x
X-squared = 10.4581, df = 1, p-value = 0.001221
> fisher.test(x)
Fisher’s Exact Test for Count Data
data: x
p-value = 0.0005367
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
2.753438 300.682787
sample estimates:
odds ratio
21.30533
111
113
第 15 章 相関
散布図と相関係数
15.1
摂取塩分量と血圧の関係,年平均気温と年間降水量,日射量とコムギの収量など2つ
の変数 X, Y 間の関係を調べる問題は数多い.2変数の間の関係を調べようとするとき,
始めに散布図と呼ばれるグラフを描いて,変数 X, Y 間関係の質的な性質を視覚的に調
べ,次に関係の強さを数値で表すために,相関係数を計算するのがふつうである.
15.1.1
例
小学校 5 年の児童 12 名に国語 X と算数 Y の学力検査を実施したところ,下の表の
ような結果が得られた(架空のデータ).散布図を描き,また相関係数を求めて,X, Y
の関係について論ぜよ.
児童名
A
B
C
D
E
F
G
H
I
J
K
L
(解)
国語(X )
50
54
56
59
60
62
61
65
67
71
71
74
算数(Y )
22
25
34
28
26
30
32
30
28
34
36
40
上の表を,Excel のシートの A1:C13 に入力したとする.
• 散布図の描き方.
1. メニュー【挿入】【散布図】を実行し,5 種類の図の中から左上の図を選択
する.
2. メニュー【データの選択】を実行し,
【グラフデータの範囲】では B2:C13 を
選ぶ.
第 15 章 相関
114
• 相関係数の求め方.
1. メニュー【データ】【データ分析】を実行し,
【分析ツール】から「相関」を
選択する.
2. メニュー【入力範囲】では B2:C13 を選ぶ.
散布図は次のようになる.このグラフより,国語の得点が高い児童は算数の得点も高
くなる「傾向」が見て取れる.
また相関係数は r = 0.784 となるので,国語と算数の得点には「強い相関がある」と判
断できる.
15.1.2
正の相関と負の相関
一方の変数が大きくなれば他方の変数も大きくなる(小さくなれば小さくなる)とき
正の相関があると言い,逆に,一方の変数が大きくなれば他方の変数も小さくなる(小
さくなれば大きくなる)とき負の相関があると言う.
15.1. 散布図と相関係数
115
正の相関関係
X の値が増加するにつれて Y の値も増加する
負の相関関係
X の値が増加するにつれて Y の値は減少する
曲線相関
X と Y に直線的な関係はないが,一定の関係がある
無相関
X と Y の間には何の関係も認められない
15.1.3
相関係数
相関係数(r で表す)は相関の強さを表す.
• −1
r
1
• 正の相関がある場合 r > 0 であり,逆に,負の相関がある場合 r < 0 である.
• (現実のデータではありえないことであるが)もし r = 1 であるならば,散布図
においてデータを表す点は傾きが正の直線上にのり,逆に,もし r = −1 である
ならば,散布図においてデータを表す点は傾きが負の直線上にのる.
普通,相関の強さを,相関係数の値の大小によって,次のように判断している(これ
は,あくまでも慣習である).
負の相関
−1 ∼ −0.7
−0.7 ∼ −0.4
−0.4 ∼ −0.2
−0.2 ∼ 0
15.1.4
相関の強さの判定
強い相関がある
中程度の相関がある
弱い相関がある
ほとんど相関がない
正の相関
+1 ∼ +0.7
+0.7 ∼ +0.4
+0.4 ∼ +0.2
+0.2 ∼ 0
レポート問題
*下の各問題で,描いた散布図の傍に,求めた相関係数を記し,それを印刷して提出せ
よ.ただし印刷枚数は各問題で 1 枚にせよ.
第 15 章 相関
116
問題 1 次の表は鹿児島県内の幾つかの地点の標高 X と年平均気温 Y (1981 ∼ 2010
年間の平均気温)を表している.1 散布図を描き,また相関係数を求めて,X, Y の関係
について論ぜよ.
地点
鹿児島
喜入
指宿
枕崎
加世田
東市来
川内
さつま柏原
阿久根
大口
溝辺
牧之原
輝北
志布志
鹿屋
肝付前田
内之浦
田代
標高
3.9
4
5
29.5
9
40
5
59
40.1
175
272
387
360
70
80
31
8
182
年平均気温
18.6
18.2
18.1
18.1
17.7
16.9
17.0
16.5
17.2
15.3
15.9
15.2
15.5
16.8
17.3
17.3
18.1
16.2
問題 2 つぎの表は,プロ野球の試合 50 について,勝ったチームの得点 X ,負けたチー
ムのエラー数 Y ,勝ったチームのヒット数 Z を調べたものである.X, Y ,Y, Z ,Z, X
のそれぞれの組合せに対して,散布図を描き,また相関係数を求めて,X, Y, Z の関係
について論ぜよ.
(注意)Excel で散布図を描くときは,X, Y, Z のうち 2 つずつ選んで,3 回グラフを描
く必要がある.しかし,相関係数を求めるときは,X, Y, Z を一度に選んで,計算する
ことができる.
1
気象庁 http://www.jma.go.jp/jma/menu/report.html より「過去の気象データ検索」のページから
得たデータ
15.2. 相関係数の数学的背景
X
Y
Z
X
Y
Z
X
Y
Z
X
Y
Z
2
0
8
6
1
6
6
1
8
1
0
8
1
1
7
3
0
6
2
1
8
9
2
7
7
1
8
5
0
6
5
0
8
3
1
9
117
2
2
6
2
0
11
7
2
14
1
0
9
5
2
12
2
2
5
9
2
10
3
0
11
3
1
8
1
1
5
7
2
16
4
0
8
2
2
4
4
0
13
5
1
10
9
2
17
1
0
4
5
1
10
6
3
13
2
3
9
1
1
5
2
1
4
1
2
5
4
2
10
2
2
7
1
0
5
6
4
9
3
1
8
1
0
5
3
3
11
4
0
13
2
1
6
8
2
14
1
0
8
2
1
9
1
0
6
2
1
3
6
2
12
問題 3 ファイル ”H23-center.xls” には,平成 23 年度にある大学を受験した生徒の,セ
ンター入試の得点(「国語」得点 X ,
「数学」得点 Y ,
「英語」得点 Z )が掲載されている
(「国語」「数学」「英語」はそれぞれ 200, 100, 200 点満点である).X, Y ,Y, Z ,Z, X
のそれぞれの組合せに対して,散布図を描き,また相関係数を求めて,X, Y, Z の関係
について論ぜよ.
15.2
相関係数の数学的背景
15.2.1
相関係数の定義
2つの量(正確には確率変数) (X, Y ) に対して,n 個のデータ(正確には標本と言
うべきである)
(x1 , y1 ), (x2 , y2 ), · · · , (xn , yn )
が観測されたとする.それぞれの標本平均を
n
1 ∑
µX =
xi ,
n i=1
n
1 ∑
µY =
yi
n i=1
(15.1)
を考える.
• もし X が増加するとき Y も増加する傾向があるならば(「正の相関」がある場合),
– 差 xi − µX が正のとき,差 yi − µY は正になる傾向があり,
– 逆に,差 xi − µX が負のとき,差 yi − µY は負になる傾向がある.
したがって,積 (xi − µX )(yi − µY ) は正の値になる傾向がある.
第 15 章 相関
118
• もし X が増加するとき Y は減少する傾向があるならば(「負の相関」がある場合),
– 差 xi − µX が正のとき,差 yi − µY は負になる傾向があり,
– 逆に,差 xi − µX が負のとき,差 yi − µY は正になる傾向がある.
したがって,積 (xi − µX )(yi − µY ) は負の値になる傾向がある.
したがって,上の積の和(標本共分散と呼ばれる)
sXY
n
1 ∑
=
(xi − µX )(yi − µY )
n i=1
(15.2)
「正の相関」がある場合は正になりやすく,
「負の相関」がある場合は負になりやすい.す
なわち,量 sXY は X, Y の相関の傾向と強さを表す,良い目安となる.
ところが,この量 sXY には,まだ欠陥がある.たとえば,マウスの体長 X と尾長 Y
の関係を調べたい場合,長さを mm で測定した場合の sXY の値は,長さを cm で測定
した場合の sXY の値の 102 = 100 倍になる.同様に,長さをインチで測定した場合の
sXY の値は,長さを cm で測定した場合の sXY の値の約 1/2.542 倍になる.しかし,相
関の傾向と強さを表す量が,測定の単位に依存するのは不合理であろう.
この不合理を解消するためには,X と Y のそれぞれの散らばりを表す量である標本
標準偏差
n
n
1 ∑
1 ∑
2
sX =
(xi − µX ) , sY =
(yi − µY )2
(15.3)
n i=1
n i=1
を利用するとよい.たとえばマウスの例の場合,長さを mm で測定したときの sX , sY
の値はどちらも,長さを cm で測定したときの値の 10 倍になる.そこで,量
r=
sXY
sX · sY
(15.4)
を考えると,この量は 測定の単位に依存しない ことがわかる.この量 (15.4) を相関係
数(正確には標本相関係数)と呼ぶ.
15.2.2
データの標準化
相関係数 r の定義式 (15.4) は次のように書き直すことができる.
n
1 ∑ xi − µX yi − µY
·
.
r=
n i=1
sX
sY
15.2. 相関係数の数学的背景
119
xi − µ X
yi − µY
および
たちは,単位の無い量 であることに
sX
sY
注意しよう.このような量は無次元であると言う.たとえば X, Y がマウスの体長と尾
長である場合,これらは「長さ」の次元を持っているが,相関係数 r は無次元である.
また,たとえば X, Y が地点の標高と年平均気温である場合,これらはそれぞれ「長さ」
と「温度」の次元を持っているが,相関係数 r はやはり無次元である.これは相関係
数が持っている非常に重要な性質で,この性質があるために,異なった種類(次元)の
データ間の相関係数の大小の比較を行うことができる.
xi − µ X
元の量 xi から,無次元の量
を作り出す操作のことを,データの標準化と
sX
言う.
この式に現れる「比」
15.2.3
相関係数の数学的性質
1. 始めに,相関係数 r が性質 |r|
n
1 ∑
(xi − µX )(yi − µY )
n i=1
1 を満たす事を証明する.そのためには,
n
1 ∑
(xi − µX )2 ×
n i=1
n
1 ∑
(yi − µY )2
n i=1
を示せばよい.すなわち,両辺を 2 乗して,さらに n2 倍した不等式
( n
)2 ( n
)( n
)
∑
∑
∑
(xi − µX )(yi − µY )
(xi − µX )2
(yi − µY )2
i=1
i=1
i=1
を示せばよい.しかし,この式は xi − µX = ai , yi − µy = bi と置いてみれば,
( 2
)(
)
(a1 b1 + a2 b2 + · · · + an bn ))2
a1 + a22 + · · · + a2n b21 + b22 + · · · + b2n
と書き直せるから,有名なコーシー・シュワルツの不等式にすぎない.
2. 次に,|r| = 1 であるとき,n 個の点 (xi , yi ) は一直線の上に乗る事を証明する.
|r| = 1 であるのは,コーシー・シュワルツの不等式で等号が成り立つ場合である.良く
知られているように,コーシー・シュワルツの不等式で等号が成り立つのは,ある定数
k が存在して,
b1 = ka1 , b2 = ka2 , · · · , bn = kan
となる場合である.すなわち,すべての i = 1, 2, · · · , n に対して,
yi − µY = k(xi − µX )
が成り立っている.これは,n 個の点 (xi , yi ) すべてが,直線
y − µY = k(x − µX )
120
第 15 章 相関
上に乗る事を意味している.
問題 4(難) n 個の点 (xi , yi ) から,直線 y = ax + b までの距離を li で表すことにす
る.距離の平方の和
l12 + l22 + · · · + ln2
が最小になるような a, b を求めよ.
15.3. 相関係数の誤用
15.3
121
相関係数の誤用
例 1 次の表は,世界の諸都市での1月の気温と7月の気温(月平均気温の平年値)を
表している.ただし,
「半球」の項目はその都市が北半球にあるか南半球にあるかを示し
ている.
オスロ
ロンドン
パリ
リヨン
マルセーユ
マドリード
ライプチヒ
ベルリン
ウィーン
ローマ
アテネ
イスタンブール
モスクワ
ハバロフスク
キエフ
バグダッド
テヘラン
カブール
ニューデリー
香港
1月
-7.5
3.6
3.3
2.4
6.3
5.8
0.6
-0.2
-0.8
7.9
9.4
5.6
-9.5
-21.5
-5.3
10.1
3.2
-1.7
14.2
15.6
7月
15.2
16.1
18.2
20.3
23.3
24.0
17.4
18.7
19.7
23.6
27.1
23.2
18.4
20.9
19.7
35.1
29.4
24.7
31.0
28.6
半球
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
台北
バンコク
シンガポール
ハルピン
北京
カサブランカ
アレクサンドリア
バンクーバー
ニューヨーク
ナイロビ
ダルエスサラーム
ケープタウン
サンパウロ
リマ
クスコ
ブエノスアイレス
ブリスベーン
シドニー
ジャカルタ
1月
14.8
26.2
25.6
-19.7
-4.6
12.7
13.6
2.5
0.0
1.8
27.5
20.4
21.8
21.6
13.1
24.1
24.9
22.3
26.2
7月
28.6
28.7
26.9
22.5
25.9
22.2
26.2
17.3
24.7
15.4
23.6
11.8
15.6
16.0
12.2
11.2
15.0
12.4
26.8
半球
N
N
N
N
N
N
N
N
N
S
S
S
S
S
S
S
S
S
S
この例では,散布図を描いても,1月の気温と7月の気温の間に相関を見て取ること
ができない.また計算した相関係数の値も非常にほとんどゼロで,これも相関が無いこ
とを示している.
しかし,北半球にある都市に限って散布図を描くと,正の相関を見て取ることができ
る.また相関係数の値も 0.5 よりも大きく,これはかなりの程度の相関があることを示
している.
このように,北半球の都市と南半球の都市という 異なる母集団を混在させる誤り を
犯したため,現実に存在する相関が見えなくなった ことがわかる.
第 15 章 相関
122
例2
次の表は,年間収入階級別の一月当たり食料費支出を表している.2
年間収入階級
200 万未満
200 万以上 250 万未満
250∼300
300∼350
350∼400
400∼450
450∼500
500∼550
550∼600
600∼650
650∼700
700∼750
750∼800
800∼900
900∼1000
1000∼1250
1250∼1500
1500 万以上
1 か月の収入 1 か月の食料費支出
131,667
40,037
188,333
52,928
229,167
54,458
269,167
56,293
310,833
59,142
352,500
60,248
394,167
63,474
436,667
66,154
477,500
65,505
517,500
71,194
560,000
71,951
600,833
72,460
644,167
76,383
703,333
76,719
787,500
83,961
917,500
87,942
1133,333
88,454
1653,333
102,116
「1 か月の収入」X と「1 か月の食料費支出」Y の散布図は次のようになり,X, Y の間
には強い相関が見て取れる.
2
2010 年度『家計調査』による統計表「年間収入階級別(全国・都市階級)二人以上の世帯」”a206-1.xls”
による.なお,上の表の「1 か月の収入」には,元の統計表の「年間収入(万円)」の値を 12 で割った値
である.
15.3. 相関係数の誤用
123
しかし,観察されたこの強い相関は元の X, Y の相関ではなく,それらの階級別平均値
の間の相関にすぎない.平均という人工的操作により作り出された架空の相関 である.
例3
(1) ある中学校の期末試験で,3年生(生徒数 150 名)の社会の得点 X と理科の得点
Y の関係を調べたところ,相関係数が 0.6 というかなり高い値を示したと言う.しかし
この証拠だけから,社会と理科の学力の間に何か直接的な関係があると推測してはいけ
ない.念のために,期末試験直前の勉強時間 Z も調べたところ,X, Z の相関係数およ
び Y, Z の相関係数は,ともに 0.8 程度の非常に高い値であることがわかった.すなわ
ち,勉強時間 Z が長いほど,二つの科目の得点 X, Y が高くなる傾向があった.した
がって,社会と理科の学力の間に直接の関係があるわけではない,と考えるべきである.
はじめに観測された相関は 見かけ上の相関 であり,真の原因は別にあった.
(2) 血圧 X と所得 Y の間には正の相関があると思われる.しかし,この2つの量のそ
れぞれは,たとえば年齢(または摂取エネルギー量)Z との間に真の相関がある,と考
えられる.すなわち,年齢 Z が高いとき,血圧 X と所得 Y は高くなる傾向があり,
X, Y の間に見かけ上の相関が発生する.
(3) 日本の砂糖輸入量 X と溺死者数 Y の年度別データを調べると,この間には負の相
関があると思われる(実際のデータは調べていない).しかし,この2つの量のそれぞ
れは,年度 Z との間に真の相関がある,と考えられる.すなわち,年度 Z が進む(大
きくなる)とき,日本の砂糖輸入量 X は増える傾向があり,かつ溺死者数 Y は減る傾
向があるために,X, Y の間に見かけ上の相関が発生する.
例4
(1) ある大学で入学試験の成績 X と入学後の成績 Y の相関係数 r を計算したところ,
r = 0.2 と小さい値であった(ほとんど無相関であった).小さい相関が生じた理由は,合
格者だけを対象に調査したからである.もし不合格者も含めて調査したならば(現実には
不可能であるが),大きい相関が得られたはずである.このように,もし母集団全体に対
して調査すれば大きい相関が得られるような場合でも,部分集団に対する相関は小さい
ことがありうる.
(2) ある市の中学生と高校生に対して(中学生の学年を X = 1, 2, 3,高校生の学年を
X = 4, 5, 6 と考えることにする),知っている英単語の個数 Y を調査した.X, Y の相
関係数 r を計算したところ,r = 0.6 とかなり大きい値になった.しかし,もし高校生
だけを調査したら,相関係数の値はもっと小さな値になるであろう.
第 15 章 相関
124
15.4
データがクロス集計表で与えられている場合
興味深いデータはクロス集計表の形態で公開される場合が多い.集計されていない
データは,量が膨大になるので扱いにくいし,また個人情報保護の観点から公開できな
いこともあるからである.
15.4.1
例
ゴルトン『自然遺伝』(1889 年)で扱われた歴史的に有名な例を考える(これは次章
の内容である「回帰分析」の歴史上最初の例である).
親の身長を X ,子の身長を Y とする.ただし,身長の単位はインチ(1 インチ =
約 2.54cm)であり,また女性の身長にはすべて 1.08 をかけてある.さらに,親の身長
が 63.5 の列は元のデータでは親の身長が 64.5 未満として集計されたものであり,親の
身長が 73.5 の列は元のデータでは親の身長が 72.5 以上として集計されたものである
(子についても同様である).また空欄は度数がゼロであることを示している.
Y
61.2
62.2
63.2
64.2
65.2
66.2
67.2
68.2
69.2
70.2
71.2
72.2
73.2
74.2
63.5
1
2
4
1
2
2
1
1
64.5
1
1
4
4
1
5
5
0
2
65.5
1
9
5
7
11
11
7
7
5
2
1
66.5
67.5
3
3
5
2
17
17
14
13
4
3
5
14
15
36
38
28
38
19
11
4
X
68.5
1
7
11
16
25
31
34
48
21
18
4
3
69.5
70.5
1
1
16
4
17
27
20
33
25
20
11
4
5
1
1
1
3
12
18
14
7
4
3
3
71.5
72.5
1
3
4
3
5
10
4
9
2
2
1
2
1
2
7
2
4
73.5
1
3
データがクロス集計表で与えられている場合,もし散布図を描くことにすると,各点
は度数だけ重複して描かれることになるから,散布図は不適切なグラフである(たとえ
ば (X, Y ) = (65.5, 63.2) の場所に描かれる点は,度数 9 だけ重なっている).そこで代
わりに,等高線グラフを描くことにする.
1. 上の表の X の階級値を,シート ”ゴルトン” のセル B1:L1 に,Y の階級値を
A2:A15 に,また度数を B2:L15 に入力したとする.
2. グラフを描くデータ範囲 A1:L15 をあらかじめ選択しておく(グラフの目盛を表
示するために,階級値が記入されている範囲も選択する).
15.4. データがクロス集計表で与えられている場合
125
3. メニュー【挿入】【等高線】を実行し,4 種類の図の中から左から 3 番目の図を選
択する.
Excel の分析ツールを用いて相関係数を計算するためには,X, Y のデータは一列(ま
たは一行)に並んでいなければならないが,与えられたデータはそうなっていない.そ
こで相関係数を計算するためのマクロを作成した.
1. シート「ゴルトン」に,階級値および度数のデータを入力する.
2. シート「相関」を開くと,入力フォームが表示されるので,データのあるシート
名(今の場合は「ゴルトン」),および 階級値を除いた 表の行数と列数を入力する
(今の場合は 14 と 11).
3. 「計算」ボタンをクリックすると,相関係数が計算されて表示される.
15.4.2
レポート課題
*下の各問題で,描いた等高線図の傍に,求めた相関係数を記し,それを印刷して提出
せよ.ただし印刷枚数は各問題で 1 枚にせよ.
問題 5 全国の日本人から 1000 人のランダムサンプルを取り出して調査した結果によ
れば,漢字の読みと漢字の書き取りの点数は,下の表のようになった.等高線グラフを
描き,相関係数を求めて,X, Y の関係について論ぜよ.
0 1
0 30 14
1
2
2
3
書き 4
1
5
6
7
1
8
読み
2 3
20 5
5 10
4
7
4
5
11
6
19 20
19 33
12 50
12 96
1 6 144
6 185
199
82
問題 6 つぎの表は,ある小学校で,知っている色の名前の個数を調査した結果を示し
たものである.等高線グラフを描き,相関係数を求めて,X, Y の関係について論ぜよ.
第 15 章 相関
126
学年
2
1
2
3
4
5
6
3 4 5 6
13 7 13 6
7
40
3
8
10
7
9
11
3
個数
10 11
3
3
3
2
1
7
7
13
7
3
7
3
12
13
14
15
16
17
18
18
10
15
13
19
7
23
27
13
23
20
23
24
16
29
13 10
23 11
25
13 18 10
13 3 3
3
3
127
第 16 章 センター試験問題
以下の問題において,
• たとえば
には 1 桁の整数で,
• たとえば
には 2 桁の整数で解答せよ.
には小数第 2 位を四捨五入した小数第 1 位までの数で,
.
には小数第 3 位を四捨五入した小数第 2 位までの数で,解答せよ.
.
• たとえば
(a)
には,その直後の選択肢から解答せよ.
問題 7(2010 年度「数学 II・B」) 次の表は,高等学校のある部に入部した 20 人の生
徒について,右手と左手の握力(単位 kg)を測定した結果である.測定は 10 人ずつの
二つのグループについて行われた.ただし,表中の数値はすべて正確な値であり,四捨
五入されていないものとする.
第1グループ
番号
右手の
握力
左手の
握力
1
2
3
4
5
6
7
8
9
10
平均値
中央値
分散
50
52
46
42
43
35
48
47
50
37
A
46.5
29.00
49
48
50
44
42
36
49
41
50
36
44.5
46.0
27.65
第2グループ
左右の
握力の
平均値
49.5
50.0
48.0
43.0
42.5
35.5
48.5
44.0
50.0
36.5
44.75
番号
右手の
握力
左手の
握力
11
12
13
14
15
16
17
18
19
20
平均値
中央値
分散
31
33
48
42
51
49
39
45
45
47
43.0
45.0
41.00
34
31
44
38
45
B
33
41
C
42
D
40.5
26.25
左右の
握力の
平均値
32.5
32.0
46.0
40.0
48.0
E
36.0
43.0
F
44.5
41.25
第 16 章 センター試験問題
128
(1) 第1グループに属する 10 人の右手の握力について,平均値は A は
kg である.また,20 人全員の右手の握力について,平均値は M は
中央値は
.
.
kg,
.
kg である.
(2) 右手の握力について,20 人全員の平均値 M からの偏差の 2 乗の和を,二つのグルー
プのそれぞれについて求めると,第1グループでは
であり,第2グルー
プでは 420 である.したがって,20 人全員の右手の握力について,標準偏差 S の値は
.
である.
(3) t を正の実数とする.20 人全員の右手の握力の平均値 M と標準偏差 S を用いて,
M − tS より大きく M + tS より小さい範囲を考える.
20 人全員の中で,右手の握力がこの範囲に入っている生徒の数を N (t) とするとき,
であり,N (2) =
N (1) =
である.
(4) 第2グループに属する 10 人の左手の握力について,平均値 D は
あり,中央値が 40.5 kg であるから,B の値は
kg,C の値は
.
で
kg で
ある.ただし B の値は C の値より大きいものとする.これより,E と F の値も定まる.
(5) 20 人の各生徒について,右手と左手の握力の平均値と,右手と左手の握力の差の絶
対値を求めた.握力の平均値については,最初にあげた表の「左右の握力の平均値」の
列に示している.
握力の平均値を横軸に,握力の差の絶対値を縦軸にとった相関図(散布図)として適
切なものは
(a)
の 20 人については,
(a)
であり,相関係数の値は
(c)
(b)
に最も近い.したがって,こ
.
に当てはまるものを,次の ⃝
0 ∼⃝
4 より一つ選べ.
129
(b)
に当てはまるものを,次の ⃝
0 ∼⃝
3 より一つ選べ.
⃝
0 −0.9 ⃝
1 −0.5 ⃝
2 0.0 ⃝
3 0.5 ⃝
4 0.9
(c)
に当てはまるものを,次の ⃝
0 ∼⃝
2 より一つ選べ.
⃝
0 握力の平均値が増加するとき,握力の差の絶対値が増加する傾向が認められる
⃝
1 握力の平均値が増加するとき,握力の差の絶対値が増加する傾向も
減少する傾向も認められない
⃝
2 握力の平均値が増加するとき,握力の差の絶対値が減少する傾向が認められる
第 16 章 センター試験問題
130
問題 8(2009 年度「数学 II・B」) 下の表は,10 名からなるある少人数クラスを I 班
と II 班に分けて,100 点満点で 2 回ずつ実施した数学と英語のテストの得点をまとめ
たものである.ただし,表中の平均値はそれぞれ 1 回目と 2 回目の数学と英語のクラ
ス全体の平均値を表している.また,A, B, C, D の値はすべて整数とする.
班
番号
1
2
I
3
4
5
1
2
II
3
4
5
平均値
1 回目
数学 英語
40
43
63
55
59
B
35
64
43
36
A
48
51
46
57
71
32
65
34
50
45.0
E
2 回目
数学 英語
60
54
61
67
56
60
60
71
C
80
D
50
54
57
59
40
49
42
57
69
58.9 59.0
(1) 1 回目の数学の得点について,I 班の平均値は A は
.
点である.ま
た,クラス全体の平均値は 45.0 点であるので,II 班の 1 番目の生徒の数学の得点 A は
点である.
(2) II 班の 1 回目の数学と英語の得点について,数学と英語の分散はともに 101.2 であ
る.したがって,相関係数は
.
点である.
(3) 1 回目の英語の得点について,I 班の 3 番目の得点 B がわからないとき,クラス全
体の得点の中央値 M の値として
通りの値があり得る.
実際は,1 回目の英語の得点のクラス全体の平均値が 54.0 点であった.したがって
Bは
点と定まり,中央値は
.
点である.
(4) 2 回目の数学の得点について,I 班の平均値は II 班の平均値より 4.6 点大きかった.
したがって,I 班の 5 番目の生徒の得点 C から II 班の 1 番目の生徒の得点 D を引い
た値は
点である.
131
(5) 1 回目のクラス全体の数学と英語の得点の相関図(散布図)は,
回目のクラス全体の数学と英語の得点の相関図(散布図)は,
(b)
(a)
であり,2
である.また,
1 回目のクラス全体の数学と英語の得点の相関係数を r1 ,2 回目のクラス全体の数学と
英語の得点の相関係数を r2 とするとき,値の組 (r1, r2 ) として正しいのは
ある.
(a)
,
(b)
(c)
で
に当てはまるものを,それぞれ次の ⃝
0 ∼⃝
3 のうちから一
つずつ選べ.
また,
(c)
に当てはまるものを,次の ⃝
0 ∼⃝
3 のうちから一つ選べ.
第 16 章 センター試験問題
132
⃝
0 (0.54, 0.20) ⃝
1 (−0.54, 0.20) ⃝
2 (0.20, 0.54) ⃝
3 (0.20, −0.54)
(6) 2 回目のクラス全体 10 名の英語の得点について,採点基準を変更したところ,得点
の高い方から 2 名の得点が 2 点ずつ下がり,得点の低い方から 2 名の得点が 2 点ずつ
上がったが,その他の 6 名の得点には変更は生じなかった.このとき,変更後の平均値
は
(d)
する.また,変更後の分散は
(e)
する.
(d)
,
はまるものを,それぞれ次の ⃝
0 ∼⃝
2 のうちから一つずつ選べ.
⃝
0 変更前より減少
⃝
1 変更前と一致 ⃝
2 変更前より増加
(e)
に当て
133
問題 9(2008 年度「数学 II・B」) ある都市におけるある年の月ごとの最低気温を変量
x,最高気温を変量 y とする.ただし,単位は C◦ とし,最低気温と最高気温は,一日
の最低気温と最高気温について月ごとに平均をとり,小数第 1 位を四捨五入したものと
する.
次の図は,変量 x と変量 y の相関図(散布図)である.
(1) 1 月から 12 月までの変量 x は次のとおりであった.
−12, −9, −3, 3, 10, 17, 20, 19, 15, 7, 1, −8
この 12 個の値の平均値は
.
C◦ ,中央値は
.
C◦ である.
(2) 1 月から 12 月までの 12 か月を,変量 x が 0 C◦ 未満の四つの月からなる A グルー
プと,0 C◦ 以上の八つの月からなる B グループとに分けて分析した.このとき,A グ
ループにおける変量 x の平均値は
.
C◦ であり,分散は
.
で
ある.
また,A グループにおける変量 y の平均値は 6.0 C◦ で,B グループにおける変量
y の平均値は 21.5 C◦ であった.このとき,1 月から 12 月までの変量 y の平均値は
.
C◦ である.
変量 x と変量 y の相関図のデータの中で,入力ミスが見つかった.変量 x の値が 7
C ,変量 y の値が 30 C◦ となっている月の変量 y の値は,正しくは 18 C◦ であった.
◦
第 16 章 センター試験問題
134
(3) この誤りを修正すると,変量 y の平均値は
の分散は
(a)
する.ただし,
C◦ 減少する.また,変量 y
.
については,当てはまるものを,次の ⃝
0
(a)
∼⃝
2 のうちから一つ選べ.
⃝
0 修正前から増加
(4) 修正前の変量 y の中央値は
(c)
⃝
1 修正前から減少
(b)
⃝
2 修正前と一致
C◦ (小数第 1 位まで)であるが,修正後には
C◦ (小数第 1 位まで)となる.
(b)
,
(c)
の数値として適当なもの
を,相関図を参考にして,次の ⃝
0 ∼⃝
3 のうちから一つ選べ.
⃝
0 13.5 ⃝
1 15.0 ⃝
2 16.5 ⃝
3 18.0
(5) 誤りを修正した後の寒暖の差(最高気温と最低気温の差)を変量 z = y − x とする.
変量 z の平均値は
のは
(d)
.
である.ただし,
⃝
3 のうちから一つ選べ.
C◦ であり,変量 x と変量 z の相関図として適当なも
(d)
については,当てはまるものを,次の ⃝
0 ∼
135
(6) この都市の 1 月から 12 月までの最低気温 x と寒暖の差 z について,
いう傾向があると考えられる.
(e)
(e)
と
に当てはまるものを,次の ⃝
0 ∼⃝
4 のうちか
ら一つ選べ.
⃝
0
⃝
1
⃝
2
⃝
3
⃝
4
正の相関があり,最低気温が高い月ほど寒暖の差が大きい
正の相関があり,最低気温が低い月ほど寒暖の差が大きい
負の相関があり,最低気温が高い月ほど寒暖の差が大きい
負の相関があり,最低気温が低い月ほど寒暖の差が大きい
相関関係はほとんどなく,最低気温によって寒暖の差は影響を受けない
問題 10(2008 年度「数学 II・B」) 次の表は,P 高校のあるクラス 20 人について,数
学と国語のテストの得点をまとめたものである.数学の得点を変量 x,国語の得点を変
第 16 章 センター試験問題
136
量 y で表し,x, y の平均値をそれぞれ x, y で表す.ただし,表の数値はすべて正確な
値であり,四捨五入されていないものとする.
生徒番号
1
2
3
..
.
x
62
56
58
..
.
y
63
63
58
..
.
x−x
3.0
−3.0
−1.0
..
.
(x − x)2
9.0
9.0
1.0
..
.
y−y
2.0
2.0
−3.0
..
.
(y − y)2
4.0
4.0
9.0
..
.
(x − x)(y − y)
6.0
−6.0
3.0
..
.
18
19
20
合計
平均
中央値
54
58
57
A
B
57.5
62
60
63
1220
61.0
62.0
−5.0
−1.0
−2.0
0.0
0.0
−1.5
25.0
1.0
4.0
1554.0
77.2
30.5
1.0
−1.0
2.0
0.0
0.0
1.0
1.0
1.0
4.0
516.0
25.8
9.0
−5.0
1.0
−4.0
−748.0
−37.4
−14.0
(1) 生徒番号 1 の生徒の x − x の値が 3.0 であることに着目すると,表中の B の値は
.
であり,A の値は
(2) 変量 x の分散は
.
である.
である.
(3) z = x + y とおくと,この場合の変量 z の平均値 z は
.
である.
また,変量 z の分散は
(z − z)2 = (x − x)2 + (y − y)2 + 2(x − x)(y − y)
の平均であるから
(z の分散)
が成り立つ.ただし,
(a)
(a)
{(x の分散) + (y の分散)}
については,当てはまるものものを,次の ⃝
0 ∼⃝
2 の
うちから一つ選べ.
⃝
0 > ⃝
1 = ⃝
2 <
(4) 変量 x と変量 y の相関図(散布図)として適切なものは,相関関係,平均値,中央
値に注意すると,
(b)
(b)
である.ただし,相関図(散布図)中の点は度数 1 を表す.
に当てはまるものを,次の ⃝
0 ∼⃝
3 のうちから一つ選べ.
137
さらに P 高校の 20 人の数学の得点と Q 高校のあるクラス 25 人の数学の得点を比
較するために,それぞれの度数分布表を作ったところ,次のようになった.
階級
35 ∼ 39
40 ∼ 44
45 ∼ 49
50 ∼ 54
55 ∼ 59
60 ∼ 64
65 ∼ 69
70 ∼ 74
75 ∼ 79
計
P 高校
0
0
3
4
6
3
1
0
3
20
Q 高校
5
5
0
0
0
10
2
2
1
25
第 16 章 センター試験問題
138
(5) 二つの高校の得点の中央値については,
(c)
.
(c)
に当てはまるものもの
を,次の ⃝
0 ∼⃝
3 のうちから一つ選べ.
⃝
0
⃝
1
⃝
2
⃝
3
P 高校の方が大きい
Q 高校の方が大きい
P 高校と Q 高校で等しい
与えられた情報からはその大小を判定できない
(6) 度数分布表からわかる Q 高校の得点の平均値のとり得る範囲は
.
.
以上
以下である.また,(1) より P 高校の得点の平均値は B であるから,二
つの高校の得点の平均値については,
(d)
.ただし,
(d)
については,当て
はまるものものを,次の ⃝
0 ∼⃝
3 のうちから一つ選べ.
⃝
0
⃝
1
⃝
2
⃝
3
P 高校の方が大きい
Q 高校の方が大きい
P 高校と Q 高校で等しい
与えられた情報からはその大小を判定できない
(7) 次の記述のうち,誤っているもの は
(e)
である.
(e)
に当てはまるもの
ものを,次の ⃝
0 ∼⃝
3 のうちから一つ選べ.
⃝
0
⃝
1
⃝
2
⃝
3
40
54
65
70
点未満の生徒の割合は,Q 高校の方が大きい
点以下の生徒の割合は,Q 高校の方が大きい
点以上の生徒の割合は,Q 高校の方が大きい
点以上の生徒の割合は,P 高校の方が大きい
139
第 17 章 回帰分析
17.1
Excel による回帰分析
2つの変数 X, Y のデータがあるとき,散布図を描き相関係数を計算した結果,この
2つの変数 X, Y の間に「相関あり」と判断されたとしよう.この場合,Y は凡そ X の
1次関数で表すことができる.この1次関数 Y = aX + b は,散布図の中央付近を通る
直線である.この直線のことを回帰直線と呼ぶ.
回帰直線 Y = aX + b を具体的に求め(すなわち「傾き」 a と 「切片」 b を求め),
さらに(散布図において)点たちが回帰直線のまわりにどの程度バラツイテいるかを調
べる分析方法のことを,回帰分析と言う.回帰分析では,変数 X は説明変数,変数 Y
は目的変数と呼ばれている.
17.1.1
例
次の表は J リーグ各チームの 2011 年度の試合結果である.1
1
http://www.j-league.or.jp/data/
第 17 章
140
チーム
ベガルタ仙台
モンテディオ山形
鹿島アントラーズ
浦和レッズ
大宮アルディージャ
柏レイソル
川崎フロンターレ
横浜 F・マリノス
ヴァンフォーレ甲府
アルビレックス新潟
清水エスパルス
ジュビロ磐田
名古屋グランパス
ガンバ大阪
セレッソ大阪
ヴィッセル神戸
サンフッレチェ広島
アビスパ福岡
勝数
13
5
12
6
8
19
11
15
8
9
10
10
16
17
9
10
12
5
得点
37
22
47
31
29
52
45
41
36
33
35
45
55
66
54
35
42
24
回帰分析
失点
24
46
36
35
39
38
48
53
53
35
41
36
32
48
45
41
40
61
始めに,得点を説明変数 X ,勝数を目的変数 Y として,回帰分析を行ってみる.セ
ル B2:B19 に勝数,C2:C19 に得点,D2:D19 に失点のデータを入力したとする.回帰分
析の手順は次のとおりである.
1. メニュー【データ】【データ分析】を実行し,
【分析ツール】から「回帰分析」を選
択する.
2. 【入力 Y 範囲】には B2:B19 を,
【入力 X 範囲】には C2:C19 を指定する.
【一覧の
出力先】は適当に指定する(今回は別シートがよい).また,
【観測値グラフの作
成】にチェックをしておく.
結果は次のようになる.
17.1. Excel による回帰分析
141
• 回帰直線の傾き a とは切片 b は B18, B17 に表示される.したがって回帰直線は
Y = 0.276 X − 0.353 である.
• 回帰直線の傾きは 95% の確率で 0.164 ∼ 0.389 の間にある(これを 95% 信頼区
間と呼ぶ).
• 相関係数は 0.793 であり,また決定係数(回帰直線の周りの点のバラツキ度合い)
は 0.606 である.
• 予測値とは,回帰式 aX + b を用いて求めた各チームの勝数を表している.たと
えば,ベガルタ仙台の勝数は 9.87 (実際は 13 であるが)と予測されている.
• 予測値と名付けられている点の集まりが回帰直線である.
第 17 章
142
回帰分析
同様に,失点を説明変数 X ,勝数を目的変数 Y として,回帰分析を行うと,結果は
次のようになる.
• 回帰直線は Y = −0.194 X + 18.7 である.
• 相関係数は 0.422,決定係数は 0.126 である.
17.1.2
レポート問題
下の各問題において,
17.1. Excel による回帰分析
143
• 回帰直線 Y = aX + b の傾き a と切片 b を求めよ.
• 相関係数 r を求めよ.
• 観測値グラフを描け.
• 以上の結果を印刷して提出せよ.なお,印刷枚数はできるだけ少なくすること.
問題 1 次の表は日本の航空旅客数のデータである(国内旅客数の単位は百万人).2
(1) 元のデータと回帰直線を表すグラフを描け.
(2) 2010 年度の国内旅客数を予測せよ.
年度
国内旅客数
1970 1975 1980 1985 1990 1995 2000
14.7 25.0 40.9 44.4 64.5 78.8 92.9
問題 2 次の表は日本の原子力発電量のデータである(原子力発電量の単位は 10 兆キ
ロカロリー).3
(1) 元のデータと回帰直線を表すグラフを描け.
(2) 2010 年度の原子力発電量を予測せよ.
問題 3 鹿児島県 18 箇所の標高 X と 2011 年 1 月 1 日の平均気温 Y のデータに対し
て,回帰分析を行え(ファイルは ”kion-kadai.xls”).
(1) 元のデータと回帰直線を表すグラフを描け.
(2) 標高が 100 m 高くなったとき,気温は約何度低くなると言えるか?
問題 4 名目賃金の対前年変化率 X と失業率 Y のデータに対して,X を説明変数,Y
を目的変数として回帰分析を行え.
問題 5 東京築地市場でのイワシ上場数量を X と価格を Y とする(上場数量とは、獲
れたイワシのうち、実際に市場で販売にかけられた数量を意味する).このデータに対
して,X を説明変数,Y を目的変数として回帰分析を行え.
2
3
国土交通省「航空輸送統計年報」
資源エネルギー庁「総合エネルギー統計」
第 17 章
144
17.2
回帰分析の数学的背景
17.2.1
平均値の特徴付け
回帰分析
たとえば,二地点の距離を測定して n 個の測定値 xi (i = 1, 2, · · · , n) を得たとする.
距離の真の値を µ で表すことにする.n 個の測定値を用いて,未知の値 µ を推定した
い.そのために,普通は,n 個の測定値の平均(正確には,算術平均)
n
1 ∑
x=
xi
n i=1
を推定値とする.こうすると,測定誤差は xi − x (i = 1, 2, · · · , n) となる.このとき,n
個の測定誤差の和は,正負が打ち消しあって,ゼロとなることに注意しよう.すなわち
n
∑
(xi − x) = 0
i=1
新しい発想で,算術平均でない別の推定値 b を探してみよう.n 個の測定誤差 xi − b
の和を最小にするような b の値を推定値とする発想は,直感的に有望に思われる.しか
し,この単純な考え方では,正負が打ち消しあって,駄目であろう.そこで,測定誤差
の2乗の和
n
∑
Q=
(xi − b)2
i=1
さ最小にするような b を探すことにする.
これは,2次関数の最小を探す,簡単な問題である(変数は ν である).式を下のよ
うに変形する.
Q =
=
n
∑
i=1
n
∑
x2i
− 2b
n
∑
2
xi + b =
i=1
n
∑
x2i − 2nxb + b2
i=1
x2i − x2 + (b − x)2
i=1
これより,Q は b = x のとき最小で,最小値は
Qmin =
n
∑
i=1
x2i − x2 =
n
∑
i=1
(xi −
n
∑
(xi − µ)2 )2
i=1
となる.したがって
測定誤差の2乗の和を最小にする推定値は,じつは平均であり,
また,Qmin /n は分散(= 標準偏差の2乗に等しい
17.2. 回帰分析の数学的背景
17.2.2
145
最小2乗法
最小2乗法は,残差の2乗の和
Q=
n
∑
[yi − (axi + b)]2
i=1
を最小にする a, b を求める.この問題は数学的には,2次関数を最小にする初等的な問
題にすぎない(ただし,変数は a, b の 2 個ある).
はじめに Q を変数 b 『だけ』の2次関数と考える(すなわち変数 a は定数であると
考える).
Q =
n
∑
[(yi − axi ) − b]2 =
n
∑
i=1
=
n
∑
[(yi − axi )2 − 2b(yi − axi ) + b2 ]
i=1
(yi − axi )2 − 2b
i=1
n
∑
(yi − axi ) + nb2
i=1
ここで平均値
n
1 ∑
x=
xi ,
n i=1
n
1 ∑
y=
yi
n i=1
を導入する.すると,変数 b の2次関数を標準形に変形して,
n
Q
1 ∑
=
(yi − axi )2 − 2b(y − ax) + b2
n
n i=1
= [b − (y − ax)]2 +
がえられる.したがって,
Q
は
n
n
1 ∑
(yi − axi )2 − (y − ax)2
n i=1
b = y − ax
(17.1)
のとき最小となり,最小値は
(★)=
n
1 ∑
(yi − axi )2 − (y − ax)2
n i=1
となる.
つぎに式(★)を以下のように変形する:
n
1 ∑ 2
(★) =
(y − 2axi yi + a2 x2i ) − (y 2 − 2axy + a2 x2 )
n i=1 i
(
)
)
(
) (
n
n
n
∑
∑
∑
1
1
1
= a2
x2 − x2 − 2a
xi yi − xy +
y2 − y2
n i=1 i
n i=1
n i=1 i
第 17 章
146
回帰分析
ここで,つぎの『分散』および『共分散』と呼ばれる量を導入する:
s2x
sxy
s2y
n
n
1 ∑
1 ∑ 2
2
xi − x =
(xi − x)2 ,
=
n i=1
n i=1
n
n
1 ∑
1 ∑
=
xi yi − xy =
(xi − x)(yi − y),
n i=1
n i=1
n
n
1 ∑ 2
1 ∑
2
=
y −y =
(yi − y)2
n i=1 i
n i=1
すると式(★)は
(★)= a2 s2x − 2asxy + s2y
のように簡潔に書き表すことができる.
これは変数 a の2次関数だから,これを標準形に変形して,
(
)2
s2x s2y − s2xy
sxy
2
(★)= sx a − 2
+
sx
s2x
をえる.これより,
a=
のとき最小となり,最小値は
sxy
s2x
s2x s2y − s2xy
Qmin
=
n
s2x
(17.2)
(17.3)
である.
以上まとめると,
1. まず平均 x, y を計算し,また分散 s2x , y22 および共分散 sxy を計算する.
2. 回帰直線の傾き a は式 (17.2) により,y 切片 b は式 (17.1) により求める.
17.3
『回帰』の由来
この節では,親の身長と子の身長を例にとって,回帰分析を行ってみよう.これはゴ
ルトン『自然遺伝』(1889 年)で扱われた,歴史上の有名な例である.
親の身長を X ,子の身長を Y とする.ただし,身長の単位はインチ(1 インチ =
約 2.54cm)であり,また女性の身長にはすべて 1.08 をかけてある.さらに,親の身長
が 63.5 の列は元のデータでは親の身長が 64.5 未満として集計されたものであり,親の
身長が 73.5 の列は元のデータでは親の身長が 72.5 以上として集計されたものである
(子についても同様).また空欄は度数がゼロであることを示している.
17.3. 『回帰』の由来
Y
61.2
62.2
63.2
64.2
65.2
66.2
67.2
68.2
69.2
70.2
71.2
72.2
73.2
74.2
63.5
1
2
4
1
2
2
1
1
147
64.5
1
1
4
4
1
5
5
0
2
65.5
1
9
5
7
11
11
7
7
5
2
1
66.5
67.5
3
3
5
2
17
17
14
13
4
3
5
14
15
36
38
28
38
19
11
4
X
68.5
1
7
11
16
25
31
34
48
21
18
4
3
69.5
70.5
1
1
16
4
17
27
20
33
25
20
11
4
5
1
1
1
3
12
18
14
7
4
3
3
71.5
72.5
1
3
4
3
5
10
4
9
2
2
1
2
1
2
7
2
4
73.5
1
3
ところが回帰分析を行うためには,データは下のような形式になっていなければなら
ない.
X
63.5
..
.
..
.
68.5
..
.
Y
61.2
..
.
..
.
69.2
..
.
68.5
..
.
..
.
73.5
..
.
69.2
..
.
..
.
73.2
..
.
73.5
73.2
説明
(63.5, 61.2) の組が 1 個だけ
(68.5, 69.2) の組が 48 個並ぶ
(73.5, 73.2) の組が 3 個並ぶ
148
第 17 章
回帰分析
回帰分析を行った結果,相関係数は 0.46 であり,また回帰直線は Y = 0.645X + 24.0
であることがわかった.ここで,回帰直線の傾き 0.645 が意味するところが重要である.
親の集団の平均身長と子の集団の平均身長がともに 170 cm であるとしよう(データか
ら計算される平均身長は 170 cm と少し異なるが,このことは以下の説明に対して,何
ら問題を引き起こさない).回帰直線の傾きが 0.645 であることから,もしある親の身
長が集団平均より 10 cm 高いとすると,その親から生まれた子の身長は,平均として
集団平均より 6.45 cm だけ高くなる,ことがわかる.逆に,もしある親の身長が集団平
均より 10 cm 低いとすると,その親から生まれた子の身長は,平均として集団平均よ
り 6.45 cm だけ低くなる,ことがわかる.このように,子の身長は集団平均に回帰する.
ゴルトンは,彼が発明した方法(回帰分析)を利用して,この遺伝学上の発見をするこ
とができた.
ところで,データがクロス集計表で与えられている場合,散布図は約に立たない.こ
の場合には,等高線グラフを描くとよい.
問題 平成 21 年の家計調査による,年間収入階級別 1 世帯当たり 1 ヶ月間の収入 X
と,用途分類別(10 項目に大分類)の消費支出額 Y のデータに対して,回帰分析を行
う(ファイルは.”kakei-kadai.xls”,年間収入の単位は万円,消費支出額の単位は円).
(1) 10 項目のそれぞれに対する回帰直線 Y = aX + b を求めよ(グラフは描かない).
(2) 収入が増加したときに,支出額の増加が多い順に 10 項目を並べよ.
17.4. 時系列の回帰分析
17.4
149
時系列の回帰分析
ある量 y が時間 t と共に,ほぼ1次関数にしたがって変化しているとき,この1次関
数 y = at + b を求めるために,回帰分析を利用できる.
(なお y が時間 t と共に変化す
る量であることを明瞭にするために,yt と書くこともある.
)
17.4.1
合計特殊出生率
日本における合計特殊出生率の変化を調べる.4
原時系列のデータは 1950 年から 2008 年まであるが,ここでは 1994 年から 2005 年
までの間の変化を調べてみる.ファイルは ”fertility.xls” である.
1. メニュー【ツール】【分析ツール】【回帰分析】を実行する.
2. 1994 年から 2005 年までのデータはセル A1:B27 に入力されているので,
3. 【入力 Y 範囲】を B13:B24 とし,
【入力 X 範囲】を A13:A24 とする.
4. 出力オプションで【一覧の出力先】を選び,たとえば E1 とする.
5. 計算結果の【係数】の列において,
【切片】の欄(セル F17)に b の値,
【X 値 1】の
欄(セル F18)に a の値が計算される.この例では a = −0.018427, b = 38.2031
である.
「傾き」 a が負であることは,年度とともに合計特殊出生率が減少してい
ることを意味している.
6. 【観測値グラフの作成】のチェックをしておく.
【グラフの種類】は「折れ線」(の
左から 4 番目)がよいであろう.
問 1 1994 年から 2005 年までに見られる合計特殊出生率の変化の傾向が,2005 年以降
も続いたと 仮定する とき,今年度(2011 年)の合計特殊出生率の値を予測せよ.
17.4.2
大気中の CO2 濃度
ハワイにある Mauna Loa 天文台が,1958 年から 2003 年まで毎月に観測した大気中
の CO2 濃度のデータをもとにして,それがどのように変化しているかを調べる.5
濃度の単位は ppm (parts per million, 100 万分の 1 単位) であり,また各月のデータ
とはその月の 15 日のデータのことである.この WEB 上のデータを,Excel に読み込
んだものが,ファイル ”maunaloa.co2.xls” のシート ”source” である.
Excel で回帰分析を行うためには,データは1列 (または1行) に並んでいなければい
けない.ところがシート ”source” のデータは,45 行 12 列の表になっていて,このま
4
5
国立社会保障・人口問題研究所『人口統計資料集』表 4-5
http://cdiac.ornl.gov/ftp/ndp001/maunaloa.co2
第 17 章
150
回帰分析
までは回帰分析を行うことはできない.そこで,このデータを 45 × 12 = 540 行 1 列に
変換したものを,シート ”data” に載せる.
始めに折れ線グラフを描いてみる.これを見ると明らかに,CO2 濃度は一年周期で
変化している,ことがわかる(5 月頃に濃度が高く,10 月頃に濃度が低くなる傾向があ
る.これは植物の光合成の影響である).周期変動を除いた長期的な変化のことトレン
ドと呼ぶ.トレンドが1次関数であると仮定 して,回帰分析を用いてトレンドを推定し
てみよう.
原時系列のデータは 1958 年 7 月から 2003 年 6 月までのものであるが,この時点 t
の指定の仕方(年と月を文字列で指定している)では回帰分析を行うことはできない.
時点 t を数値化されている必要がある.そこで,たとえば 1958 年 1 月 15 日を t = 0,
1959 年 1 月 15 日を t = 1 と決めることにする(観測データは毎月の 15 日のものであ
ることを思い起こそう).すると,たとえば 1958 年の 2 月 15 日,7 月 15 日,12 月
15 日はそれぞれ t = 1/12, 6/12, 11/12 のように数値化され,また 1960 年 7 月 15 日は
t = 2 + 6/12 等のように数値化される.そこで回帰分析を行う前に,次のようにして,
B 列に時点 t を数値化しておく.
1. セル B2 に数値 0 を入力
2. セル B3 に式 =B2+1/12 を入力
3. セル B3 をセル B4:B541 にコピー
次に回帰分析を行う.
1. メニュー【ツール】【分析ツール】【回帰分析】を実行する.
2. 【入力 Y 範囲】を C2:C541 とし,
【入力 X 範囲】を B2:B541 とする.
3. 出力オプションで【一覧の出力先】を選び,たとえば E1 とする.
4. 【観測値グラフの作成】のチェックをしておく.
問 2 回帰分析を行うために,トレンドが1次関数であると仮定した.この仮定は正し
かった,と判断できるだろうか?
17.4.3
日本の国内総生産 GDP の変化
内閣府が発表している,平成 10 年度『国民経済計算』の中に,昭和 30 年第 2 四半期
から平成 11 年第 1 四半期までの国内総生産 GDP (国内で生産された付加価値額の合
計)の時系列データがある.実は,より新しい平成 20 年度『国民経済計算』も発表さ
れていて,こちらには昭和 55 年第 1 四半期から平成 21 年第 1 四半期までの GDP の
時系列データがあるのだが,今回は日本経済の高度成長期(ふつう昭和 30 年から昭和
48 年までの期間とされている)に目を向けたいので,旧いデータを用いることにした.
17.4. 時系列の回帰分析
151
GDP の時系列データを折れ線グラフに描く.グラフを見ると,高度成長期の期間,ト
レンドは直線(1次関数)ではない事を読み取ることができる.
(なお,周期変動の振幅
も増大している事も読み取ることができるが,この観察結果については,しばらく考察
しないでおく.
)ではトレンドはどのような関数となっているだろうか?
ところで経済とは別の事柄であるが,ネズミの集団において個体の生存に環境からの
制約が全くない場合(たとえば食糧の獲得に不自由しない等),ネズミの数は指数関数
的に増加する(和算の「鼠算」の問題).同様に,個々の企業の活動に何ら制約がない
場合(たとえば新しい市場の開拓に不自由しない等),GDP は指数関数的に増加する
と考えられる.だから,高度成長期における GDP も指数関数的に増加する,と考えら
れる.
さて GDP のトレンドは指数関数的に増加すると仮定する とき,GDP の対数の時系
列は直線的(1次関数)に増加する.すなわち
GDP のトレンド = 10at+b
であると仮定すると,
log10 (GDP のトレンド) = at + b
である.そこで,GDP の対数の時系列に対して回帰分析を行ってみよう.
原時系列のデータは 1955 年第 2 四半期から 1966 年第 1 四半期までのものであるの
で,たとえば 1955 年第 1 四半期を t = 0,1956 年第 1 四半期を t = 1 とする.する
と,たとえば 1955 年第 2 四半期は t = 1/4,1966 年第 3 四半期は t = 10 + 2/4 のよ
うに数値化される.
すると次の手順で回帰分析を行うことができる.A 列に時点が,B 列に GDP データ
が入力されているとする.
• C 列に時点 t を数値化した数列を作る.そのためには,
1. セル C1 に数値 0 を入力
2. セル C2 に式 =C1+1/4 を入力
3. セル C2 をセル C3:C44 にコピー
• D 列に GDP の対数を計算する.そのためには,
1. セル D1 に式 =LOG10(B1) を入力
2. セル D1 をセル D2:D44 にコピー
• 回帰分析を行う.やり方は前節と同様である.計算結果の【係数】の列において,
【切片】の欄(セル F17)が b の値,
【X 値 1】の欄(セル F18)が a の値である.
• GDP の対数の時系列のトレンドの値を計算する.そのためには,
第 17 章
152
回帰分析
1. セル E1 に式 =F$18 * C1 + F$17 を入力
2. セル E1 をセル E2:E44 にコピー
• 原時系列とトレンド(1次関数)のグラフを描く.
問 3 高度成長が昭和 48 年(1973 年)以降,2000 年度まで続いた仮定する.このとき
2000 年度の GDP は何兆円となると予測できるか?
17.5
半対数モデルと両対数モデル
前節では時系列データを例にとって,変数 y が変数 x の「指数関数」
y = 10ax+b
であると考えられるモデルを考察した(時系列の場合,x は時間を表す変数なので,t と
いう文字を用いた).この場合,片方の変数 y の「対数」を考えることにより,log10 y
は x の一次関数となる.すなわち
log10 y = ax + b
このような関係を片対数モデルと言う.
それに対して,両方の変数の「対数」を考えて,log10 y が log10 x の一次関数となる
場合も,すなわち
log10 y = a log10 x + b
となる実例も数多くある.このような関係を両対数モデルと言う.両対数モデルは
y = 10b · xa
と表すこともできる.すなわち「y は x の a 乗に比例する」.
17.5.1
肺がん発生率
つぎの表は,非喫煙者に対する年齢 x と肺がん発生率 y ,および喫煙者に対する喫煙
年数 x と肺がん発生率 y を示している.
(ただし,肺がん発生率は人口 10 万人当たりの
6
発生数である).
6
Doll,R. ”The Age Distribution of Cancer: Implicatins for Models of Carcinogenesis”, Journal of
the Royal Statistical Society,Series A,1971
17.6. ロジスティック曲線
年齢
35–44
45–54
55–64
65–74
75–84
153
非喫煙者
2.8
5.8
13.9
25.6
49.4
喫煙年数
15–19
20–24
25–29
30–34
35–39
40–44
45–49
50–54
55–59
60–64
喫煙者
3.8
6.7
51.4
52.9
148.9
215.9
340.3
645.4
888.5
916.1
非喫煙者に対する年齢 x と肺がん発生率 y の関係を調べよう.
1. セル A1:A5 に年齢の中央値 x = 40, 50, 60, 70, 80 を入力し,対応する肺がん発生
率 y をセル B1:B5 に入力する.
2. セル C1:C5 に x の対数を,そのためには,セル C1 に式 =LOG10(A1) を入力し
て,それをセル C2:C5 にコピーすればよい.
3. 同様にして,セル D1:D5 に y の対数を計算する.
4. C 列のデータを「入力 X 範囲」とし,また D 列のデータを「入力 Y 範囲」とし
て,回帰分析を行う.
「観測値グラフの作成」も行った方がよい.
5. 回帰分析により求められた a, b の値を用いて,予測値のグラフを描いてみるとよい.
問題
17.6
喫煙者に対する喫煙年数 x と肺がん発生率 y の関係を調べよ.
ロジスティック曲線
ネズミの集団において,個体の生存に環境からの制約が全くない場合(たとえば食糧
の獲得に不自由しない等),個体数は指数関数的に増加する.同様に,一国において,
個々の企業の活動に何ら制約がない場合(たとえば新しい市場の開拓に不自由しない
等),GDP は指数関数的に増加すると考えられる.
しかし現実には,ネズミたちが獲得できる食糧の量には限界があるし,また企業が獲
得できる市場の大きさにも限界がある.このような限界がある場合,個体数や GDP は
の増加の仕方は,指数関数的にはならず,つぎのロジスティック曲線に似ることが多い.
yt =
A
1 + 10−at−b
第 17 章
154
回帰分析
時系列 yt がロジスティック曲線にしたがって増加する場合,つぎの量
wt = log10
yt
A − yt
を考えると,
wt = at + b
が成り立つ.すなわち時系列 wt は,時間 t の1次関数となり,回帰分析が適用できる
可能性が生じる.
17.6.1
耐久消費財の普及率の変化
内閣府が行っている『消費動向調査』のデータ(”0403fukyuritsu.xls” および ”1003fukyuritsu.xls”)を用いて,電気冷蔵庫の普及率の変化が,ロジスティック曲線にしたがって
いるかどうかを調べる.
1. ファイル ”0403fukyuritsu.xls” に掲載されている電気冷蔵庫の普及率のデータを,
作業用のファイル(たとえば ”mywork.xls” と名前を付ける)の B2:B49 にコピー
する.
2. 昭和 32 年 9 月を時点 t = 0,平成 16 年 3 月を t = 48 として,セル A2:A49 に
0, 1, 2, · · · , 47 を入力する.そのためには,
17.6. ロジスティック曲線
155
はじめにセル A2 に数値 0 を入力し,つぎにセル A3 に式 =A2+1 を入
力して,それをセル A4:A49 にコピー
すればよい.
3. セル C2:C49 に
(
wt = log10
yt
100 − yt
)
を計算する.そのためには,セル C2 に式 =LOG10(B2/(100-B2)) を入力して,そ
れをセル C3:C49 にコピーすればよい.
4. wt のグラフを描き,このグラフから wt の変化がほぼロジスティック曲線にした
がっているのは,どの期間であるかを読み取れ.
問題 電気冷蔵庫以外の耐久消費財に対して,それらの普及率の変化を調べよ.少なく
とも二つの耐久消費財について調べる事.
157
第 18 章 リスクとオッズ
18.1
リスク比
18.1.1
リスクとリスク比
例 送電線からの高周波が白血病の原因になるという仮説を検証するために,送電線か
らの距離が近い場所に住んでいる人(曝露群)と,遠いところに住んでいる人(対照群)
をサンプリングして,5 年間の追跡調査をして,5 年間の白血病の罹患率を調査した結
果が,下表のようであったとする(架空のデータ).
送電線近くに居住
送電線から離れて居住
合計
白血病発症
4
2
6
発症せず
9996
9998
19994
合計
10000
10000
20000
病気になるある要因 (因子とも言う) を想定し,曝露群(その因子をもつ人たち)と,
対照群(その因子がない人たち,コントロール群とも言う)を設定して,調査を行う.
理想的な対照群は,その因子がない点だけが曝露群と違っていて,それ以外の条件 (背
景因子と言う) はすべて同じであることが望ましい.
それぞれの群で,全体のうちでその病気を発症する人の割合を,リスクと言う.上の
例では,曝露群のリスクは 4/10000 であり,対照群のリスクは 2/10000 である.
しかし,リスクそのものでは,病気の発症と因子の有無の関係はわからない.因子が
あった場合のリスクを,因子がなかった場合のリスクと比べることによって,初めて因
子の有無と病気の発症がどれくらい関係していたかがわかる.そこで,リスク比(曝露
群のリスクと対照群のリスクの比,相対リスクとも言う)を考える.上の例では,リス
ク比は 4 : 2 = 2 である.すなわち,送電線の近くに住むことで白血病を発症するリス
クは,送電線から離れて住む場合の2倍になった,と考えることができる.
逆に,因子の有無と病気の有無がまったく関係がなければ,
リスク比は 1 になることが期待される.
第 18 章
158
18.1.2
リスクとオッズ
リスク比の信頼区間
曝露があったときの病気の発症率を p1 ,曝露がなかったときの発症率を p2 とすると,
真のリスク比 (母集団リスク比) rr は,
rr =
p1
p2
である.
この値を推定するために,前向き研究を行ったとする.曝露あり群となし群をそれぞ
れ n1 , n2 人フォローアップして,曝露あり群で X1 人,なし群で X2 人が病気を発症し
たとしよう.すなわち調査結果は
曝露あり
曝露なし
発症
X1
X2
発症なし
n1 − X1
n2 − X2
合計
n1
n2
となる.このとき母集団リスクの推定値は,曝露があったとき
き
X1
,曝露がなかったと
n1
X2
である.したがって,リスク比の推定量 (標本リスク比) RR は
n2
X1
X1 X2
n
RR =
:
= 1
X2
n1 n2
n2
となる.
さらに,リスク比の信頼区間は次のように手順で求めることができる.
1. はじめに
√
s=
1
1
1
1
−
+
−
X1 n1 X2 n2
を計算する.
2. つぎに k = ezs を計算する.ここで z は,90% 信頼区間の場合は z = 1.645,95%
信頼区間の場合は z = 1.96,99% 信頼区間の場合は z = 2.576 である.
3. すると,信頼区間の下限と上限は,それぞれ RR/k, RR · k となる.
例 前節の例の場合に,リスク比の 95% 信頼区間を求めるには,つぎのようにすれば
よい.
18.2. 原爆被曝者調査
159
√
1.
s=
1
1
1
1
−
+ −
= 0.866
4 10000 2 10000
2.
k = e1.96×0.866 = 5.46
3.
下限 = 2/5.46 = 0.366, 上限 = 2 · 5.46 = 10.9
信頼区間の中に 1 が含まれるから,帰無仮説「因子の有無は発症に無関係」は棄却され
ない.
18.2
原爆被曝者調査
原爆被曝者調査 (寿命調査) は,原爆傷害調査委員会・放射線影響研究所 (以下では放
影研と言う) が,広島・長崎で原子爆弾に被曝した人を対象にして 1950 年から現在ま
で行っているコホート研究である.
18.2.1
寿命調査集団
1950 年の国勢調査時に初めて,1945 年 8 月 6 日に広島,9 日に長崎で被曝した原爆
被害者について,全国的な調査が行われた.1950 年時の全国の生存被曝者総数は 28 万
人であった.このうち,広島市,長崎市に居住していた者は,18 万人であった.放影
研では,この 18 万人のうち,近距離 (2.5 km 以内) 被曝者全員とその対照として,遠距
離 (2.5∼10 km) 被曝者,および原爆投下時には広島,長崎にいなかった非被曝者から,
それぞれ,2.5 km 以内近距離被曝者と 性・年齢が一致するように同数選んで,合計 12
万人の調査集団 (寿命調査集団) を設定した.この寿命調査集団について 1950 年から,
急性死亡を免れた原爆被害者の死亡追跡調査を行っている.また 1958 年に始まった広
島市・長崎市の腫瘍登録とレコードリンケージを行ってがん発生率についても調査して
いる.また,この寿命調査集団については 2 年に 1 回の定期検診も行っている.放影
研では,さらに,胎内被曝者および原爆被曝者の子ども (被曝二世) についてもそれぞれ
3600 人,7 万 7000 人からなる調査集団を設定し,追跡調査を行っている.
18.2.2
部位別がん死亡の相対リスク
下図は,1 Sv の放射線を被爆したときの,部位別がん死亡のリスク比,および 90%
信頼区間を示している.
第 18 章
160
リスクとオッズ
このグラフより,たとえば次の事を見て取ることができる.
• 白血病による死亡のリスク比の 90% 信頼区間は,およそ 4.2 ∼ 7.5 である.この
信頼区間に 1 は含まれないから,帰無仮説「1 Sv の放射線を被爆しても,白血病
による死亡率は増加しない」は棄却される.一方,直腸がんよる死亡のリスク比
の 90% 信頼区間は,およそ 0.7 ∼ 1.6 である.この信頼区間に 1 は含まれるから,
帰無仮説「1 Sv の放射線を被爆しても,直腸がんによる死亡率は増加しない」は
棄却されない.
• 白血病による死亡のリスク比の 90% 信頼区間は,およそ 4.2 ∼ 7.5 であるから,
その幅は約 3.3 である.一方,胃がんよる死亡のリスク比の 90% 信頼区間は,お
よそ 1.1 ∼ 1.4 であるから,その幅は約 0.3 である.この幅の相違は,白血病が胃
がんに比べて,滅多に発症しない病気であることによる.
問題 つぎは,5 mSv 以上被爆したときの 1950∼90 年の累積死亡数を示している.白
血病・白血病以外の全がんのそれぞれの場合に,リスク比の 95% 信頼区間を求めよ.ま
た,5 mSv の放射線被爆ががんによる死亡率を増加させているかどうかを論ぜよ.
白血病
累積死亡数
被爆群
176
対照群
89
白血病以外の全がん
累積死亡数
被爆群
4687
対照群
4348
調査対象者数
51114
51114
調査対象者数
51114
51114
18.3. 喫煙とがん
18.3
161
喫煙とがん
日本における喫煙とがん死亡についてのコホート研究(1983∼2003 年)の例を紹介す
る.1 この研究は,計 296,836 人(男性 140,026 人,女性 156,810 人)を,平均 9.6 年
間に渡って調査した結果に基づく.次の表は,がん種ごとの相対リスクとその 95% 信
頼区間を示している.
男
現喫煙者
1.97 (1.83 ∼ 2.13)
2.66 (1.48 ∼ 4.77)
3.39 (2.25 ∼ 5.09)
1.51 (1.29 ∼ 1.77)
1.81 (1.49 ∼ 2.20)
1.58 (1.18 ∼ 2.11)
5.47 (1.29 ∼ 23.11)
4.79 (3.88 ∼ 5.92)
全がん
口唇・口腔・咽頭
食道
胃
肝・肝内胆管
膵臓
喉頭
肺
子宮頸部
腎盂を除く腎臓
1.57 (0.81 ∼ 3.06)
尿路(膀胱・腎盂・尿管) 5.35 (2.47 ∼ 11.57)
骨髄性白血病
1.45 (0.74 ∼ 2.82)
女
前喫煙者
1.50 (1.38 ∼ 1.63)
1.89 (1.00 ∼ 3.58)
2.22 (1.43 ∼ 3.46)
1.28 (1.08 ∼ 1.52)
1.63 (1.32 ∼ 2.01)
1.19 (0.86 ∼ 1.65)
3.03 (0.65 ∼ 14.01)
2.41 (1.91 ∼ 3.03)
1.46 (0.71 ∼ 3.00)
2.76 (1.21 ∼ 6.31)
2.13 (1.07 ∼ 4.25)
現喫煙者
1.57 (1.41 ∼ 1.75)
1.97 (0.69 ∼ 5.65)
1.90 (0.74 ∼ 4.86)
1.22 (0.90 ∼ 1.64)
1.73 (1.21 ∼ 2.48)
1.81 (1.28 ∼ 2.57)
0.00 ()
3.88 (3.07 ∼ 4.90)
2.32 (1.31 ∼ 4.10)
0.60 (0.08 ∼ 4.47)
1.86 (0.84 ∼ 4.11)
0.96 (0.30 ∼ 3.10)
前喫煙者
1.57 (1.32 ∼ 1.87)
1.23 (0.17 ∼ 9.12)
3.59 (1.27 ∼ 10.16)
1.47 (0.95 ∼ 2.27)
1.23 (0.63 ∼ 2.39)
1.96 (1.16 ∼ 3.30)
0.00 ()
2.63 (1.72 ∼ 4.03)
1.00 (0.25 ∼ 4.09)
1.55 (0.21 ∼ 11.52)
0.00 ()
0.96 (0.13 ∼ 7.01)
問題 上の結果より,帰無仮説「喫煙はがんに影響しない」を棄却できるのは,どのが
んの場合かを,日本人男性の現喫煙者集団に対して述べよ.
1
Katanoda et al. Population Attributable Fraction of Mortality Associated with Tobacco Smoking in
Japan: A Pooled Analysis of Three Large-scale Cohort Studies, J. Epidenmiology (2008)
第 18 章
162
18.4
オッズ比
18.4.1
前向き研究と後向き研究
リスクとオッズ
病気のリスクは,全体のうちで病気を発症する人の割合であるから,まず全体を把握
していないと定義できない.すなわち,まず観察対象全体で曝露群と対照群を把握して
おいて,経時的に追跡調査して,それぞれの群で何人ずつ発症するかを調べるという,
前向き研究(コホート研究とかフォローアップ研究と言うこともある)でないと,リス
ク比は計算できないことになる.
ところが,白血病は稀な疾患だし,高周波に曝露しなくても発症することはあるので,
この研究計画でリスク比を計算するためには,莫大な数のサンプルをフォローアップす
る必要があり,大規模な予算とマンパワーが投入される必要がある.そこで,通常は,前
向き研究ではなく,患者対照研究を行って,過去の曝露との関係をみることが行われる.
18.4.2
オッズとオッズ比
患者対照研究では,たとえば白血病患者 100 人と対照 100 人に対して,過去に送電線
の近くに居住していたかどうかを聞く.その結果が,下表のようになったとしよう(架
空のデータ).
送電線近くに居住
送電線から離れて居住
合計
白血病
20
80
100
白血病でない
10
90
100
合計
30
170
200
この場合,リスク比は計算しても意味がない.白血病かつ送電線の近くに居住した経
験がある 20 人は,送電線の近くに住んだ経験がある人からのサンプルではなく,白血
病患者からのサンプルだから.
そこでこのような場合,病気のオッズ(その病気を発症した人数の,発症しなかった
人数に対する比)を求める.すると,送電線の近くに居住した経験がある人のうち,白
血病の人の,白血病でない人に対するオッズは 2 となり,送電線から離れて居住した人
ではオッズは 0.888 となる.
ところが,オッズそのものでは,リスク比の場合と同様に,病気の発症と要因の有無
の関係はわからない.要因があった場合のオッズを,要因がなかった場合のオッズと比
べることによって,初めて要因の有無と病気の発症がどれくらい関係していたかがわか
る.そこで,オッズ比(曝露群のオッズと対照群のオッズの比)を考える.上の例では,
オッズ比は 2.25 となる.要因の有無と病気の有無がまったく関係がなければ,オッズ
比も 1 になることが期待される.
18.5. 数学的補足
18.4.3
163
患者対照研究
患者対照研究の結果から,リスク比を求めることはできない.激しい暴露を受けた人
は調査時点よりも前に病気を発症して死亡する可能性がある.したがって患者対照研究
から無理にリスクを見積もろうとするとリスクを過小評価してしまうことになるからで
ある.
前向き調査を行うことが望ましいが,そのためには膨大な手間と費用がかかる.さら
に,原理的に前向き調査ができない場合もある.とくに,薬害と呼ばれる現象は,妙な
病気が見つかったときに,後付けで原因を探ることになるので,患者対照研究にならざ
るを得ない.例えば,スモンとかサリドマイドは,そうやって原因がわかった問題であ
る.腕が短く生まれた子どもの母親と,そうでない子どもの母親に,妊娠中に飲んだ薬
の有無を尋ねて,特定の時期にサリドマイドを飲んだという曝露による疾病オッズ比が
有意に大きい結果が得られたのだ.
18.5
数学的補足
18.5.1
リスク比とオッズ比の関係
稀な現象を調査するとき,オッズ比はリスク比の良い近似になる.患者対照研究を行
う時点の T 年前に曝露があったとし,
• 曝露群と対照群の人数はともに N 人とする.
• T 年間に白血病が発症した割合は,曝露群では p1 ,対照群では p2 であるとする.
白血病は稀な病気なので,p1 , p2 の両方とも非常に小さい数である と仮定する.
• T 年後の生存率は,白血病発症者では α であり,発症していない人では β である
とする.
このとき明らかに,リスク比は p1 /p2 である.一方,患者対照研究を行う時点で,
曝露群
対照群
白血病発症者の人数
αp1 N
αp2 N
発症しなかった人数
β(1 − p1 )N
β(1 − p2 )N
すると,
αp1
αp1 N
=
β(1 − p1 )N
β(1 − p1 )
αp2 N
αp2
対照群のオッズ =
=
β(1 − p2 )N
β(1 − p2 )
曝露群のオッズ =
第 18 章
164
リスクとオッズ
したがって,
αp2
αp1
:
β(1 − p1 ) β(1 − p2 )
p1
p2
=
:
1 − p1 1 − p 2
p 1 1 − p2
=
·
p 2 1 − p1
オッズ比 =
となる.ところが,p1 , p2 の両方とも非常に小さい数であるとしたので,1 − p1 , 1 − p2
はどちらも「ほぼ」1 に等しい.したがって,オッズ比は「ほぼ」リスク比に等しい.
18.5.2
リスク比の信頼区間の数学的導出
病気が伝染病でない場合は,X1 , X2 は「独立」で,しかもそれぞれ2項分布 B(n1 , p1 ), B(n2 , p2 )
に従う,と考えてよい.だから,n1 , n2 が十分大きければ,
「2項分布は正規分布で近似」
して,
X2 − n 2 p 2
X1 − n 1 p 1
, Z2 = √
Z1 = √
n 1 p 1 q1
n 2 p 2 q2
はともに標準正規分布に従うと考えてよい.これを書き直すと
√
√
X1
p 1 q1
p2 q 2
X2
= p1 +
Z1 ,
= p2 +
Z2
n1
n1
n2
n2
となるから,
√
p1 +
RR =
p2 +
√
p1 q1
n1
p2 q2
n2
√
q1
p1 n1
√
q1
Z
p1 n1 1
p1
√
√
=
·
= rr ·
q2
p2 1 +
Z
1 + p2qn2 2 Z2
Z2
p2 n2 2
1+
Z1
Z1
1+
これより
(
)
(
)
√
q1
q2
log RR = log rr + log 1 +
Z1 − log 1 +
Z2
p1 n1
p2 n 2
√
√
q1
q2
Z1 −
Z2
≈ rr +
p1 n1
p2 n 2
ここで
√
Y =
√
q1
Z1 −
p1 n1
√
q2
Z2
p2 n 2
と置くと,確率変数 Y は平均 0,分散
(
) (
)
q1
q2
1
1
1
1
+
=
−
+
−
p1 n1 p2 n2
n1 p1 n1
n2 p2 n2
18.5. 数学的補足
165
の正規分布に従う.さらに n1 p1 ≈ X1 , n2 p2 ≈ X2 と推定すると,上の分散は
1
1
1
1
−
+
−
X1 n1 X2 n2
(18.1)
により推定できる.こうして次のことを示すことができた.
定理
標本リスク比の対数 log RR は,平均が母集団リスク比の対数 log rr に等しく,
分散が (18.1) に等しい正規分布で近似できる.
したがって,log rr の 95% 信頼区間の下限と上限は
√
1
1
1
1
log RR ± 1.96 ×
−
+
−
X1 n1 X2 n2
に等しい.
166
第 18 章
リスクとオッズ
オッズ比は母集団におけるリスク比のよい近似になることが知られている.このよう
に稀な疾患の場合は,患者対照研究でオッズ比を求める方が効率が良い.
一方,オッズ比はどんなデザインの研究でも計算できる.たんに,曝露群の病気の人
数の病気でない人数に対する比が,対照群のそれに比べてどれくらい大きいかを示す値
だからである
調査時点で,患者を何人サンプリングすると決め,それと同じ人数の対照(その病気
でないことだけが患者と違って,それ以外の条件はすべて患者と同じことが望ましい)
を選んで,それぞれが過去に受けた曝露要因や,現在の生活習慣,態度などを調べるこ
とによって,その病気の原因を探る方法論.
調べてみないと患者かどうかさえわからないような場合や,因果の向きがはっきりし
ない変数間の関係を見たいときは,全体で何人サンプリングすると決めて一時点で調査
する.こういう方法論を断面研究という.
この場合のオッズ比は,
「曝露なし群での疾病ありのオッズ」に対する「曝露あり群で
の疾病ありのオッズ」の比なので,疾病オッズ比という.逆に,疾病あり群で曝露した
人数の曝露していない人数に対する比が,疾病なし群のそれに比べてどれくらい大きい
かを示す値として曝露オッズ比というものも考えられるが,数学的には同じ値になる.
ただし,統計パッケージでは,単純なこの値でなく,最尤推定をして得られる条件付
きオッズ比が表示されることが多い.
上 述 の よ う に 最 尤 推 定さ れ た 条 件 付 き オ ッ ズ 比 は ,R の プ ロ グ ラ
ム を 使 っ て fisher.test(matrix(c(4,2,9996,9998), nc=2)) として計算すると,2.000322
である.
また,問題があるかどうかが事前に明らかでない場合は,断面研究をせざるを得ない.
聞き取りや質問紙などで調べる,心理学的,あるいは社会学的な調査項目間の関係を見
る場合は,断面研究をする場合が多い.なお,断面研究の場合は,リスク比やオッズ比
の他に,リスク差,相対差,曝露寄与率,母集団寄与率,Yule の Q,ピアソンの相関係
数,ファイ係数といったものがある(後述) .なお,同じ質問を2回した場合に同じ変
数がどれくらい一致するかについては,普通にクロス集計表を作って独立性の検定がで
きそうな気がするかもしれないが,してはいけない.この場合は test-retest-reliability
を測ることになるので,クロンバックのα係数やκ係数などの一致度の指標を計算する
べきである(後述).前述の白血病の例で計算してみると,95 次にオッズ比の信頼区間
を考える.前述の表の a, b, c, d という記号を使うと,
オッズ比の点推定値 OR は,OR = (ad)/(bc) である.オッズ比の分布も右裾を引い
ているので,対数変換または Corneld (1956) の方法によって正規分布に近づけ,正規
近似を使って 95951/a + 1/b + 1/c + 1/d),上限は OR exp(qnorm(0.975) 1/a + 1/b
+ 1/c + 1/d) となる.前述の白血病の例で計算してみると,オッズ比の 95 やや複雑で
あり,高次方程式の解を Newton 法などで数値的に求める必要があるので,本書では扱
わない.
167
第 19 章 t 検定
t 検定
19.1
例 19.1.1 10 人の患者に,2 種類の睡眠薬を与えて,睡眠時間が何時間増加したかを調
べた.睡眠薬の効き目は異なっているだろうか?1
ID
1
2
3
4
5
6
7
8
9 10
睡眠薬 1 0.7 −1.6 −0.2 −1.2 −0.1 3.4 3.7 0.8 0.0 2.0
睡眠薬 2 1.9
0.8
1.1
0.1 −0.1 4.4 5.5 1.6 4.6 3.4
この実験での母集団は人間の全体であり,標本数は 10 である.さて,母集団の全員
に睡眠薬 1 を与えたという架空の状況を考え,その場合の睡眠時間の増加量の平均(母
集団平均)を µ1 で表す.同様に,母集団の全員に睡眠薬 1 を与えたという架空の状況
を考え,その場合の睡眠時間の増加量の平均(母集団平均)を µ2 で表す.
検討したい問題は「睡眠薬の別は睡眠時間増加量に影響するか?」である.そこで帰
無仮説は「睡眠薬の別は睡眠時間増加量に影響しない」とする.正確に表現するならば,
帰無仮説を
母集団平均は等しい: µ1 = µ2
とすることになる.
t 検定の考え方
19.1.1
1. 10 人の患者に睡眠薬 1 と睡眠薬 2 を与えた場合の睡眠時間の増加量を,それぞ
れ x1, x2 で表し,その差 x2 - x1 を x で表す.
>
>
>
>
1
x1 <- c(0.7,-1.6,-0.2,-1.2,-0.1,3.4,3.7,0.8,0.0,2.0)
x2 <- c(1.9,0.8,1.1,0.1,-0.1,4.4,5.5,1.6,4.6,3.4)
x <- x2 - x1
x
[1] 1.2 2.4 1.3 1.3 0.0 1.0 1.8 0.8 4.6 1.4
データの由来は R で help(sleep) とすればわかる
第 19 章 t 検定
168
帰無仮説の真偽を判断するために,10 個の差のデータ x とゼロを比較し,つぎのよ
うに推論することは,常識的であろう.
• データが全体的に大きな正の値である場合,睡眠薬 2 の方が効果があると判断し,
仮説を棄却する.
• データが全体的に(絶対値が)大きな負の値である場合,睡眠薬 1 の方が効果が
あると判断し,仮説を棄却する.
• どちらでもない場合,仮説は棄却しない.
しかし,差のデータ x の平均(標本平均)を求め,それとゼロを比較して,つぎのよ
うに推論しては いけない.なぜならば,たとえばもし母集団平均がゼロまたは負でも,
標本平均が偶然にゼロより大きくなる可能性があるから.
• 平均がゼロより大きい場合,睡眠薬 2 の方が効果があると判断し,仮説を棄却する.
• 平均がゼロより小さい場合,睡眠薬 1 の方が効果があると判断し,仮説を棄却する.
• どちらでもない場合,仮説は棄却しない.
したがって
データの平均だけでなく,
「散らばり」も考慮に入れなければいけない
データの「散らばり」具合を数値で表現するためには,ふつう標準偏差を用いる(正
確には標本標準偏差).今の例の場合,標準偏差は
√
1
[(1.2 − 1.58)2 + (2.4 − 1.58)2 + · · · + (1.4 − 1.58)2 ]
10 − 1
により定義される.
1. 差 x の平均と標準偏差を求める.
> mean(x)
[1] 1.58
> sd(x)
[1] 1.229995
2. 差 x のヒストグラムを描く.
そして,帰無仮説の真偽を,標本平均と標本標準偏差の両方を用いて,つぎのように
判断する.
19.1. t 検定
169
• 標本平均がゼロより標本標準偏差「程度」大きい場合,睡眠薬 2 の方が効果があ
ると判断し,仮説を棄却する.
• 標本平均がゼロより標本標準偏差「程度」小さい場合,睡眠薬 1 の方が効果があ
ると判断し,仮説を棄却する.
• どちらでもない場合,仮説は棄却しない.
このような判断を精密に行う方法が t 検定である.
19.1.2
t 検定の手順
差のデータ x が既に求められている場合,つぎのように t 検定を行えばよい.
> t.test(x)
One Sample t-test
data: x
t = 4.0621, df = 9, p-value = 0.002833
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
0.7001142 2.4598858
sample estimates:
mean of x
1.58
• p 値は 0.002833 である.p 値は「仮説が正しい確率」と解釈してよい.この例の
場合,p 値は小さい(慣例では 0.05 未満の場合に「小さい」と判断する).した
がって,仮説は棄却される.
• 平均値の差の 95% 信頼区間は,0.7001142 以上 2.4598858 以下である.ところで,
仮説が正しいということは,平均値の差がゼロに等しい,ということである.信
頼区間の中にゼロが含まれていないから,仮説は棄却される.
注意 つぎのように対応のない t 検定を行ってもよい(「対応のない」の意味について
は,次節を参照).
> t.test(x1, x2, paired = TRUE)
Paired t-test
data: x1 and x2
t = -4.0621, df = 9, p-value = 0.002833
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.4598858 -0.7001142
sample estimates:
mean of the differences
-1.58
第 19 章 t 検定
170
問題 19.1.1 ある河川流域の9地点について,水質汚染防止法が実施される前と,実施
後2年経ってからの2時点で,観測された水の複合汚染測度は次の表の通りであった.
水質汚染防止法は,汚染度を引き下げるのに有効であったということができるか?2
地点番号
実施前
実施2年後
1
2
71.2 69.1
68.8 69.5
3
73.6
69.4
4
66.2
67.1
5
82.0
76.8
6
100.6
92.2
7
8
9
88.7 95.6 78.3
87.1 96.3 70.1
問題 19.1.2 ミュラー・リヤー錯視図形を用いて,矢羽根の長さが錯視量に及ぼす影響
を吟味するため,A 条件(斜線の角度 30◦ ,長さ 30 mm)と B 条件(斜線の角度 30◦ ,
長さ 15 mm)とでそれぞれ 8 回調整法により測定を行い,つぎの結果を得た.両条件
で錯視量に差があるといえるか?3
A 条件 11
B 条件 5
8 13
0 4
7 12
2 -4
14
8
6 7
5 4
問題 19.1.3 ある刺激が血圧に対して影響するかどうかをテストした.12 人について
刺激提示前と提示後の血圧が測られた.つぎの結果から刺激が血圧を 5 以上あげると
いえるかどうかを検定せよ.4
前
後
120 124
128 131
130
131
118
127
140
132
128
125
140
141
135
137
126
118
130
132
126
129
127
135
問題 19.1.4 靴底(shoe sole)に 2 種類の材料 A, B を用いたときの摩耗の度合を調べ
た結果,つぎのようになった.ただし表において,記号 (L) は材料が左靴に用いられた
ことを,また記号 (R) は材料が右靴に用いられたことを表している.どの材料が右左ど
ちらの靴に用いられたかはランダムに決められた.2つの材料の摩耗の度合に差がある
といえるか?5
boy
1
2
A 14.0(R) 8.8(R)
B 13.2(L) 8.2(L)
2
3
4
11.2(L) 14.2(R)
10.9(R) 14.3(L)
5
6
11.8(L) 6.4(R)
10.7(R) 6.6(L)
7
9.8(R)
9.5(L)
8
11.3(R)
10.8(L)
9
10
9.3(L) 13.6(R)
8.8(R) 13.3(L)
仮屋 「医学・生物学の統計学」 共立出版
出典:肥田 他 「心理 教育 統計学」 培風館
4
出典:肥田 他 「心理 教育 統計学」 培風館
5
出典:Box, Hunter, and Hunter (1978) Statistics for Experimenters: An Introduction to Design,
Data Analysis and Model Building
3
19.2. 対応のあるサンプルの t 検定と独立したサンプルの t 検定
19.2
171
対応のあるサンプルの t 検定と独立したサンプルの
t 検定
例 19.2.1 雌のネズミを2つのグループに分け,一方のグループには高蛋白質の餌を,
他方のグループには低蛋白質の餌を与えて,体重の増加量(グラム)を調べた.蛋白質
の量は体重の増加に影響を与える,と言えるか?6
高蛋白質
低蛋白質
134 146 104 119 124 161 107 83 113 129 97 123
70 118 101 85 107 132 94
この例では,高蛋白質の餌を与えたネズミと,低蛋白質の餌を与えたネズミは,異な
るネズミたちである.このような場合には,独立したサンプルの t 検定を行う(「独立
した」という言葉は,
「母集団が異なる」という意味である).
それに対して前節の例では,睡眠薬 1 と睡眠薬 2 を与えて調査された患者たちは同
一である.このような場合には,対応のあるサンプルの t 検定を行う(「対応のある」
という言葉は,
「母集団が同じ」という意味である).
19.2.1
独立したサンプルの t 検定の手順
1. 高蛋白質を与えた場合の体重増加量のデータを x1、低蛋白質を与えた場合の体重
増加量のデータを x2 と置く.
> x1 <- c(134,146,104,119,124,161,107,83,113,129,97,123)
> x2 <- c(70,118,101,85,107,132,94)
2. 帰無仮説は
蛋白質の質は体重増加量に影響しない
である.
3. t 検定を行う.
6
Snedecor,G.W. and Cochran,W.G. (1980) Statistical Methods, 7th edition, section 6.9
第 19 章 t 検定
172
> t.test(x1,x2)
Welch Two Sample t-test
data: x1 and x2
t = 1.9107, df = 13.082, p-value = 0.0782
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.469073 40.469073
sample estimates:
mean of x mean of y
120
101
4. p 値 = 0.0782 > 0.05 であるから,仮説は棄却しない.
1. 上で入力した体重増加量と蛋白質の質のベクトル形式のデータを,より扱いやす
いデータフレームという形式に直しておく.ただし,ベクトル z には protein と
いう見出しを,ベクトル y には gain という見出しを付け,またデータフレームの
名称は rat としておく.
> rat <- data.frame(protein=z,gain=y)
2. いくつかの『基本統計量』を計算しておく.
> summary(x)
noiseless
Min.
:66.0
1st Qu.:74.5
Median :76.0
Mean
:76.0
3rd Qu.:78.0
Max.
:88.0
noisy
Min.
:60
1st Qu.:70
Median :72
Mean
:72
3rd Qu.:73
Max.
:84
ここで
Min. は「最小値」,1st Qu. は「第一四分位数」,Median は「中央値」,
Mean は「平均」,3rd Qu. は「第三四分位数」,Max. は「最大値」
を表している.
3. t 検定を行う.
19.2. 対応のあるサンプルの t 検定と独立したサンプルの t 検定
173
> t.test(x$noiseless,x$noisy,var.equal=T)
Two Sample t-test
data: x$noiseless and x$noisy
t = 1.222, df = 14, p-value = 0.2419
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.020462 11.020462
sample estimates:
mean of x mean of y
76
72
この仮説の真偽に関して,検定結果よりつぎの事がわかる.
• 騒音無しの場合の成績の平均は 76,騒音有りの場合の成績の平均は 72 であるから,
単純に考えると,仮説は正しくない.しかし,平均の比較だけで判断してはいけない.
データのバラツキを考慮しなくてはいけない.
• p 値は 0.2419 である.p 値は「仮説が正しい確率」と解釈してよい.この例の場
合,p 値は小さくない(普通 0.05 未満の場合に「小さい」と判断する).したがっ
て,仮説は棄却できない.
• 平均値の差の 95% 信頼区間は,−3.020462 以上 11.020462 以下である.ところで,
仮説が正しいということは,平均値の差が 0 に等しい,ということである.信頼
区間の中に 0 が含まれているから,仮説は棄却できない
問題 19.2.1
問題 19.2.2
175
第 20 章 生命表の解析
20.1
生存率の計算方法
20.1.1
生存率と生命表解析
医学分野では,腫瘍の手術のように,ある治療を行うことによって患者がどの程度延
命するか,つまり患者の生存率をどの程度上げることができるかによって,治療の効果
を判定することがしばしばあります.そもそも治療行為の最終的な目的は,病気を治す
ことによって,患者が健康で長生きできるようにすることですから,生存率は治療の究
極的な評価指標ということになります.
臨床試験では,治療の評価指標のことを「エンドポイント (end point)」といいます.
これは生存率が究極の評価指標であり,患者の生死を観察することによって治療の評価
を行うことに由来します.
しかしたいていの疾患は死亡までの期間が長く,生存率を評価指標にして臨床試験を
行うことは困難です.そこでそのような疾患では,生存率と深い関係があることが解明
されていて,治療効果を短期間で評価することのできる臨床検査値,例えば血圧や血中
脂質値などを暫定的な評価指標にします.このような暫定的な評価指標のことを,
「代用
エンドポイント (surrogate end point)」といいます.それに対して生存率のような究極
の評価指標のことを,
「真のエンドポイント (true end point)」と呼ぶことがあります.
この究極の評価指標である生存率を解析するための統計手法のことを,
「生命表解析
(life table analysis)」または「生存時間解析 (survival time analysis)」といいます.生命
表解析は人口統計学の分野で古くから使われてきた手法であり,現在でも生命保険会社
によって盛んに利用されています.医学分野では主として腫瘍研究の分野で利用されて
いて,生存時間解析という名前で呼ばれることが多いようです.
生命表解析では,手術や投薬開始という明確な出発点から個体の追跡を開始し,死亡
や疾患の再発といった非可逆的なイベント (event) が発現するまで観察を続けます.た
だし,途中で個体が偶発的な出来事で研究から脱落 (drop out) したり,研究期間が終了
して観察打ち切り (termination of the study) になることもあります.
原則としてイベントは非可逆的な反応でなければなりませんが,再手術,治療法の切
り替え,効果や副作用の発現といった,緩い意味での非可逆的な反応にすることもでき
ます.また最初から脱落が発生することを想定しているため,脱落例が発生する可能性
が高い臨床試験,例えば治癒率が非常に高い疾患の臨床試験などにも適しています.こ
第 20 章 生命表の解析
176
れらのことから,生命表解析は医学分野で広く応用することが可能な手法といえるで
しょう.
またこの手法ではイベントが発現するまで観察を続け,その発現率を問題にするため,
原則として前向き研究で得られたデータに適用します.ところが実際の医学研究では,
後ろ向き研究で得られたデータにこの手法を間違って適用することがしばしばあります.
これは,医学研究では後ろ向き研究が多用されることに起因しているようです.生命表
解析を適用する場合は,このあたりのことに十分注意する必要があります.
今,22 例の腫瘍患者について,12 例には A 法という手術を施し,10 例には B 法と
いう手術を施して,予後を観察した結果が表 11.1 のようになったとします.
症例番号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
手術法
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
観察期間 (月)
4
5
8
13
16
27
28
32
35
36
50
56
2
4
6
12
13
15
18
20
25
35
転帰
脱落
死亡
死亡
死亡
打ち切り
死亡
死亡
打ち切り
打ち切り
死亡
打ち切り
打ち切り
死亡
死亡
死亡
死亡
死亡
打ち切り
死亡
脱落
死亡
死亡
転帰項目の「脱落」は,研究期間が終了する前に偶発的な出来事で研究から脱落した
症例であり,
「打ち切り」は,研究期間が終了したため生存中であるにもかかわらず観察
を打ち切った症例です.これらの症例は,生命表解析ではどちらも同じように取り扱い
ます.
20.1. 生存率の計算方法
20.1.2
177
古典的な生命表
人口統計学の分野では対象となる個体数が非常に多いため、表 11.1 のように個々の
個体を正確に観察することは困難です.そこで観察期間をある期間で区切り、その期間
内に発生した死亡数と脱落または打ち切り数を観察し、表 11.2 のような「生命表 (life
table)」にまとめます.そして、この生命表の中の累積生存率とその標準誤差の推移を
折れ線グラフで描いたものが、図 11.1 の累積生存率曲線です.なお表 11.2 では、脱落
と打ち切りを区別せずに「脱落数」として集計しています.
群
A
B
観察期間
12
24
36
48
60
12
24
36
期間当初生存数
12
9
7
2
2
10
6
2
期間中死亡数
2
1
3
0
0
4
2
2
表 11.2 腫瘍患者の古典的な生命表
脱落数 有効生存数 生存率 累積生存率
1
11.5
0.826
0.826
1
8.5
0.882
0.729
2
6
0.5
0.364
0
2
1
0.364
2
1
1
0.364
0
10
0.6
0.6
2
5
0.6
0.36
0
2
0
0
基本的に、ある期間の死亡率は、期間中の死亡数を期間当初の生存数つまり対象数で
割った値です.例えば 0∼12 ヶ月における A 群の死亡数は 2 例であり、期間当初の生
存数は 12 例ですから、死亡率は 2/12 ≒ 0.167 になります.
ところがこの期間中に脱落例が 1 例あり、その症例を対象数から除外する必要があり
ます. そこで平均的に期間の中央で脱落が生じたと考え、脱落例の半分の例数を対象数
から除外し、それを有効生存数 (有効観察例数) とします. その有効生存数を用いて死
亡率と生存率を計算すると、次のようになります.
・0∼12ヶ月における A 群の 有効生
存数=12- 1 ―2 =11.5 死亡率= 死亡数―――――有効生存数 = 2 ――11.5 ≒ 0.174
生存率=1-死亡率=1-0.174=0.826
同様に、次の期間である 12∼24ヶ月における A 群の死亡率と生存率は次のようにな
ります.
・12∼24ヶ月における A 群の 有効生存数=9- 1 ―2 =8.5 死亡率= 1 ――8.5
≒ 0.118 生存率=1-0.118=0.882
ここで、A 群における 24ヶ月後の生存率の計算方法を考えてみましょう. 24ヶ月後
の生存者は、0∼12ヶ月間を生存し、さらに 12∼24ヶ月間も生存した例です. したがっ
て、ある個体が 24ヵ月後に生存する確率は、0∼12ヶ月の生存確率である 0.826 と、12∼
24ヶ月の生存確率である 0.882 を掛けた値になります. この掛け合わせた生存率のこと
を、「累積生存率 (cumulative survival rate)」または「生命表生存率 (life table survival
rate)」といいます.24ヶ月後の A 群の累積生存率=0.826 × 0.882 ≒ 0.729
累積
178
第 20 章 生命表の解析
もし脱落例が無ければ、24ヵ月後の累積生存率は、単に 24ヵ月後の生存数を開始時の
対象例数で割った値になります. しかし臨床試験などでは脱落例が生じるのが普通な
ので、表 11.1 のような生命表を作成して累積生存率を計算する必要があります. これ
が古典的な生存率の計算方法であり、「カトラー・エデラー (Cutler-Ederer) 法」または
「生命保険数理法 (acturial method、狭義の生命表法)」と呼ばれています. (注 1)