記述統計学

記述統計学
統計学の目標は大きく分けて 2 種類ある。一つはデータそのものを分析し、そのデータから妥当
な、意味のある結論を得ることである。現象の法則を知るために、すべてを丹念に調べ、その規則
性から法則を見いだすことを目指すといってもよい。例えば、ある高校の 3 年 1 組において、数学
の成績と英語の成績とに関係があるかどうかを知りたいとする。そのときにはそのクラスで実施さ
れた試験の全データが揃っている。そのデータの傾向や性質を分析して結論を導く手法が必要であ
る。主にこれを対象とした理論を記述統計学(descriptive statistics)という。主として確率論は
根拠や統計量定義の類推で用いられ、直接的に応用されることはほとんどない。
それと対比して一部の観察から、全体についての妥当な法則を推測する手法は統計的推測(statistical
inference)または推測統計学といわれ、確率論がその妥当性の根拠となっている。
確率論・記述統計学・推測統計学ではそれぞれ同じような用語を用いることが多く、それぞれ意
味合いが全く異なるのに混同されたり、そして最悪なことにその混同から誤った主張が導かれたり
することすらある。
記述統計はその重要性から、小学校・中学校から少しずつ学び始めるほどのものである。記述統
計学において、中学校でも取り扱う指標は
• 平均値(mean):すべてのデータの和をその総数で割ったもの。
• 中央値(median):データを順に並べたときに、その真ん中に来るもの
• 最頻値(mode):最も度数の多い値
などがある。いずれも特徴があり、データの分析目的に応じて決める。そのほかにも、最大値・最
小値など多くの指標が考えられる。
またデータの分散・標準偏差(ここでの分散や標準偏差は前回までの数学的な定義のものではな
く、データから計算できる量として別に定める)を適切な方法で計算することも記述統計である。
[データの値]−[平均値]
偏差値 := 50 +
× 10
[標準偏差]
で与えられる偏差値も重要な記述統計量である。ただし、例えば偏差値が 40 から 60 の範囲に受験
生の 68%以上が含まれる、は何の根拠もなく(驚くべきことに、テレビや新聞のニュースは兎も角
として、知識人を育てるよう働くべき受験情報などでも散見される)
、100%の間違いとしかほかに
言いようがないが典型的な記述統計と推測統計の混乱であろう。
いずれにせよ、記述統計の問題は、ここで挙げたようなデータから適切な計算によってそのデー
タを分析するというものであり、重要ではあるが数学的には難しいことはあまりない。
一方、実は性質を知りたい集団があるのだが、それが極めて巨大であったり、あるいは直接知る
ことが原理的にできなかったりする場合がある。そのような場合に、比較的少数のデータから、全
体が持っている性質を推測して結論を得たい場合がある。これを目指すものが推測統計学である。
例えば広告効果を知るために、あるテレビ番組を日本全国でどの程度の人が見たかを知りたいとす
る。それを調べるために国勢調査のような大がかりな調査をすることは、広告費以上に費用がかか
る上にデータを集計するだけでもその広告の有効期間以上に長い時間がかかり、何の意味もないこ
とである。例えば 200 人の人を調べることによって、日本全体についてどの程度妥当な推測が得ら
れるかを研究するのが推測統計学である。例えば 40 人のクラスにおいて、3 人の生徒の成績を調
べることからそのクラスについてどの程度妥当な推論が可能であるかという問題は全く自明なこと
ではなく、それぞれの問題に応じて、緻密な数学的考察が必要となる。
1
1
平均・分散
記述統計学における平均値はほとんどの人が普通に使っているものである。用語の誤解を避け
るために、標本平均・標本分散と呼ぶこともある。例えばデータが x1 , x2 , . . . , xn であったとする
と、その平均値 m は
n
1
x1 + x2 + · · · + xn
m :=
xk =
n
n
k=1
で定義される。一方、分散 v は各データから平均値を引いたものの 2 乗平均として定義される。
n
v :=
1
(x1 − m)2 + (x2 − m)2 + · · · + (xn − m)2
(xk − m)2 =
n
n
k=1
分散の定義を展開して整理すれば明らかなように、期待値と分散の間の関係に類似の関係が直ちに
導かれる:
v=
n
n
k=1
k=1
1 2
1 2
(xk − 2mxk + m2 ) =
xk − m2
n
n
分散の平方根を標準偏差(standard deviation)という:
n xk − m 2
√
√
σ := v = n
k=1
これは n 次元空間の点 (x1 − m, x2 − m, . . . , xn − m) が原点からどの程度離れているかを表わす距
√
離の指標である。 n は (1, 1, . . . , 1) のベクトルの長さである。これで割っておかないと、データ
の数が増えるだけで標準偏差も大きくなってしまいデータの散らばり具合という指標にならなく
なってしまう。
注意 1. 分散をここで挙げた定義ではなく
n
v=
1 (xk − m)2
n−1
k=1
n−1
= 1 だから n が十分に大きければ両
n
者には大きな差はない。なお、推測統計学ではこちらの定義を採用する必然的理由がある。この
n
1
定義では v = n−1
x2k − m2 であるから分散の計算は少し複雑になる。後のことを考えるとこ
と定義することがある(不偏標本分散という)。 lim
n→∞
k=1
ちらを採用した方が統一的だが、この講義では各学生の裁量に任せることにする。試験の時にも、
記述統計に関する限り、どちらの定義を採用しても構わないとする(但しその旨明記せよ)
。
例 1. 次の 5 人の試験の成績(これは架空のものである)について、各教科の平均・分散・標準偏
差を求めよ。
国語
数学
理科
英語
A
60
90
75
70
B
75
70
60
80
C
D
50
80
80
100
40
85
60
90
E
50
30
50
45
定義に基づいて頑張って計算すればよい。
2
国語
数学
理科
英語
平均
63
74
62
69
分散
156
12.49
584
24.17
266
16.31
244
15.62
標準偏差
これから、次の結論を導くことは妥当である。
• 全体として数学の得点は他の教科より高い。
– ただし、それが問題が易しかったからなのか、この 5 名が数学が得意だからなのかは分
からない。
• 数学の点数のばらつきは最も大きい。
• 国語の点数のばらつきは最も小さい。
• 理科と英語の点数のばらつき具合に大きな差はない。
1.1
度数分布
実際には生のデータ、例えば 100 人の成績であればそれをそのまま手に入れることは最も情報が
多いので悪いことではないように見える。但し、情報は多ければよいというものではない。その中
から意味のある情報を抽出することが肝要である(そもそもそれが記述統計の目的である)。その
ため、資料を整理して、資料の値を範囲で区切り、その範囲に含まれるデータの個数を表示するこ
とがある。それが度数分布である。
その度数分布から平均値、分散などの記述統計量を計算するときには、通常は(他に合理的な理
由がない限り)その値の範囲の中央の値を代表値として取り出し、その範囲の全データがその代表
値を取ったものとして扱う。
注意 2. 従って、当然真の標本平均と度数分布表から求めた標本平均とはずれてしまう。そのずれ
の大きさがどの程度であるかは重要である(が、ある意味で推測統計の問題になる)。確率分布を
仮定した上で適切な度数分布表の求め方は、演習問題を参照。
例 2. ある都市の 1 月の積雪量は次の通りであった。平均・分散・標準偏差を求めよ。
積雪量
日数
代表値
0∼10
10∼20
8
8
5
15
20∼50
14
35
50∼100
1
75
平均は
(5 × 8 + 15 × 8 + 35 × 14 + 75 × 1) ÷ 31 =
725
= 23.4
31
である。また、2 乗平均は
(52 × 8 + 152 × 8 + 352 × 14 + 752 × 1) ÷ 31 =
24775
= 799.2
31
だから分散(不偏分散ではない)は 799.2 − 23.42 = 251.6(計算法によっても最終桁程度は変わ
る)であり、標準偏差は 15.9 である。
3
なお、例えば所得などの調査では、最初の階級と最後の階級とにおいて、下限・上限が設定され
ない度数分布表が作成されることがある。この場合記述統計としては
• 両端の階級は「異常値」または「外れ値(outlier)
」といい、計算上無視する。但しその両端
の階級の度数が全体に比べて十分小さくなければならない。
• 両端の階級には別の方法で代表値を与える。一般には最初の階級に対しては 0 を与え、最後
の階級についてはその直前の階級と同じ幅を考えて代表値を算出する。
などの方法がとられる。しかし恣意的にならないように注意せねばならない(が、往々にして記述
統計の適用目的が恣意的結論を得るためであるということもまた、厳然たる事実であろう)
。
1.2
他の平均
一般に標本平均を算出するときには、データの和をその総数で割る。これは算術平均(arithmetic
mean)と呼ばれる。
一般的によく用いられる平均にはそのほかに幾何平均(geometric mean)
:
n
√
n
mg := xk = n x1 x2 . . . xn
k=1
と調和平均(harmonic mean):
n
1 1
1
1
:=
=
mh
n
xk
n
k=1
1
1
1
+
+ ···+
x1
x2
xn
がある。それぞれデータの意味を考えて採用する必要がある。
例 3. 1983 年から 1988 年までの 5 年間の東京都心 3 区の商業地価上昇率は
21.8%, 30.5%, 53.6%, 50.0%, 12.9%
である。この間の平均上昇率は幾何平均
√
5
1.218 × 1.305 × 1.536 × 1.500 × 1.129 = 1.328
によって 32.8%である。
例 4. 行きは高速道路を使って時速 70km で、帰りは一般道を通って時速 35km で往復したときの
平均時速は調和平均
1
70
2
+
1
35
=
140
= 46.7
3
である。
1.3
変動係数
記述統計量を求めて比較するときに、本来その比較が適切ではない場合がある。例えば以下の表
は日本における県ごとの県民所得(これもまた平均値)についての統計データである。つまり、47
都道府県それぞれで求めた平均値を用いて、それぞれの都道府県を対等にして求めた平均と標準偏
差である。
4
1965 年
1975 年
平均
26.6 万円
117.5 万円
標準偏差
7.5 万円
23.8 万円
これについて次の結論は誤りである。
• 10 年間の高度経済成長の結果所得は増大したが、地域間格差も増大した。
所得の増大は平均値が増大しているので妥当な結論であるが、標準偏差も 3 倍以上になっている。
標準偏差はデータの散らばり具合を表わす指標であるから、これは県ごとにその散らばりが大き
い、従って地域間所得格差があるという主張である。
一般的に平均が大きくなれば、標準偏差も大きくなる。確率論によると(これは数学的事実)確
率変数 X と aX + b とでは
E[aX + b] = aE[X] + b,
V (aX + b) = a2 V (X),
σ(aX + b) = |a|σ(X)
の関係がある。従って、全データが等しく a 倍になったのなら、標準偏差も |a| 倍になる。これを
踏まえると(これは数学的な議論ではない)この両者を比較するために、変動係数(coefficient of
σ
variation) を用いることが妥当である。つまり、標準偏差を平均で割って 7.5 ÷ 26.6 = 0.28 と
m
23.8 ÷ 117.5 = 0.20 とを比較する。これは平均値を基準として値がどの程度の割合のところに分布
しているかを測定する指標である。従って妥当な結論は
• 高度経済成長の結果所得は増大し、地域間格差は減少した。
と理解すべきである。これは実感としても妥当な結論であろう。[一般に発展途上国では都市部と
農村部の所得格差は大きいが、先進国では田舎に行ってもそれほど物価が安いわけではない]。
1.4
平均偏差
平均値の周りにどの程度の距離でデータが散らばっているかを測定する尺度として標準偏差
n
1 (xk − m)2 を採用するのではなく、平均偏差(mean deviation)
n
n=1
σ
¯ :=
n
1
1
|xk − m| = (|x1 − m| + |x2 − m| + · · · + |xn − m|)
n n=1
n
を採用することがある。
これは、ベクトル (a, b) のノルムを (a, b) := |a| + |b| と定義しているようなもので、数学的に
は妥当性がないわけではない(1 -ノルムという)が、きれいな理論はできない(例えば内積は定
義できないことが証明できるので、共分散などの概念とは決して対応しない)。それらの詳細は距
離空間論/位相空間論で扱われるが、1 -ノルムによる御利益はあまりないので、この講義では平
均偏差は考えない。
2
エントロピー
平均はデータの典型的な値を表わす指標であり、標準偏差は平均的にその平均値の周りのどの程
度の距離にデータが散らばっているかを表わす指標である。ところで、同じ人数の 2 つのクラスに
ついてある試験を実施したところ、次のような得点分布が得られた。
5
1組
得点
2組
得点
A
40
I
50
B
C
60
60
J
K
30
50
D
E
40
40
L
M
50
50
F
G
60
60
N
O
70
50
H
40
P
50
この両組の平均と標準偏差は共に 50 点・10 点である。1 組は全員が平均点から 10 点離れた点数
なので標準偏差 10 点というのは明らかであるが、2 組は 8 人中 6 人が平均点を取り、2 人が 20 点
離れた点数になっている。平均と標準偏差という 2 つの指標ではこの両者の違いを区別できてい
ない。その違いを把握するには、データがどの程度散らばっているかを表わす指標が必要であり、
それがエントロピー(entropy)である。
(xk − m)
の 3 乗平均、4 乗平均を考えてそれ
σ
ぞれ歪度(skewness)
・尖度(kurtosis)と呼ぶ。それぞれデータがどの程度偏っているか、集中し
ているかを表わす指標である。この講義では(少なくとも記述統計としては)歪度・尖度は扱わな
注意 3. 分散は平均との差の 2 乗平均であったが、
い。なお、尖度の定義では(正規分布の尖度が 0 となるという理由で)4 乗平均から 3 を引いて定
義することが多い。
確率変数 X : Ω → {a1 , a2 , . . . , aM } が P (X = ak ) = pk であるとき、{p1 , p2 , . . . , pM } を X の確
率分布であるという。
定義 1. 確率分布 {p1 , p2 , . . . , pM } のエントロピーとは
H := −
M
pk log pk
k=1
のことをいう。
補題 1【ギブスの不等式】. 2 つの確率分布 {p1 , p2 , . . . , pM } と {q1 , q2 , . . . , qM }(0 < pi , qi < 1,
M
M
pk =
qk = 1)について
k=1
k=1
−
M
pk log pk ≤ −
k=1
M
pk log qk
k=1
が成り立つ。
証明 まず x ≤ 0 の範囲で log x ≤ x − 1 が成り立つ。また等号成立は x = 1 に限る。だから
M
k=1
となる。したがって
M
k=1
M
pk log
qk
≤
pk
pk
pk log qk ≤
k=1
M
k=1
qk
−1
pk
=
M
(qk − pk ) = 0
k=1
pk log pk である。しかも等号成立はすべての k で pk = qk
に限る。
6
定理 1. p1 , p2 , . . . , pM は pi > 0 で
なるのは p1 = p2 = · · · = pM =
1
M
M
k=1
M
M
k=1
pk log pk が最大と
のときである。
証明 ギブスの不等式において qi =
−
pk = 1 を満たすとする。このとき −
1
M
とおくと
pk log pk ≤
k=1
M
pk log M = log M
k=1
である。
従ってエントロピーは一様分布(すべての実現値が等確率)である場合が最大であり、また取り
得る値の種類(M )が多くなれば大きくなる。最小となるのは 1 つの値に集中する(確率的ではな
い)場合で、0 である。なお、エントロピー自身は M = ∞ でも定義できる。
例 5. この節の冒頭の例では 1 組は { 12 , 12 } の確率分布を持ち、2 組は { 81 , 18 , 34 } の確率分布を持つ。
従って 1 組のエントロピーは log 2 = 0.693 であり、2 組のエントロピーは − 34 (log 3−3 log 2) = 0.736
である。従って 2 組の点数の方が散らばっていると結論できる。
注意 4. エントロピーという用語はクラウジウスによって熱力学に導入された。熱力学のエントロ
ピーはまだ理解し尽くされない神秘的な概念であるが、その後ボルツマンによってここで挙げたエ
ントロピーが定義された。さらにシャノンによって情報理論にも適用され、コルモゴロフとシナイ
によって力学系(簡単に言えば数列の極限を解析する理論)のエントロピーが定められた。特に力
学系の分類理論では 1970 年頃にエントロピーが完全不変量であることが示され、エルゴード理論
の基礎理論が完成したとみなされている。対数の底としては e(自然対数)または 2 がよく用いら
れるが、常用対数を用いることもある。この講義では自然対数を採用している。
例 6. 次の表は、ある大学における 100 人の学生について出身地域(A∼E の 5 地域)の分布が 10
年前と現在でどのように変わったかを調べたものである。
地域
A
B
C
D
E
合計
現在
10 年前
32
28
19
13
10
18
24
29
15
12
100
100
このようなデータに対しては、平均や標準偏差のような概念は意味をなさない。そこでエントロ
ピーを計算すると、現在は 1.537 で 10 年前は 1.544 である。従って、出身地のばらつき具合にほ
とんど変化はみられないと考えられる。
3
データの標準化
ある人が受けた 2 つの異なる試験の成績を比較したい場合がある。このとき、2 つの試験はそれ
ぞれ異なる得点分布をしているから、単純に両者を比較することはできない。そこで、もとの得点
から標本平均を引き、標本標準偏差で割ったもの:
zi :=
xi − m
σ
を考える。すると {zi } は平均 0 で標準偏差 1 となる。また、標準偏差で割ることで単位を持たな
い数となるので、例えば元のデータが身長(単位:cm)と体重(単位:kg)であっても両者が比
較できるようになる。
7
例 7. 次のデータは A 君から G 君の 7 人の身長と体重の(架空)データである:
身長
体重
身長
体重
A
B
160
175
52
59
A
B
−1.41
0.10
−1.14
−0.42
C
D
165
168
61
58
C
D
−0.90
−0.60
−0.21
−0.52
E
F
178
192
56
80
E
F
0.40
1.81
−0.73
1.77
G
180
75
G
0.60
1.25
平均
174
9.93
63
9.62
平均
0
1
0
1
標準偏差
標準偏差
これによると G さんは身長・体重ともに平均より大きいが、実は体重は身長よりも平均から離れ
ていることが分かる。
標準化データを用いると
• 異なる種類のデータを比較
• その集団における相対的な位置関係を数量化
することができるようになる。
注意 5. データの標準化によって捉えられるようになるものは、そのデータ集団における平均と標
準偏差をもとにした相対的な位置関係である。つまり、あるデータがそのデータ集団の平均的な散
らばり具合(標準偏差)の何倍程度平均から離れているかが数値化される。
標準化したデータの比較で分かるのは、同じ集団の中での位置関係である。例えば県ごとに実施
される異なる学力試験の得点を標準化しても、絶対的な優劣は比較できない(ある県での大きな標
準化得点の人が他県のそれより小さな標準化得点の人より学力が上位であるとは一概には結論でき
ない)。もちろん同じ学力試験が実施されていれば標準化しなくても優劣は分かる。同じ集団が異
なる試験を受験した場合にはその集団の平均的な得点との相対位置を異なる試験間で比較できる。
定義 2. z1 , z2 , . . . を標準化されたデータとするとき、ti := 10zi + 50 で定義される値を偏差値また
は偏差値得点という。主に教育学や心理学の分野で用いられている。
注意 6. 偏差値の平均は 50 であり、標準偏差は 10 である。教育学でよく用いられるのは、この補
正によって通常の 100 点満点の試験と似た感覚で数値が捉えられるようになるからだと想像され
る。但し、明らかに偏差値得点は負にもなるし 100 を超えることもある。
例 8. 100 人が受験した試験で 99 人が 0 点、1 人が 100 点であった。すると、平均点は 1 点であり、標準
偏差は 1002 /100 − 12 = 9.95 である。従って 100 点の人の偏差値得点は (100−1)÷9.95×10+50 =
149.5 である。一方 0 点の人の偏差値得点は (0 − 1) ÷ 9.95 × 10 + 50 = 49.0 である。これは極端
に見えるが、例えばテレビ番組で会場 100 人に正解者 1 名を目指すクイズを出す場合はこのような
事例である。
例 9. A さんの数学の得点は中間試験が 40 点・期末試験は 35 点であった。一方 A さんのクラス
全体の平均点は中間試験が 50 点・期末試験は 45 点であり、標準偏差は中間試験が 10 点・期末試
験は 15 点であった。その結果 A さんの偏差値得点は中間試験が 40・期末試験は 43.3 であり、ク
8
ラス全体の成績から見ればより平均に近づき、相対的には成績の向上があったと考えられる(但し
順位は変わっていないかもしれない。A さんよりも下位の人の成績がよりひどく悪化しただけか
もしれない)。
4
相関係数
2 つ以上の種類のデータが組になっているものを多次元データという。今、X と Y という 2 種
類のデータがあったときに、その平均と標準偏差をそれぞれ mX ・mY および σX ・σY とする。2
つの確率変数 X, Y に対する共分散と相関係数の概念の類似として、
n
c :=
1
(xk − mX )(yk − mY )
n
k=1
を共分散といい、
r :=
c
σX σY
を相関係数という。c と σ の計算のいずれも n で割る操作が入っているから、
n
r=
(xk − mX )(yk − mY )
n
n
2
(xk − mX )
(yk − mY )2
k=1
k=1
k=1
によっても相関係数は計算できる(これは共分散や分散を不偏共分散と不偏分散としている場合で
も同じである)
。確率変数の場合と同様に −1 ≤ r ≤ 1 である。確率変数の場合には X と Y が独立
なら相関係数は 0 となり、X と Y が比例関係にあるとき(Y = aX )には相関係数は ±1 である
ことが証明できているから、標本相関係数の計算によって両データの相関の強さを量る一つの指標
とすることができると期待することは妥当である。
注意 7. 2 つの量の間に相関(correlation)があるということと、2 つの量の間に因果(causality)
関係があるということの間には何の関係もない。例えば東京の地域ごとのデータで銀行数と飲食店
数には強い相関があることが知られているが、どちらかが多いから他方が多いのではない(理由は
昼間の人口が多いと両者が同時に増大することにあると考えるのが自然である)。また、相関がな
いことは独立を意味しない。完全に決定論的な(しかし比例でない)関係があるのに相関係数が 0
になる例がある(演習問題参照)
。
例 10. 例 7 のデータでは共分散は
548
1
[(160 − 174) × (52 − 63) + (175 − 174) × (59 − 63) + · · · (180 − 174) × (75 − 63)] =
= 78.29
7
7
である。従って相関係数は 78.29/(9.93 × 9.62) = 0.820 となる。これは比較的 1 に近く、両者には
相関が認められるとして妥当である。
例 11. 大学入試センターの 1983 年の発表によると、共通一次試験(大学入試センター試験の前
身)において各科目間の相関係数は次の表のようであった。
9
国語
社会
数学
理科
外国語
国語
1.000
0.525
0.340
0.423
0.536
社会
0.525
0.340
1.000
0.531
0.531
1.000
0.669
0.740
0.619
0.547
0.423
0.536
0.669
0.619
0.740
0.547
1.000
0.584
0.584
1.000
数学
理科
外国語
この相関係数の表によると、最高の相関は数学–理科間の 0.740 であり、最低の相関は数学–国語間
の 0.340 である。共通一次試験は国公立大学間共通で行なわれていた一次試験(現在の個別試験は
二次試験と呼ばれていた)であり、受験者は国公立大学志願者に限られる。従ってこのデータから
高校生一般についての科目間相関は何も結論できない。ましてや「数学ができるから理科もでき
る」という類推は統計学の対象外である。
また、これは全科目試験があるという前提(理科 2 つと社会 2 つを含めて 5 教科 7 科目、1000
点満点が原則)の受験生のデータであり、
「数学–理科には高い相関があるので一方の試験のみで他
方の実力がある程度反映される」という結論を導いて一方を受験科目から外すと相関係数が一気に
低下すると考えられている。記述統計はあくまでも得られたデータとその前提を踏まえた事後の
データ解析手段に過ぎない。
注意 8. 相関係数は、2 つの系列のデータ X と Y が比例関係に近い、つまりデータを X-Y グラフ
にプロット(散布図)したときに直線的に近い方が相関係数が大きくなる。
一般にある条件を境にしてデータを切り捨ててしまうと、データの範囲は狭くなるから、必然的
に相関係数は小さくなる(図的に言えば、
「膨らんで」見えるようになる)
。例えば入学試験の成績
と入学後の成績の相関係数を求めるという作業がよく行なわれるが、不合格者の入学後の成績を調
べることは原理上不可能だから、比較的小さな相関係数が得られる。不合格者は入学した人よりも
もっと成績が悪いかも知れないからである。「入学試験の成績がよい」とは相対的に不合格者に対
して(不合格者がいるからこその概念)であったのに、
「入学後の成績がよい」とは合格者の中で
のデータであり、両者の相関を測定することにはあまり意味がない。ましてその因果関係は統計学
ではわからない。
5
回帰分析
2 つのデータ系列 X と Y の間に何か合理的な理由があって、比例関係にあると期待できること
がある。例えばある種の物理現象ではそのように期待できる。
場合によっては得られたデータが高い相関を示しているとき、その間に比例関係があると期待し
て、それを仮定して議論を進めるということもある(推測統計の問題)。
Y = aX + b の関係があると期待しているとき(Y = aX p の関係があるときには対数を取って
log Y = p log X + log a としてやはり比例関係が期待できる)、その a と b を実験データなどから決
定したい場合がある。実験データには必ず誤差(測定誤差、自然雑音などの効果)が伴うから、得
られたデータをプロットしたときにそれが直線上にあることはまずあり得ない。
そこで得られたデータから a と b を決定する方法が必要である。これを回帰(regression)分析
という。問題を定式化すると次のようになる。
問題 1. Y = aX+b という関係があると仮定したとき、実際に得られたデータ {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )}
の集合が直線 y = ax + b と最も近くなるような a, b の値はいくらであるか。
10
これは純粋に数学の問題であるが、
「最も近い」という言葉の意味を明確にしなければならない。
そこで
S :=
n
[yi − (axi + b)]2
k=1
と定める。つまり、y = ax + b を仮定して x = xi のときの値と実際の値 yi との差の 2 乗和を基準
n
|yi − (axi + b)| を最小に
とする(その平方根をとっても最小であるかどうかは変わらない)。
k=1
するべきという考え方もあり得るが、それはここでは扱わない。
定理 2【最小二乗法】. n 個の 2 次元データ {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} が与えられているとき、
S :=
n
[yi − (axi + b)]2
k=1
を最小とする実数 a, b は
a=r
σY
,
σX
b = mY − r
σY
mX = mY − amX
σX
で与えられる。但し mX , σX は {x1 , x2 , . . . , xn } の平均と標準偏差、mY , σY は {y1 , y2 , . . . , yn } の
平均と標準偏差であり、r はこのデータの相関係数である。この直線
σY
σY
x − mX
y − mY
y=r
x + mY − r
mX ,
=r
σX
σX
σY
σX
を回帰直線(regression line)という。
証明 uk := xk − mX および vk := yk − mX と変数変換する。すると
1
n
n
k=1
2
u2k = σX
,
1
n
n
k=1
S=
=
=
vk2 = σY2 ,
n
k=1
n
k=1
n
k=1
1
n
n
k=1
n
k=1
uk = 0,
n
k=1
vk = 0,
uk vk = rσX σY である。さらに、
(vk + mY − auk − amX − b)2
(vk − auk − c)2 ,
vk2 + a2
n
c = amX + b − mY
u2k + nc2 − 2a
k=1
n
uk vk − 2c
k=1
n
k=1
vk + 2ac
n
uk
k=1
2
= n(σY2 + a2 σX
+ c2 − 2arσX σY )
= n (aσX − rσY )2 + (1 − r2 )σY2 + c2
となる。これを最小とする a, b を求めるが、それは明らかに aσX −rσY = 0 かつ c = amX +b−mY =
Y
Y
0 となるものであり、それは a = r σσX
かつ b = mY − rmX σσX
である。そのときの最小値は
2 2
n(1 − r )σY である。
次のことは証明から明らかである。
系 1. 実データと回帰直線との差の 2 乗和は n(1 − r2 )σY2 であり、1 − r2 = 0 のときには全データ
が直線の上に載っている。そこで r2 を決定係数という。
11
決定係数が 1 のときにはデータは直線と一致しており、決定係数が 0 のときには回帰直線とのず
れの 2 乗和は σY2 であり {yn } の分散がそのまま残ることになる。
注意 9. 2 つのデータ X, Y から相関係数を求める操作では X と Y の立場は対等である。しかし
回帰直線を求めるときには一方のデータ Y は他方のデータ X から決まると仮定して、Y 側の誤差
を最小にするように求めており、対等ではない。x1 , x2 , . . . を説明変数、y1 , y2 , . . . を被説明変数と
呼ぶこともある。
例 12. 次の表はある 10 社の広告費率と利益率をまとめたものである。
広告費率
1.2
0.7
1.5
1.8
0.5
3.4
1.0
3.0
2.8
2.5
利益率
2.7
2.4
2.7
3.3
1.1
5.8
2.2
4.2
4.4
3.8
広告費
純利益
× 100 のことであり、利益率とは
× 100 のことである。
総経費
売上高
これより次の記述統計量が計算できる。
但し広告費率とは
広告費率
利益率
平均値
標準偏差
1.84
3.26
0.973
1.27
さらに相関係数を求めると 0.958 と極めて高い値である。
そこで利益率 y は広告費率 x に比例すると仮定し、回帰直線を求めると
x − 1.84
y − 3.26
= 0.958 ×
, y = 1.25x + 0.96
1.27
0.973
と求まる。決定係数は 0.9582 = 0.918 である。つまり、広告費を 1%増加させると利益率が 1.25%増
加するというのは(ここで用いたデータの範囲の広告費率の範囲では)妥当な結論である。
以上が、もちろんさらなる発展もあるが、ゴルトン、カール・ピアソンによって確立された記述
統計学の概要である。それは資料(データ)を整理・分析し、そこから合理的な主張を導きだそう
とするもので、小学校・中学校・高等学校と続く資料の整理法に関するひとまずの完結である。
記述統計学では前回まで準備してきた確率論は、
(確率論の解釈的側面からの)用語の類推とい
う点を除いては一切関係もないし、全く使われてもいないことに注意せよ。それは確率論の誕生が
記述統計学の完成よりもはるかに後の時代であるから当然でもある(つまり確率論が記述統計の用
語との類推から数学用語を作ったということでもある)。
一方で、カール・ピアソンの弟子であったフィッシャーは、集められたデータというものはより
広範囲の現象から抜き出された代表であり、そのデータの分析は大本の現象についての性質を反
映しているはずで、それをいかに合理的に推測すべきかの研究を始めた。これはデータというも
のに対するカール・ピアソンの考え方とは真っ向から対立し、両者は口論を繰り返し、結局フィッ
シャーは大学を飛び出すことになった。フィッシャーはその後ゴセット(ペンネームはスチューデ
ント、カール・ピアソンとも交流を保った)の協力も得て、実験計画法、推測統計学を確立し、統
計学はそれまでの古典的な方法論から一気に飛翔する。
フィッシャーの方法は素人には分かりづらい点もあったが、ネイマンやエゴン・ピアソン(カー
ルの息子)らがフィッシャーの統計学に数学的基礎を与える数理統計学を確立し、確率論の結果を
応用してその基盤を確固たるものにした。ここにいたって確率論と統計学の直観解釈を経由した
用語の借用関係は、実用的学問とその基礎付けという表裏一体のものとして生まれ変わることにな
る。そこで次回からは推測統計学を扱う。
蛇足であるが、エゴン・ピアソンはフィッシャーを大変崇拝していたが、フィッシャーからは
カールの息子であるということで終生罵倒され続けた。
12