試し読みをする(1.59MB)

第 10 章
相関と回帰
2 つの対応のある標本のまとめ方については,第 3 章で,散布図や相関係数を紹介しまし
たが,これらの方法は記述統計の枠組みに留まっていました。2 変量量的変数の分析法とし
ては,母集団に関する推測を行う推測統計の枠組みにおいて,さらに高度な分析方法があり
ます。本章では,そのような方法の基礎である相関分析と回帰分析について説明します。
これらの分析は,実際のビジネスの現場でもよく用いられている手法です。以前は性能の
よいコンピューターを用いて,自分でプログラムを組む必要がありましたが,現在はエクセ
ルで簡単に操作することで結果が得られます。本章でも,理解を深めるために数式を用いて
いますが,式の展開などを覚える必要はありません。本章で示した基本的な用語や意義を理
解して,ビジネスに活用してください。
10‐1 相関分析
⿟10-1-1 散布図と相関係数
すでに,第 3 章において 2 変量の量的データのまとめ方について述べました。間隔尺度,
または比率尺度である n 組の 2 変量データを (x11,x12), (x21,x22), …, (xn1,xn2) とし,両変数の
平均値を
としたとき,x1 と x2 の相関係数 r は次式で定義されます。
第
章1相相と回帰
10
185
これは標本から計算される相関係数という意味で標本相関係数 とも呼ばれます。ただし,
1
s1 と s2 は,それぞれ x1 と x2 の標準偏差,s12 は x1 と x2 の共分散と呼ばれる統計量で,
で与えられます 。この r は,標本データから計算される相関係数ということで,標本相関係
2
数とも呼ばれます。
この(標本)相関係数はとても便利な尺度であり,多変量のデータに対して普通の統計解
析のツールを使えば,すぐにすべての 2 変数間の相関係数を計算し,その絶対値が大きい
ものは色を付けたり,アスタリスク (*) を付与して強調したりします。しかし,相関係数の
みを過度に信用するのは危険です。
多変量のデータから得られた場合には,いきなり相関係数を計算するのではなく,まず 2
変数ごとの関係性を散布図を用いて確認する癖をつけるとよいでしょう。散布図は,2 変量
のデータ間の関係性を可視化するためにとても重要であり,多くの場合,統計分析の手法を
適用する前提条件が成り立っているかどうかを確認することができます。
相関係数は,外れ値があると実際の相関関係よりも大きな値となることもあります。また,
非線形の関係がある場合にも,相関係数ではそのような従属関係をとらえることはできませ
ん。また,たとえば図 10.1 のような散布図が得られたとします。このまま相関係数を計算
すれば正の相関を示すでしょうが,意味があるとは考えられません。そもそも全データの平
を代表していません。おそらく二山のヒストグラムのときと同様,なんらかの 2 つの分布
が混ざっている可能性が考えられるので,適切な層別が有効になる場合もあります。
知識編
第 章
均値は,離れて分布している 2 つの群の真ん中あたりに来てしまって,平均値が分布全体
10
図 10.1: 散布図の例
2
s1 や s2 は標準偏差ですが,s12 は共分散です。
10
‐ 11相相相相
この相関係数は間隔尺度や比率尺度の 2 変量データに対して計算されるピアソンの相関係数(または,ピアソン
の積率相関係数)とも呼ばれるものであり,順序尺度のデータに対してはスピアマンの相関係数が使われます。こ
こでは,間隔尺度,または比率尺度の 2 変量データを扱っているので,相関係数はピアソンの相関係数の意味で用
いるものとします。
1
186
次項で説明する相関の検定や回帰分析は,2 変量間に線形の関係が存在していることを仮
定しています。したがって,きちんと散布図などを描いて,外れ値の存在や層別の必要性に
ぎん み
ついて吟味がなされていることを前提とした方法と言えるでしょう。常に,そのような「分
析手法の前提が成り立っているかどうか」を確認してから,統計分析の手法を適用するとい
う態度が,実務においてはとても重要です。データの分布に,異常値や非線形関係などの問
題がない場合には,相関係数の大きさによる相関の強さに関する解釈はだいたい表 10.1 の
ようになります。
表 10.1: 相関係数の値と相関の強さ
相関係数の範囲
r = 0.0
解釈
相関なし
0.0 < |r|
0.2
ほとんど相関なし
0.2 < |r|
0.4
弱い相関あり
0.4 < |r|
0.7
やや強い相関あり
0.7 < |r|
1.0
強い相関あり
⿟10-1-2 相関の検定
2 変量の間に非線形な関係や外れ値が存在しなかったとして,
「2 変量間に相関があるか
どうかを検証したい」というケースはあり得ます。一般に標本データから計算される標本相
関係数 r は,標本をサンプリングし直すと値が変わる,いわば確率変数です。そこで,母集
団には真の相関係数(母相関係数)
ρ が存在しており,r は標本から計算された ρ の推定値
と考えることができます。
いま,X1 は正規分布 N (μ1 , σ ) に従い,X2 は正規分布 N (μ2 , σ ) に従うものとします。
このとき,母相関係数 ρ は X1 と X2 が独立であれば ρ = 0 となり,無相関となります。
「X1 と X2 が無相関か,それとも相関があるか」という問いには,帰無仮説を
とし,対立仮説を
第
章 相関と回帰
10
187
とする仮説検定によって検証します。母相関係数 ρ が,ρ = 0 である場合の統計量の標本分
布については,次の事実が知られています。
標本相関係数の分布(ρ= 0 の場合)
母相関係数 ρ が ρ = 0 である場合,n 個の標本データから計算される相関係数 r を
用いて,統計量
を計算すると,これは自由度 φ = n - 1 の t 分布に従う。
この性質から,帰無仮説 H0 を ρ = 0 とする場合に対しては,t 分布を用いて検定が可能
となります。この検定を,無相関検定といいます。
一方,ρ0 ≠ 0 とし,帰無仮説 H0 を ρ = ρ0 とする場合は,この統計量を用いることはで
きません。また,無相関検定で帰無仮説が棄却された場合の信頼区間を求める場合にも,相
関係数が 0 でない場合の標本分布を用いる必要があります。その際に有用となるのが次の
フィッシャーの Z 変換 と呼ばれる方法です。
3
標本相関係数の分布(ρ≠ 0 の場合)
母相関係数 ρ が ρ ≠ 0 である場合,n 個の標本データから計算される相関係数 r を,
統計量
知識編
第 章
10
と変換すると,この統計量 Zr はサンプル数 n が十分大きいとき,近似的に,
平均:
,分散:
の正規分布 N (μz, σ ) に従う。
この性質から,母相関係数 ρ の信頼区間を求めることができ,帰無仮説 ρ = ρ0 を検定で
きます。まとめると,無相関検定の手続きは,次のようになります。
制御理論や信号処理の理論において,Z 変換と呼ばれる手法が活用されますが,フィッシャーの Z 変換とはまっ
たくの別物です。制御や信号処理で扱われる Z 変換は離散数列に対するラプラス変換とも言える関数解析の手法の
1 つであり,伝達関数を用いてシステムの入出力特性を解析することができます。
3
‐ 11相相相相
10
188
無相関検定
1.帰無仮説 H0 : ρ = 0 と対立仮説 H1 : ρ ≠ 0,並びに有意水準 α を設定する。
2.帰無仮説 H0 のもとで,
は自由度 φ = n - 1 の t 分布に従うので,有意水準 α により棄却域を定める。
3.実際に観測された標本から,標本相関係数 r を求め,統計量の値
を求める。
4. t が棄却域に入っているかどうかによって判定し,結論を述べる。
(a) t が棄却域に入っていれば,
「有意水準 α で,帰無仮説 H0 は棄却され,対立仮説
H1 が正しい」
,つまり「相関がある」と結論付ける。
(b) t が棄却域に入っていなければ,
「有意水準 α で,帰無仮説 H0 は棄却されず,対
,つまり「相関があるとは言えない」と結論
立仮説 H1 が正しいとは言えない」
付ける。
5.帰無仮説が棄却され「相関がある」と結論付けられた場合には,信頼係数 1 - α の
信頼区間を
とした区間推定を行う4。
最近の統計解析のソフトウェアでは,2 つの量的データの相関係数について,無相関検定
第
章 相関と回帰
10
189
で 5 % 有意を意味する「有意」
,または 1 % 有意を意味する「高度に有意」の情報を付与し
ρ1 と ρ2 は Z 変換の逆変換を用いて求められる値になります。数式が複雑になるので,詳細については,ここでは
省略します。
4
てくれるものも多くあります。ただし,データ数が非常に多い場合には,検定の検出力が高
まるため,標本から計算した相関係数の絶対値が小さくても有意になってしまう場合があり
ます。統計的に有意になっても,2 変数間の因果関係がどのくらい強いものであるかについ
ては別途慎重に検討する必要があるでしょう。
⿟10-1-3 見せかけの相関
2 つの量的データ間の相関係数は意味がわかりやすく,利用価値が高い統計量です。d 個
の変数の値がセットで与えられるような d 次元のデータに対しても,そのうちの 2 つを取
り出して相関係数を計算する操作をすべての組み合わせに対して行って表にすれば,多次元
データの大体の傾向を摑むことが可能です。
一方で,d 次元の多変量データを扱う場合には,相関係数はあくまでそのうちの 2 つの変
数間の統計的な関係性のみを見ていることに注意しなければなりません。その他の d - 2
個の変数が同時にどのように動いているのか,さらにはデータの背後になんらかの潜在的な
関係性が存在するかどうかについてはいっさい考慮していないからです。
第 3 章でも説明した見せかけの相関,あるいは疑似相関については,相関分析では問題
を発見することが難しいので,技術的な観点から,両変数の間に本当に因果関係があるのか
どうかを検討しなければなりません。検定の手順等を習得することばかりにとらわれず,目
の前で起こっている現実事象の因果関係をきちんと推察する眼力を養うことも大切です。
知識編
第 章
10
10‐2 単回帰分析
相関分析は,2 つの量的データの直線的関係について分析するものでした。一般に,全デ
ータが完全に直線上に乗っていれば,相関係数は 1 か- 1 の値をとります。全データが乗
っている直線の式が x2 = x1 であっても,x2 = 0.001x1 であっても,あるいは x2 = 1000x1
であっても,これは変わらず,相関係数は 1 か- 1 です。一方,x2 = 1000x1 という関係は,
x1 が 1 だけ増加すると,x2 は 1000 も増加するのに対し,x2 = 0.001x1 のほうは x1 が 1
だけ増加しても x2 はほとんど変わりません。けれど,相関分析ではこのような関係の違い
については明らかにしません。
そこで,このような両変数間の関係を,直線の式をあてはめて分析しようとするのが回帰
回帰モデルは,直線をあてはめる分析法であるため,散布図を描いたとき,図 10.2 のよう
に,データの分布が曲線となっている場合には,注意が必要です。
10
‐ 21単回帰相相
分析です。ここでは,説明変数が 1 つだけの場合である単回帰分析について説明します。
190