多変量解析 -重回帰分析-

多変量解析 -重回帰分析-
発表日:11月14日
発表者:時田 陽一
1.重回帰分析とは?
重回帰分析・・・目的変数と説明変数との関係を調べ、関係式を作成し、
以下の事柄を明らかにする (適用できるデータは数量データ)
① 予測・潜在能力・評価
② 説明変数の目的変数に及ぼす影響度
③ 説明変数の重要性の格付け
重回帰式(重回帰分析における関係式)
y  a2 x2  a2 x2  ap xp  a0
y:目的変数、 x1, x2 ,, xp :説明変数、 p :説明変数の個数
a1, a2 ,, ap:係数、 a0 :定数項
具体例
ある会社の6営業所における売上額、広告費、セールスマン数を示したもの
売上額(y)
(千万円)
広告費(x1)
(百万円)
セールスマン数
(x2) (人)
A
8
5
6
B
9
5
8
C
12
7
10
D
11
5
12
E
13
8
12
F
17
12
12
G
?
17
14
重回帰分析を行うと、以下の式が
導かれる
y  0.8627x1
 0.4608x2  1.0196
1つの営業所に当てはまる係数は手でも用意に求められる。しかし、
6つの営業所全てに当てはまる係数を手で求めることは困難
実際に測定された値(売上額):実績値
係式に変数を代入して得られる値:理論値
実績値≒理論値 とすることが目標
予測と変数の影響力
●予測・潜在能力・評価
求められた関係式を用いて新設の営業所の売上げ予測ができる
y  0.8627x1  0.4608x2  1.0196
 0.862717  0.460814  1.0196  22.1
よって、営業所Gの売上げ予測は22.1千万円
「予測」のほかにも、「潜在能力」「評価」についても明らかにできる
●説明変数の目的変数に対する影響力
係数のデータ単位は目的変数のデータ単位と同じになる
広告費の係数:0.8627(千万円), データ単位:百万円
セールスマン数の係数:0.4608(千万円), データ単位:人
広告費100万円使うと売上げは860万円増加
セールスマン1人増加で売上げは460万円増加
説明変数の重要性ランキング
●説明変数の重要性ランキング
説明変数のデータ単位が変わると係数も変わる
係数の大きな説明変数≠予測に重要な説明変数
広告費のデータ
単位
広告費の
係数
大小
セールスマン数の
係数
百万円
0.8627
>
0.4608
十万円
0.08627
<
0.4608
係数とは別に統計値(標準偏回帰係数という)を算出し、
この値を用いて重要な説明変数のランキングを行う(後述)。
2.関係式の係数-偏回帰係数
前述の係数⇒偏回帰係数(partial regression coefficient)という
●偏回帰係数の算出
係数
a1, a2 ,, ap
は以下の連立方程式により導かれる
 s11a1  s12a2   s1 p a p  s y1
 s a  s a   s a  s
 21 1 22 2
2p p
y2



s p1a1  s p 2a2   s ppa p  s yp
sii :偏差平方和(分散を求
めるときの分子の値)
sij i  j 
:積和(相関を求め
るときの分子の値)
a0 は以下の式によって求められる
a0  y  a1x1  a2 x2  ap xp
y, x1, x2 ,, xp:それぞれの変数の平均
具体的な計算はText p.31,32
3.説明変数の重要性のランキング
- 標準偏回帰係数
・説明変数のデータ単位の取り方により係数値は変化する
・データ単位が同じならば、係数を大きい順に並べて、重要な
変数のランク付けができる
「基準値」という公式によりデータ単位をそろえ、重回帰分析を行う
このようにして求めた係数を「標準偏回帰係数」という(値が大きいほど重要な変数)
〔基準値:データから平均を引き、標準偏差で割った値
具体的な計算はText p.33〕
『簡単に標準偏回帰係数を求める公式』
ai  ai 
Sii
S yy
i  1,2,, p
ai :偏回帰係数、 S yy , Sii (i  1,2,, p):偏差平方和
4.分析精度を表す ー決定係数
説明変数の選択が良い・・・実績値と理論値が近づく
(「分析の精度」が良いという)
説明変数の選択が悪い・・・実績値と理論値は近づかない
●重相関係数の計算方法
実績値と理論値がどれほど一致しているかを見るのは、
実績値と理論値との相関係数を求めることと同じ
単相関係数 r :
r
 y  y  yˆ  y 
y  y   yˆ  y 
i
i
2
i
2
i
yi
ŷi
:実績値
:理論値
重相関係数と一致するため「重相関係数」と呼ぶのが一般的
決定係数
残差
これを用いて分析の精度を
求めることも可能
ei : ei  yi  yˆi
残差の合計=0 ←精度の尺度としては使えない
残差平方和
SE
を用いる
SE  ei 2   yi  yˆi 2
目的変数 y の偏差平方和S yy は残差平方和 S E とその他の変動とに分解できる
以下のような
R2
を精度の尺度として用いる
SE
R 1 
S yy
2
R2 を決定係数または寄与率と呼ぶ
これは重相関係数rを2乗した結果と一致する
自由度修正済みの決定係数
決定係数の値が大きいからといって分析がうまくいったとはいえない
どんなにつまらない説明変数でも数を増やすほど決定係数は大きくなる
① サンプル数n、説明変数(n-1)は分析できない
② サンプル数と説明変数との差が2以上あっても、その差が小さい
場合は決定係数は大きくなる傾向にあるため、以下の式を用いる
SE (n  p 1)
R  1
S yy (n 1)
2'
n:サンプル数
p:変数の数
このような決定係数を「自由度修正済決定係数」と言う
決定係数はいくつ以上あれば良い?
分析者が経験的な判断から決める!!
textの著者・・・0.5(重相関係数は0.7)を基準に判断
決定係数
重相関係数
非常に良い
0.8以上
0.9以上
やや良い
0.5以上
0.7以上
悪い
0.5未満
0.7未満
サンプル数が少ないとき → 重回帰分析を予測に使えないことがある
「決定係数の検定」をしなければならない
5.決定係数の検定
回帰平方和
残差平方和
(SR )
S yy  SR  SE
偏差平方和 (S yy )
(SE )
y の差の2乗和 S yy  yi  yi 2
回帰平方和:理論値 ŷi と平均 y の差の2乗和 SR   yˆi  y 2
偏差平方和:実績値 yi と平均
残差平方和:実績値 yi と理論値の差の2乗和
SE   yi  yˆi 2
決定係数が大きい → S E が小さく SR が大きい
それぞれの不偏分散を求め、
それらの比の大きさについて考慮する
SR , SE の不偏分散: VR  SR , VE 
p
SE
n  p 1
n:サンプル数,p:変数の数
FR  VR VE  が有意水準α(一般的には0.01or0.05)に
おけるF分布の値より大きければ有意
6.変数選択の方法
分析の精度はどのような説明変数を用いるかによって決まる
良い説明変数の選択が分析の精度向上に必要
説明変数の選択
・目的変数と相関の高い変数を説明変数にする
・単相関係数を用い、相関が0.7以上のものを説明変数にするのが一般的
説明変数の絞込み
①説明変数相互で高い相関のあるものを探し、そのどちらかを落とす
相関が0.9以上あるときはどちらかを落とすのが一般的
②将来設定できない説明変数を落とす
③データが全て同じ値の説明変数は、重回帰分析に使えない
変数クラスター分析、変数選択法を用いると変数選択が容易にできる
マルチコに注意
目的変数と相関の高いいくつかの説明変数を選択し、重回帰分析を
行ったとき、偏回帰係数がおかしな値になることがある
この現象を「マルチコリニアリティ」という
(略してマルチコ、日本語では多重共線性)
「説明変数の絞込み」の①を怠ったために生じる
マルチコ発生の調査
・偏回帰係数 ai と単相関係数 ryi の符号が一致しているかどうかを調査
・各変数に対する偏回帰係数と単相関係数の符号が全て一致すればマル
チコは生じない
text p.43の例
重回帰式: y  0.8x1  2.9x2 100
ry1  0.92, ry2  0.95
符号が異なる⇒マルチコ発生
マルチコを承知の上で使うことがある
マルチコが起こっていても、それを承知の上で重回帰式を採用することがある
変数相互で高い相関のあるものを一つの変数とみなす
具体例.
text p.35の売上額と広告費との間の関係
直線的関係というよりは、
曲線的関係がある
2次曲線を当てはめると:
y  0.038x2 1.74x 1.59
X 2:広告費、 X1 :広告費の2乗 として重回帰式を求める
y  0.038X1 1.74X 2 1.59
X 2 と X1 は相関が0.9939であるのでマルチコが起こる。しかし、 X1 の
項が増加の抑制の役割を果たすので、この式は使えることになる
変数クラスター分析による選択
マルチコが起こらないようにするため、変数の選択をしなければならない
・・・変数が少ない場合→容易に選択できる
・・・変数が多い場合→「変数クラスター」という分析手法によって
変数分析するのが有効
変数クラスター分析
変数相互の相関からどの変数とどの変数が「類似しているか」を明らかにし、
類似している変数をいくつかのグループに分類する手法
グループ内の変数は、相互に相関が高いので、重回帰分析に
使う変数は各グループから1つずつを選択する
3つに分ける
場合
4
5
1番目のグループは変数が4つある
・・・最も相関の高い4番を選択する
7
8
3
2
4番、3番、2番を使って重回帰分析する
ことでマルチコが起こらなくなる
7.説明変数とサンプルの数
●説明変数の数は10未満に
説明変数の数が多い・・・決定係数が高くなる
・・・マルチコの問題にぶつかる
数が2桁になるとマルチコが起こる確率が高くなる
そのため、10個未満で決定係数を最大にするように
変数選択する
●サンプル数は変数の数より多めに
サンプル数(n)と変数の数(p)の差は2以上であることが必要
n-p-1 > 0 (必要条件)
サンプル数が少ないと、求めた重回帰式を予測に使えない
という事態が発生する
サンプル数はできるだけ多く取ったほうがよい
8.知っておきたい裏技
●こんな重回帰式は作れないのか?
y  a0  x1a1  x2a2  xpp (積の重回帰式)
a
両辺の対数をとってやると、これまでの和の形になる
Y  log y, X1  log x1,, X p  log xp とおくと、
Y  a1 X1  ap X p
y, x1,, xp に対し、 Y , X1,, X p を作り、重回帰分析すればよい
積の式の形以外にも、
データ変換してやることで様々な形の式を作ることができる
●こんなカテゴリデータなら重回帰分析にも適用できる
重回帰分析・・・数量データの場合に適用可能
数量化1類・・・カテゴリデータ(血液型など)に適用
重回帰分析でも2カテゴリの場合(0or1など)には適用可能
9.パソコン処理による結果を見る
text p.51のデータを用いて、「打撃成績と技能・体力との関係」を調べてみる
<変数選択>
標準偏差が0の変数があれば、分析から除去(全て同じデータは使えない)
目的変数(打率)との相関が低いものは除去する
説明変数相互の相関の高いものがあればいずれかの変数を分析から除去
偏回帰係数と単相関係数の符号が一致しているのでマルチコは生じていない
<係数の分析>
偏回帰係数の分析(説明変数の目的変数の対する影響力)
・・・Ex.100mを1秒早く走ると、打率が1分4厘2毛あがる
標準偏回帰係数の分析(説明変数のランク付け)
・・・「握力」「100m走」「エラー数」が重要な変数であることがわかる
10.パソコン処理による結果を見る
<分析精度>
サンプル数が20個、変数が8個、その差は12.差が10以上なので決定係数を見る
結果、決定係数は0.8754であり、分析の精度は高い
<決定係数の検定>
 FR  9.656 であり、F0 (8,11,0.01)  4.744 であるので、十分に使える式である
p.55のグラフから、異常サンプルが無いか、点のばらつきがランダムであるかを確
認する
実績値と理論値との上下関係を見て、評価分析を行う
例えば.No.2の人は実力以上の力を発揮したが、
No.3の人は実力を出せなかった