多変量解析－重回帰分析－発表日：11月14日発表者：時田陽一 1．重回帰分析とは? 重回帰分析・・・目的変数と説明変数との関係を調べ、関係式を作成し、以下の事柄を明らかにする (適用できるデータは数量データ) ① 予測・潜在能力・評価 ② 説明変数の目的変数に及ぼす影響度 ③ 説明変数の重要性の格付け重回帰式(重回帰分析における関係式) y  a2 x2  a2 x2  ap xp  a0 y：目的変数、 x1, x2 ,, xp ：説明変数、 p ：説明変数の個数 a1, a2 ,, ap：係数、 a0 ：定数項具体例ある会社の6営業所における売上額、広告費、セールスマン数を示したもの売上額(y) (千万円) 広告費(x1) (百万円) セールスマン数 (x2) (人) A 8 5 6 B 9 5 8 C 12 7 10 D 11 5 12 E 13 8 12 F 17 12 12 G ? 17 14 重回帰分析を行うと、以下の式が導かれる y  0.8627x1  0.4608x2  1.0196 1つの営業所に当てはまる係数は手でも用意に求められる。しかし、 6つの営業所全てに当てはまる係数を手で求めることは困難実際に測定された値(売上額)：実績値係式に変数を代入して得られる値：理論値実績値≒理論値とすることが目標予測と変数の影響力 ●予測・潜在能力・評価求められた関係式を用いて新設の営業所の売上げ予測ができる y  0.8627x1  0.4608x2  1.0196  0.862717  0.460814  1.0196  22.1 よって、営業所Gの売上げ予測は22.1千万円｢予測｣のほかにも、｢潜在能力｣｢評価｣についても明らかにできる ●説明変数の目的変数に対する影響力係数のデータ単位は目的変数のデータ単位と同じになる広告費の係数：0.8627(千万円)，データ単位：百万円セールスマン数の係数：0.4608(千万円)，データ単位：人広告費100万円使うと売上げは860万円増加セールスマン1人増加で売上げは460万円増加説明変数の重要性ランキング ●説明変数の重要性ランキング説明変数のデータ単位が変わると係数も変わる係数の大きな説明変数≠予測に重要な説明変数広告費のデータ単位広告費の係数大小セールスマン数の係数百万円 0.8627 ＞ 0.4608 十万円 0.08627 ＜ 0.4608 係数とは別に統計値(標準偏回帰係数という)を算出し、この値を用いて重要な説明変数のランキングを行う(後述)。 2．関係式の係数－偏回帰係数前述の係数⇒偏回帰係数(partial regression coefficient)という ●偏回帰係数の算出係数 a1, a2 ,, ap は以下の連立方程式により導かれる  s11a1  s12a2   s1 p a p  s y1  s a  s a   s a  s  21 1 22 2 2p p y2    s p1a1  s p 2a2   s ppa p  s yp sii ：偏差平方和(分散を求めるときの分子の値) sij i  j  ：積和(相関を求めるときの分子の値) a0 は以下の式によって求められる a0  y  a1x1  a2 x2  ap xp y, x1, x2 ,, xp：それぞれの変数の平均具体的な計算はText p.31,32 3．説明変数の重要性のランキング－標準偏回帰係数・説明変数のデータ単位の取り方により係数値は変化する・データ単位が同じならば、係数を大きい順に並べて、重要な変数のランク付けができる「基準値」という公式によりデータ単位をそろえ、重回帰分析を行うこのようにして求めた係数を｢標準偏回帰係数｣という(値が大きいほど重要な変数) 〔基準値：データから平均を引き、標準偏差で割った値具体的な計算はText p.33〕『簡単に標準偏回帰係数を求める公式』 ai  ai  Sii S yy i  1,2,, p ai ：偏回帰係数、 S yy , Sii (i  1,2,, p)：偏差平方和 4．分析精度を表すー決定係数説明変数の選択が良い・・・実績値と理論値が近づく (「分析の精度」が良いという) 説明変数の選択が悪い・・・実績値と理論値は近づかない ●重相関係数の計算方法実績値と理論値がどれほど一致しているかを見るのは、実績値と理論値との相関係数を求めることと同じ単相関係数 r ： r  y  y  yˆ  y  y  y   yˆ  y  i i 2 i 2 i yi ŷi ：実績値：理論値重相関係数と一致するため「重相関係数」と呼ぶのが一般的決定係数残差これを用いて分析の精度を求めることも可能 ei ： ei  yi  yˆi 残差の合計＝0 ←精度の尺度としては使えない残差平方和 SE を用いる SE  ei 2   yi  yˆi 2 目的変数 y の偏差平方和S yy は残差平方和 S E とその他の変動とに分解できる以下のような R2 を精度の尺度として用いる SE R 1  S yy 2 R2 を決定係数または寄与率と呼ぶこれは重相関係数rを2乗した結果と一致する自由度修正済みの決定係数決定係数の値が大きいからといって分析がうまくいったとはいえないどんなにつまらない説明変数でも数を増やすほど決定係数は大きくなる ① サンプル数n、説明変数（n－1）は分析できない ② サンプル数と説明変数との差が2以上あっても、その差が小さい場合は決定係数は大きくなる傾向にあるため、以下の式を用いる SE (n  p 1) R  1 S yy (n 1) 2' n：サンプル数 p：変数の数このような決定係数を「自由度修正済決定係数」と言う決定係数はいくつ以上あれば良い? 分析者が経験的な判断から決める!! textの著者・・・0.5（重相関係数は0.7）を基準に判断決定係数重相関係数非常に良い 0.8以上 0.9以上やや良い 0.5以上 0.7以上悪い 0.5未満 0.7未満サンプル数が少ないとき → 重回帰分析を予測に使えないことがある「決定係数の検定」をしなければならない 5．決定係数の検定回帰平方和残差平方和 (SR ) S yy  SR  SE 偏差平方和 (S yy ) (SE ) y の差の2乗和 S yy  yi  yi 2 回帰平方和：理論値 ŷi と平均 y の差の2乗和 SR   yˆi  y 2 偏差平方和：実績値 yi と平均残差平方和：実績値 yi と理論値の差の2乗和 SE   yi  yˆi 2 決定係数が大きい → S E が小さく SR が大きいそれぞれの不偏分散を求め、それらの比の大きさについて考慮する SR , SE の不偏分散： VR  SR , VE  p SE n  p 1 n：サンプル数，p：変数の数 FR  VR VE  が有意水準α（一般的には0.01or0.05）におけるF分布の値より大きければ有意 6．変数選択の方法分析の精度はどのような説明変数を用いるかによって決まる良い説明変数の選択が分析の精度向上に必要説明変数の選択・目的変数と相関の高い変数を説明変数にする・単相関係数を用い、相関が0.7以上のものを説明変数にするのが一般的説明変数の絞込み ①説明変数相互で高い相関のあるものを探し、そのどちらかを落とす相関が0.9以上あるときはどちらかを落とすのが一般的 ②将来設定できない説明変数を落とす ③データが全て同じ値の説明変数は、重回帰分析に使えない変数クラスター分析、変数選択法を用いると変数選択が容易にできるマルチコに注意目的変数と相関の高いいくつかの説明変数を選択し、重回帰分析を行ったとき、偏回帰係数がおかしな値になることがあるこの現象を「マルチコリニアリティ」という（略してマルチコ、日本語では多重共線性）「説明変数の絞込み」の①を怠ったために生じるマルチコ発生の調査・偏回帰係数 ai と単相関係数 ryi の符号が一致しているかどうかを調査・各変数に対する偏回帰係数と単相関係数の符号が全て一致すればマルチコは生じない text p.43の例重回帰式： y  0.8x1  2.9x2 100 ry1  0.92, ry2  0.95 符号が異なる⇒マルチコ発生マルチコを承知の上で使うことがあるマルチコが起こっていても、それを承知の上で重回帰式を採用することがある変数相互で高い相関のあるものを一つの変数とみなす具体例． text p.35の売上額と広告費との間の関係直線的関係というよりは、曲線的関係がある２次曲線を当てはめると： y  0.038x2 1.74x 1.59 X 2：広告費、 X1 ：広告費の2乗として重回帰式を求める y  0.038X1 1.74X 2 1.59 X 2 と X1 は相関が0.9939であるのでマルチコが起こる。しかし、 X1 の項が増加の抑制の役割を果たすので、この式は使えることになる変数クラスター分析による選択マルチコが起こらないようにするため、変数の選択をしなければならない・・・変数が少ない場合→容易に選択できる・・・変数が多い場合→「変数クラスター」という分析手法によって変数分析するのが有効変数クラスター分析変数相互の相関からどの変数とどの変数が「類似しているか」を明らかにし、類似している変数をいくつかのグループに分類する手法グループ内の変数は、相互に相関が高いので、重回帰分析に使う変数は各グループから1つずつを選択する 3つに分ける場合 4 5 1番目のグループは変数が4つある・・・最も相関の高い4番を選択する 7 8 3 2 4番、3番、2番を使って重回帰分析することでマルチコが起こらなくなる 7．説明変数とサンプルの数 ●説明変数の数は10未満に説明変数の数が多い・・・決定係数が高くなる・・・マルチコの問題にぶつかる数が2桁になるとマルチコが起こる確率が高くなるそのため、10個未満で決定係数を最大にするように変数選択する ●サンプル数は変数の数より多めにサンプル数(n)と変数の数(p)の差は2以上であることが必要 n－p－1 ＞ 0 (必要条件) サンプル数が少ないと、求めた重回帰式を予測に使えないという事態が発生するサンプル数はできるだけ多く取ったほうがよい 8．知っておきたい裏技 ●こんな重回帰式は作れないのか? y  a0  x1a1  x2a2  xpp （積の重回帰式） a 両辺の対数をとってやると、これまでの和の形になる Y  log y, X1  log x1,, X p  log xp とおくと、 Y  a1 X1  ap X p y, x1,, xp に対し、 Y , X1,, X p を作り、重回帰分析すればよい積の式の形以外にも、データ変換してやることで様々な形の式を作ることができる ●こんなカテゴリデータなら重回帰分析にも適用できる重回帰分析・・・数量データの場合に適用可能数量化1類・・・カテゴリデータ（血液型など）に適用重回帰分析でも2カテゴリの場合（0or1など）には適用可能 9．パソコン処理による結果を見る text p.51のデータを用いて、「打撃成績と技能・体力との関係」を調べてみる＜変数選択＞ 標準偏差が0の変数があれば、分析から除去（全て同じデータは使えない） 目的変数（打率）との相関が低いものは除去する 説明変数相互の相関の高いものがあればいずれかの変数を分析から除去 偏回帰係数と単相関係数の符号が一致しているのでマルチコは生じていない＜係数の分析＞ 偏回帰係数の分析（説明変数の目的変数の対する影響力）・・・Ex.100mを1秒早く走ると、打率が1分4厘2毛あがる 標準偏回帰係数の分析（説明変数のランク付け）・・・「握力」「100m走」「エラー数」が重要な変数であることがわかる 10．パソコン処理による結果を見る＜分析精度＞ サンプル数が20個、変数が8個、その差は12．差が10以上なので決定係数を見る 結果、決定係数は0.8754であり、分析の精度は高い＜決定係数の検定＞  FR  9.656 であり、F0 (8,11,0.01)  4.744 であるので、十分に使える式である p.55のグラフから、異常サンプルが無いか、点のばらつきがランダムであるかを確認する実績値と理論値との上下関係を見て、評価分析を行う例えば．No.2の人は実力以上の力を発揮したが、 No.3の人は実力を出せなかった