■相関・回帰分析 目次 ●単相関・単回帰分析 ★相関係数と寄与率 ★相関・回帰に関する Excel 関数 ★相関の検定(無相関の検定) ★相関の検定 散布図による図式解法の手順 ★相関の判定 解説 ★直線回帰式の計算 ●重回帰分析 ★重回帰分析における注意点 「多重共線性」の回避 ●解析プログラム -1- ●単相関・単回帰分析 →目次へ ★相関係数と寄与率 →目次へ 相関関係の有無を統計的に判断する方法として,相関係数による方法がある.相関係数 r は-1 から +1 までの値をとり,-1 に近づくほど強い負の相関関係,+1 に近づくほど強い正の相関関係がある. -1 または+1 のときにはデータの点はすべて 1 つの直線上にある.0 に近づくほど相関関係が弱くな り,無相関となる. *相関係数の考え方 ① 相関係数 1≧r≧-1の値を取る。 ② r=+1は正の相関関係があり、xとyが完全に1対1に対応(ばらつきがない直線関係)している。 ③ r=-1は負の相関である。xが大きくなればyは小さくなる直線関係になる(ばらつきはない)。 ④ r が+1または-1から0に近づくに従って2つの関係は弱くなり、r=0でまったく関係がないこと になる。 (無相関) *相関係数と関係の強さの目安 2変数間の相関係数が得られたら,それがどのくらいの関係を表すのかを解釈する目安として次のよ うな値を頭に入れておくとよい.たとえば,相関係数が0.5とは,身長からその人の体重を想像するとき と同じくらいの情報をもっている関係である. 相関係数 人体の部位 0.95 左右人差し指の長さ 0.75 体重と胸囲 0.50 身長と体重の関係 0.25 知能指数(IQ)と頭周長 伯父・甥の身長 座高と身長 -2- *相関係数の計算式 相関係数rは次式で得られる。 ここで、xの偏差平方和 y の偏差平方和 xとyの偏差積和 r S ( x, y ) S ( x, x ) S ( y , y ) n xi n n 2 2 S ( x, x) ( xi x ) xi i 1 n i 1 i 1 2 n yi n n 2 2 S ( y, y ) ( yi y ) yi i 1 n i 1 i 1 2 n n xi yi n n S ( x, y ) ( xi x )( yi y ) xi yi i 1 i 1 n i 1 i 1 ・計算例 散布図の作り方のところで説明した例題:添加量 x(g)と粘度 y(秒)の散布図の相関係数 r は、 r = 0.785 である。 *寄与率 寄与率は相関係数の2乗で、結果系 Y がばらつく中で、原因系の X がどの程度の影響を与えている かを示している。 寄与率=r2(相関係数の 2 乗) 例 r=0.9 → 寄与率=0.81 r=0.5 → 寄与率=0.25 r=0.3 → 寄与率=0.09 81%の影響 25%の影響 9%の影響 を示している。 *相関係数と寄与率と相関の強さ 相関係数 r と寄与率 r2 と相関の強さの目安は以下に示される。 これは、あくまで目安であり、実際には、データの組数(n)の影響を大きく受ける。 詳細は次に述べる相関に関する検定(無想間の検定)を参照のこと。 相関係数 r 0 0<|r|≦0.45 0.45<|r|≦0.63 0.63<|r|≦0.84 0.84<|r|<1.0 1.0 又は-1.0 寄与率 r2 相関の強さ 0 0<r2 ≦0.2 0.2<r2 ≦0.4 0.4<r2 ≦0.7 0.7<r2 <1.0 1.0 又は-1.0 相関なし ほとんど相関なし 弱い相関あり 相関あり 強い相関あり 完全な相関 相関係数が小さいと相関の検定で「有意差あり」と出てもあまり役立たないので、 XからYを推定する場合など、実用的には、寄与率で判断することが望ましい。 -3- *散布図と相関係数・寄与率の関係 寄与率r2=0.0025 寄与率r2=0.36 寄与率r2=0.04 寄与率r2=0.64 寄与率r2=0.16 寄与率r2=0.86 ★相関・回帰に関する Excel 関数 →目次へ *相関係数 r r=CORREL(配列 1, 配列 2) 配列 1:特性値 1 (x 軸) の配列データのセル範囲 配列 2:特性値 2 (y 軸) の配列データのセル範囲 →配列 1 と配列 2 に含まれるデータの個数は同じとする。 *回帰直線式 y=ax+b a=SLOPE ( y, x ) y:従属変数 y の配列データのセル範囲 x:独立変数 x の配列データのセル範囲 既知の y と既知の x のデータから回帰直線の傾きを計算する。 直線の傾きとは、直線上の 2 点の垂直方向の距離を水平方向の距離で除算した値で、 回帰直線の変化率に対応する。 b=INTERCEPT ( y, x ) y:従属変数 y の配列データのセル範囲 x:独立変数 x の配列データのセル範囲 既知の x と既知の y を通過する線形回帰直線の切片を計算する。 切片とは既知の x と既知の y の値を通過する回帰直線が y 軸と交わる座標のことである。 -4- ★相関の検定(無相関の検定) →目次へ データから求めた r は標本(試料)相関係数であり,それがそのまま真の相関係数 ρ (ローと読む)と一 致するわけではない.したがって,実際にデータから求められた r の絶対値がある程度大きくならな ければ,本当に両特性間に関係があるとはいいきれない.そこで,真の相関(二次元正規分布に従う2 特性の間の母相関係数)の有無を正しく判断するには,相関係数に関する検定が必要となる. 手順1:相関係数 r を求める。 S ( x, y ) 相関係数 r S ( x, x ) S ( y , y ) 手順2:r の限界値を求める。 表 r の限界値 0.05 危険率 0.10 r の限界値 1.645 1 r ( , ) 1.960 1 0.02 0.01 2.236 2 2.576 3 ここで、n:データの組数 :自由度=n-2 手順3:相関の判定 r ( , ) r r ( , ) → 危険率 で,有意とはならず、相関関係は無い。 r r ( , ) or r r ( , ) → 危険率 で,有意となり、相関関係がある。 相関係数の検定では,母相関係数 ρ=0,すなわちまったく相関関係がないといえるかどうかを,計 算された相関係数から判断するものであり,単に r の値の大小でその相関の強さは判断できない. *計算例 散布図の作り方のところで説明した例題:添加量 x(g)と粘度 y(秒)の散布図の相関係数 r は、 r = 0.785 である。 R の限界値は、n=34, =n-2=34-2=32 であるから、次の表のようになる。 危険率 0.10 0.05 0.02 0.01 r の限界値 1.645 0.286 1 1.960 0.341 1 2.236 0.383 2 2.576 0.435 3 r ( , ) 従って、r=0.785** > r ( , ) r (0.01, 34) 0.435 であるから、危険率 1%で高度に有意とな り、正の相関関係がある。 -5- ★相関の検定 散布図による図式解法の手順 →目次へ 散布図の見方において、 “弱い相関(相関がありそう)”の場合には、人により“相関がある”とした り, “相関がない”としたりして意見の分かれる場合がある. そこで,だれもが納得するように“相関がある”ということを客観的に数量表現することにより、そ の判断ルールを標準化しておくことが必要となる.このルールが“相関の検定”である. 以下に、散布図の作り方のところで説明した例題にて、相関の検定の手順を解説する. *手順1 メディアン線を引く 散布図上の全打点を上下,左右に 2 等分する線(これをメディアン線という ~ y (ワイメディアン), ~ x (エックスメディアン)を引く.図のように,全部で 34 点あれば,上から 17 点目と下から 17 点目の点の間を通る横軸に平行な線を引く.これがメディアン線 ~ y である.また,右から 17 点目 と左から 17 点目の点の間を通る縦軸に平行な線を引く.これがメディアン線 ~ x である. 散布図 n=34 49 X メディアン 第Ⅱ象限 48 第Ⅰ象限 nⅠ=12 nⅡ=5 47 粘 46 度 ( 秒 45 ) Y メディアン nⅢ=12 44 nⅣ=5 43 第Ⅲ象限 第Ⅳ象限 42 20 21 22 23 24 25 26 27 28 29 添加量(g) *手順2 各象限のデータ数を数える メディアン線で区切られた4区画を右上から反時計方向に第Ⅰ象限, 第Ⅱ象限,第Ⅲ象限,第 Ⅳ象限と名づけ,それぞれの象限にある点の数を数え, nⅠ,nⅡ,nⅢ,nⅣ とする.ただし,メ ディアン線上の点は数えないことにする. *手順3 n+,n- の計算 第 1 象限と第Ⅲ象限の点の数 nⅠ,nⅢを加え合わせてn+とし,第Ⅱ象限と第Ⅳ象限の点の数nⅡ, nⅣ を加え合わせてn-とする.また, n+,n- を加え合わせてその合計 N を求める. n+ = nⅠ+nⅢ = 12+12=24 n- = nⅡ+nⅣ = 5+5=10 N = n++n- = 24+10=34 (点がメディアン線上にあるとデータの組数と一致しない.) -6- *手順4 符号検定表と比較して相関の有無を判定する. 符号検定表の合計 N に相当する行を見つけ, n0.01,n0.05欄の対応する判定個数を求め,次のよ うに判定する. n0.05≧n->n0.01 のとき,正の相関がある. n0.01≧n-のとき,強い正の相関がある. n0.05≧n+>n0.01 のとき,負の相関がある. n0.01≧n+のとき,強い負の相関がある. この例では,N=34,n0.05=10,n0.01=9 であるから,n-=n0.05である.したがって,正の相関 があるとの結論になる. *符号検定表 符号検定表は、相関判定の有意水準 0.01(1%),0.05(5%) に対応する相関の判定数を示した数値 表であり、上記の手順により,n+,n-と比較して、相関の状態を判定することができる。 表 有意水準 データ数N 0.01 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 0 0 0 1 1 1 2 2 2 3 3 3 4 4 4 5 5 6 6 6 7 7 7 符号検定表 0.05 有意水準 データ数N 0.01 0.05 有意水準 データ数N 0.01 0.05 有意水準 データ数N 0.01 0.05 1 1 1 2 2 2 3 3 4 4 4 5 5 5 6 6 7 7 7 8 8 9 9 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 8 8 9 9 9 10 10 11 11 11 12 12 13 13 13 14 14 15 15 15 16 16 17 9 10 10 11 11 12 12 12 13 13 14 14 15 15 15 16 16 17 17 18 18 18 19 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 17 17 18 18 19 19 20 20 20 21 21 22 22 22 23 23 24 24 25 25 25 26 26 19 20 20 21 21 21 22 22 23 23 24 24 25 25 25 26 26 27 27 28 28 28 29 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 27 27 28 28 28 29 29 30 30 31 31 31 32 32 33 33 34 34 34 35 35 36 36 29 30 30 31 31 32 32 32 33 33 34 34 35 35 36 36 37 37 37 38 38 39 39 -7- ★相関の判定 解説 →目次へ 上記で解説した符号検定表による相関の判定状況を下記に示す。 nⅠ:第Ⅰ象限の点の数 nⅡ:第Ⅱ象限の点の数 nⅢ:第Ⅲ象限の点の数 nⅣ:第Ⅳ象限の点の数 n+=nⅠ+nⅢ n-=nⅡ+nⅣ n0.01:相関の有無の判定の危険率/有意水準 0.01(1%) n0.05:相関の有無の判定の危険率/有意水準 0.05(5%) *正の直線相関(r=+1) nⅡ=0,nⅣ=0 → n-=0 *強い正相関(1>r>0) 0<n-≦n0.01 nⅡ nⅡ nⅡ=0 *正相関(1>r>0) n0.01<n-≦n0.05 nⅣ=0 nⅣ nⅣ *無相関(r≒0) n->n0.05 n+>n0.05 *負の相関(-1<r<0) n0.01<n+≦n0.05 *強い負相関(-1<r<0) 0<n+≦n0.01 nⅠ nⅢ *負の直線相関(r=-1) nⅠ=0,nⅢ=0 → n+=0 nⅠ=0 nⅠ nⅢ=0 nⅢ -8- ★直線回帰式の計算 →目次へ 散布図を書くことによって,二つの特性間の相互関係がどのようなものかという概略を把握できる. また,両特性が正規分布をしており,直線的関係がある場合には,その関係の強さを相関係数の形で数 値的にとらえることができた.特性間に相関関係のあることが明確となった場合には,その関係を表す 関数(回帰式)が役に立つことが多い. たとえば,合成樹脂パイプの押出し工程において,肉厚に影響を与える要因を把握するために,原料 加熱ヒータの電流と肉厚との相関を調べたところ,有意となったとしよう.関係があることがわかった だけではあまり有効な情報は得られない.電流値がある値を示すときには,その結果として肉厚がどれ くらいの値になるかを検討する必要がある.このためには,電流の変化に対応して肉厚がどのように変 化するかを,両者の関係式として求めておく必要がある.このような式を回帰式といい,ここでは直線 で関係が表される場合について述べる. 相関分析では,特性だけでなく要因の値も正規分布をしていることが前提であったが,回帰式のあて はめについては,原因と考えられる特性が正規分布している必要はない. *回帰直線の推定 特性yとその要因xとの間に y=a+bx という回帰直線をあてはめるものとする.aは切片といい,x=0のときのyの値であり,bは回帰係 数と呼ばれ,xが1だけ増加したときのyの増加量であり,直線の傾きである. 実測データヘのあてはまり度合いが最も良い回帰直線を求めるためには,次のように考える.xのあ る水準に対して( xi , y i )の対になった実測データに式y=a+bxの形の直線をあてはめると, xi に対しては( a bxi )がyの推定値として得られる.これと実測値 y i との差があてはめの誤差である. この誤差を2乗したものをすべてのデータについて合計して, 残差平方和 Se n y (a bxi ) 2 i i 1 を最小とするようにaとbを決めれば,xからyを推定するのに最も誤差が小さい回帰直線が得られる ことになる.この方法を最小二乗法というが,残差平方和 Se を最小とするaとbは次のように求まる. *回帰直線 y a bx のあてはめ (1) x , y を求める. (2) S ( x, y), S ( x, x) より回帰係数bを求める. b (3) 切片 a を求める. S ( x, y ) S ( x, x ) a y bx 散布図の作り方のところで説明した例題:添加量 x(g)と粘度 y(秒)の散布図の直線回帰式は、 y = 0.588 x + 31.0 となる.(右上図参照) -9- ●重回帰分析 →目次へ 回帰分析は、従属変数(目的変数)と連続尺度の独立変数(説明変数)の間に式を当てはめ、従属変 数が説明変数によってどれくらい説明できるのかを定量的に分析することである。 説明変数が 1 つの場合は単回帰分析、2 つ以上ある場合は重回帰分析と呼ぶ。 重回帰分析は、多変量解析の一つであり、回帰分析の独立変数が複数になったものであり、適切な変 数を複数選択することで、計算しやすく誤差の少ない予測式を作ることができる。 データの構造式 yi 1 x1i 2 x2i p x pi i p:説明変数の数 i=1,2,・・・,n n:測定値の数 ★重回帰分析における注意点 「多重共線性」の回避 →目次へ 重回帰分析においては要因系データの種類を増やすと予測精度が向上する傾向にあるが、要因系デー タの中に「要因系データ同士で相関関係が強いもの」が含まれていると「多重共線性」という現象が起 き、予測精度が低下する。 独立変数(説明変数)を選択する際、マーケティングやアンケートでよく使う一般的な重回帰の場合、 複数の説明変数同士は無相関という仮定が入っている。そのため、説明変数同士が関連性の高い場合、 多重共線性と呼ばれる状態になるため、係数が直感に反する値になることがある。 例えば、小学校での定期テスト得点から重回帰で分析する場合、理科の点数を従属変数に、数学と国 語とを説明変数にした場合、数学が増えると理科の点数が増え、国語の点数が高ければ理科の点数が減 るといった意味の係数が出ることがある。これは数学と国語との点数の間に強い相関がある(一般に、 どちらの成績も学習習慣や知能の影響を強く受ける)ことで起こりうる。この場合のように説明変数間 の相関が高いと係数が不安定になりやすい。 実務的対応としては、一方を除いて分析するのが最も手軽である。 ●解析プログラム →目次へ 相関・回帰分析の解析プログラムと例題の計算結果は次の資料を参照のこと。 → 単相関・単回帰分析プログラム 参照 → Excel 分析ツール 相関分析 参照 → Excel 分析ツール 回帰分析 参照 - 10 -
© Copyright 2024 ExpyDoc