統計学 12/20(木) 講義 1 はじめに:二変数の関係 ☆復習と予習 ①二変数の関係を視覚的に捉えるには? ⇒ 「散布図」 ②二変数の関係を数量的に捉えるには? ⇒ 「共分散」や「相関係数」 ③今日のトピック:「回帰分析」 2 散布図 • X(例:所得)という変数とY(例:消費)とい う変数の関係を調べたい時、XとYの組合 せのデータを一つのグラフに投影すると分 りやすい。 • 二つの変数が同方向に動く場合、散布図 は右上がりになる。 • 二つの変数が逆方向に動く場合、散布図 は右下がりになる。 3 共分散と相関係数(標本) 2 s XY • 共分散 • 相関係数 rXY 1 n 1 n i 1 ( X i X )(Yi Y ). 2 s XY , where 1 rXY 1, s X sY 1 sX n 1 1 ( X i X ) , and sY n 1 2 (Yi Y ) 2 , 4 相関係数から得られる情報 ☆相関係数の重要な性質 ①相関係数は、-1から1までの値を取る。 ②XとYに何の関係もなければ、0。 ③XとYが1対1で、同じ方向に動けば、1。 ④XとYが1対1で、逆方向に動けば、-1。 ↑ここまでは第1部「記述統計」で履修済み 5 回帰分析のアイデア • 二変数が連動する傾向があれば、散布図 に直線を当てはめられる。 • 直線を当てはめることは、変数間の関係を 一次式で表すことである。 • どんな直線がフィットするのだろう? ☆回帰分析(XとYの関係を直線で分析) ☆最小二乗法(その計算方法の一つ) 6 直線のあてはめ(図説) YとXの散布図 25 Y 20 15 10 5 0 0 5 10 15 X 7 回帰分析(Regression) 回帰分析:Yの動きをXで説明する。 Y=α+βX というモデルを想定。 Xを説明変数、Yを被説明変数と呼ぶ。 ⇒但し、完全にはデータと一致しない。 ⇒誤差を含むモデルを考える。 Yi=α+βXi+ui ここで、uiは誤差項。 ⇒誤差を小さくするαとβを探す! 8 回帰パラメータ • モデル: Yi=α+βXi+ui. 未知の(母集団)パラメータ:α、β • αの意味:X=0 のとき、 Yが取りそうな値 • βの意味:Xが一単位増えたときに想定され るYの増分 ⇒XとYのデータからαとβを推定する。 9 (αとβの)推定 その① ポイント:「残差」の導入 ~ ~ 推定された と を と で表す。 ~ ~ i番目のYの値は、 X iと想定される。 実際のi番目のYの値との乖離は、 ~ ~ ~ u Y ( X ) i i i である。これは「残差 」と呼ばれる。 10 (αとβの)推定 その② 全体として、残差を小さくしたい。 ⇒残差には、正のものも、負のものある。 ⇒残差の総和(∑ui)の最小化は無意味。 ⇒また、残差の絶対値の総和(∑|ui|)を最小 化するのは難しい。 ⇒重要:残差の二乗和(∑ui2)を最小化。 11 (αとβの)推定 その③ ☆最小二乗法(OLS) n n i 1 i 1 ~ 2 2 ~ ~ J ui {Yi ( X i )} ~ ~ を最小化する と を求める。 Jを最小化するための必 要条件は J J 0と ~ 0。 ~ 12 (αとβの)推定 その④ ☆正規方程式(二つの必要条件から) n n ~ n~ ( X i ) Yi i 1 i 1 n n ~ n ( X i )~ ( X ) X iYi i 1 i 1 2 i これらの式から、αと i 1 βの「 OLS推定量」を得る。 X Y nXY ~ ~ Y X X nX ~ i i 2 i 2 13 OLS推定量の性質 OLS推定量の式を書き直す。 ~ ☆上述の の式を整理すると、 ( X X )(Y Y ) /(n 1) s s ( X X ) /(n 1) ~ i i 2 i XY 2 X となり、相関係数と分 散の比になる。 ~ ~ ~ ☆ の式より、 Y Xとなり、 回帰直線は、 Xと Yの標本平均を必ず通る 。 14 ここで注意すること 回帰分析は推測統計に含まれる。 母集団パラメータαとβを標本から推測。 ⇒標本次第で、OLS推定量の値(標本統計 量)は変わってくる。 ⇒OLS推定量は「確率変数」。 ⇒その分布を利用して、仮説検定を行える。 15 直線のあてはまり具合 ☆決定係数 ~ ~ ~~ 回帰直線で示される Yの理論値は、 Yi X i ~ ~ Yの実績値は理論値と残 差で構成。 Yi Yi ui ここで決定係数 R 2を次のように計算する 。 ~ ~ 2 ( Y Y ) Y で説明された部分 2 R 2 (Y Y ) Yの実績値の全変動 なお、0 R 2 1となることが知られて いる。 16 決定係数の解釈 ①R2 が1の時、その回帰直線はデータに完 全にあてはまっている。 ② R2 が0の時、その回帰直線には説明力が 全く無い(つまり、β=0)。 ⇒ R2 が1に近いほど、良いモデルとされる。 ~ 2 注: R は実績値Yiと理論値 Yiの 標本相関係数の二乗でもある。 17 回帰分析の手順(まとめ) モデル Y=α+βX を仮定し、 ~ ~ ①データから、 と を計算する。 ~ ~ ~ ②Xの各値に対する理論値 Yi X iを計算。 また、残差 u~も計算する。 i ③決定係数を計算し、 あてはまりを調べる。 注:上記の計算はエクセルを用いてできる。 18
© Copyright 2024 ExpyDoc