社会統計 第10回:単回帰分析(第8章) 寺尾 敦 青山学院大学社会情報学部 [email protected] 第8章:2つの連続変数間の関係を 推定する-2変量回帰と相関 • 単回帰分析 – 独立変数,従属変数ともに量的変数(間隔尺度 あるいは比率尺度) – 回帰分析では,独立変数のことを説明変数,従 属変数のことを目的変数と呼ぶことが多い. – 回帰分析の目的:説明変数と目的変数との間 に,直線的な関数関係があると想定し,その関数 を求める(記述統計).母集団での関係に関する 推測を行う(推測統計). • 8.6.4節以降は,講義で扱わない.テスト範囲 外. 8.1 回帰や相関の手法を用いた 分析例 • Roland Liebert による,市政の機能の変化に ついての研究. – 1970年代の財政危機による,市政の運営に対す る関心の高まりが背景. • 自治体の活動範囲(市当局が行う施策や サービスの範囲)を決める要因 – 歴史的要因:伝統や政治文化,制度の形態 – 国全体の複雑化と相互依存性 – 都市部の人口増加と居住地の郊外化 • 自治体の活動範囲の9指標:福祉(連邦政府 による援助),司法,医療,教育,福祉(自治 体独自),保健,施設整備(公園など),衛生, 下水整備 • 独立変数として, – 都市の歴史(人口が1万人に達してからの年数) – 都市の人口規模 – 居住地の郊外化の度合い • 得られた知見 – 歴史があり,かつ,規模の大きな都市ほど,より 多くの機能を果たしている. – 郊外型の都市は,中核的な都市に比べて,少数 の機能しか果たしていない. • リーバートが行った分析は,回帰と相関の手 法. • 63都市(表8.1は,ワシントンD.C.を除く62都 市)のデータを用いて,彼の分析の一部をな ぞる. – リーバートは668都市を分析 – 人口と歴史は1970年時点でのデータ.都市機能 の指標は1960年のデータ. • 命題 – P1:都市の歴史が古いほど,自治体の活動範囲 は広い. – P2:都市の規模が大きいほど,自治体の活動範 囲は広い. • 操作仮説 – H1:人口1万人を超えてから経た年数(X1)が多 いほど,市の果たす機能(Y)が多い. – H2:1970年の人口(X2)が多い都市ほど,市の果 たす機能が多い. 8.1.1 自治体の活動範囲についての 記述統計 > city62 <- read.csv("city62.csv") > head(city62) NUM REGION CITYAGE FUNCTION POPULAT 1 1 3 86 4 275 2 2 1 146 5 116 3 3 2 46 4 127 4 4 2 106 4 497 5 5 4 66 4 117 6 6 2 86 4 301 平均 標準偏差 > lapply(city62, mean) $NUM [1] 31.51613 > lapply(city62, sd) $NUM [1] 18.06976 $REGION [1] 2.5 $REGION [1] 1.097688 $CITYAGE [1] 87.12903 $FUNCTION [1] 4.66129 $POPULAT [1] 584.8387 X1 Y X2 $CITYAGE [1] 39.25974 $FUNCTION [1] 1.828226 $POPULAT [1] 1123.421 8.2 散布図と回帰直線 • 2つの連続変量の関係を図示するには,散布 図(scatter plot)を描く.(次のスライド) • 2変数の関係は線形で,正の相関が認めら れる. • 2変数の関係を直線の式で記述できそう. – 完全な線形関係にはほど遠いが,ランダムな散 布状態というよりは線形に近い. 線形関係 (linear relationship) • 回帰モデル(regression model):i番目の都市 における,変数 X1 (都市の歴史)と Y (機能 の数)の関係を,以下のように記述する. Yi a bX i1 ei • 予測式としての回帰直線(regression line) は, Yˆi a bXi1 参考:図8.2 Yi ei Yˆi Yˆi a bXi1 Xi Y1 a X 11 e1 Y2 a X 21 e2 b Y a X e 63 63,1 63 切片 a と 傾き b の値が決まれば, 回帰直線がひとつに定まる. • 誤差 ei に関する仮定 – 独立性:互いに独立 – 正規性:正規分布に従う – 不偏性: ei の期待値は0 E[ei ] 0 – 等分散性: ei の分散は,X の値によらず同一. V [ei ] e2 Y (母集団での) 回帰直線 N 0, e2 N 0, e2 X • 説明変数(独立変数) X は,確率変数ではな く,調査者が決められる値であるとする. – どの X の値に対して目的変数(従属変数)の値を 測定するか,決められる. – 回帰分析についての理論的なテキストのほとん どが,この設定をしている. – 実際には, X も確率変数と考えた方が自然な データは多い.理論的には,X を確率変数として も,同じ回帰分析を実行できる. 8.3 線形回帰式 • 直線の決め方:予測誤差(予測値と実測値の ずれ)を,データ全体にわたって最小にする. • 最小2乗法(OLS: ordinary least square):予測 誤差の2乗和を最小にするように,パラメータ (ここでは切片と傾き)を決める. N N ˆ e Y Y i i i i 1 2 i 1 N 2 Yi a bX i i 1 2 関数 F(a,b) の値を最小にする,パラメータ a と b の値を決める. N F a, b Yi a bX i 2 i 1 N a bX i Yi 2 i 1 パラメータ b を定数(あるいは,うまく決定できた)と考え,a だ けが変数であるとすると,下に凸の2次関数とみなせる. N F a, b a bX i Yi 2 F(a,b) i 1 N a 2 2bX i Yi a bX i Yi i 1 2 a 関数 F(a,b) の値が最小になるところ(曲線の一番下)では, 接線の傾きがゼロとなる.つまり,関数 F(a,b) を a で微分(偏 微分と呼ばれる)して得られる導関数の値がゼロとなる. N F a, b a 2 2bX i Yi a bX i Yi i 1 2 F a, b N 2a 2bX i Yi a i 1 N 2 a bX i Yi 接線 i 1 0 注意:最初に式を展開しなくても,合成関数の 微分法を使えば,偏微分を簡単に実行できる. 得られた式を整理する. N 2 a bX i Yi 0 i 1 N N N a bX Y i 1 i i 1 i 1 N N i 1 i 1 i 0 Na b X i Yi 正規方程式(normal equation) と呼ばれる連立方程式を構成 する方程式のひとつ. 両辺を N で割ると, 1 ab N N 1 Xi N i 1 a bX Y N Y i 1 i a Y bX b がわかれば,この式で a を求めことができる パラメータ a を定数(あるいは,うまく決定できた)と考え,b だ けが変数であるとすると,やはり下に凸の2次関数とみなせ る. N F a, b bX i a Yi 2 i 1 N F(a,b) X i2b 2 2 X i a Yi b a Yi i 1 2 b 関数 F(a,b) の値が最小になるところ(曲線の一番下)では, 接線の傾きがゼロとなる.つまり,関数 F(a,b) を b で微分(偏 微分と呼ばれる)して得られる導関数の値がゼロとなる. N F a, b X i2b 2 2 X i a Yi b a Yi i 1 2 F a, b N 2 X i2b 2 X i a Yi b i 1 N 2 bX i2 aX i X iYi i 1 0 注意:最初に式を展開しなくても,合成関数の 微分法を使えば,偏微分を簡単に実行できる. 得られた式を整理する. N 2 bX i2 aX i X iYi 0 i 1 N N N i 1 i 1 i 1 N N N i 1 i 1 i 1 a X i b X i2 X iYi 0 a X i b X i2 X iYi 正規方程式(normal equation) と呼ばれる連立方程式を構成 する方程式のひとつ. 正規方程式 N N Na b X i Yi (1) i 1 i 1 N N N 2 a X b X X iYi (2) i i i 1 i 1 i 1 b がわかれば,この式で a を求めことができる (1) より, a Y bX b を求めたいので,b に ついてまとめた式にする これを (2) に代入すると, Y bX X N i 1 N i N b X X iYi i 1 2 i i 1 N N N N 2 X i X X i b X iYi Y X i i 1 i 1 i 1 i 1 両辺を N で割ると, 1 N 1 N 1 N 1 X i b X iYi Y N i 1 N i 1 N N 1 2 2 X X b X iYi XY i N i 1 i 1 N 1 X X N i 1 N 2 i N X i 1 i X の分散 S2X ,および, X と Y の共分散 SXY について, 1 2 SX N 1 N X N i 1 i N X i 1 X 2 2 i X 2 S XY 1 N 1 N X N i 1 i X Yi Y N X Y XY i 1 i i したがって, S X2 b S XY S XY b 2 SX 1 N X N i 1 1 N i X Yi Y X N i 1 X 2 i 不偏分散を使えば, 1 N X i X Yi Y N 1 i 1 b 1 N 2 X i X N 1 i 1 • 回帰係数(regression coefficient) b の推定値 1 N X i X Yi Y S XY N i 1 ˆ b 2 N 1 2 SX X i X N i 1 • 切片(intercept) a の推定値 aˆ Y bX • けっきょく,回帰直線の式は, S XY Yi 2 X i X Y SX SY S XY X i X Y S X S X SY SY rXY X i X Y SX • 回帰直線からわかること. – 回帰係数は,X が1単位変化したときの,Y の変 化である. b( X 1) a bX a b – 回帰直線は (X の平均,Y の平均)という座標点 を通る(次のスライド参照). – 測定値を標準化すれば,直線の傾きは2変数の 相関係数に等しい. S Yi Y SX rXY X i X Y Y X 8.3.1 線形回帰を自治体の活動範囲 の例に適用する > summary(lm(FUNCTION ~ CITYAGE)) Call: lm(formula = FUNCTION ~ CITYAGE) Residuals: Min 1Q Median 3Q Max -2.6265 -0.8193 -0.1649 0.7196 3.3735 次のスライドに続く Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.979696 0.430569 4.598 2.25e-05 *** CITYAGE 0.030777 0.004512 6.822 5.03e-09 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.383 on 60 degrees of freedom Multiple R-squared: 0.4368, Adjusted R-squared: 0.4274 F-statistic: 46.54 on 1 and 60 DF, p-value: 5.034e-09 > plot(CITYAGE, FUNCTION) > abline(lm(FUNCTION~CITYAGE)) 8.4 連関の測度 • 線形回帰分析は,2変数の量的関係を示す 式を推定するだけでなく,2変数間の連関の 強さを明らかにするためにも活用できる. • 観測されたデータ点が,回帰直線の近くにあ るほど,連関は強いと考えられる. • 従属変数 Y の値を,体系的成分(回帰式に よって予測される)と,誤差の成分に分解す る. – 体系的成分は,独立変数 X の値によって説明で きる成分. • 従属変数 Y の値を,独立変数の値によって 説明できる成分と,誤差の成分に分解する. Y i Y (Yˆi Y ) (Yi Yˆi ) Y Y (Yˆ Y ) (Y Yˆ ) i i 参考:図8.3 i i Yi Yˆi Yˆi Y • 従属変数 Y の変動は,分散分析の場合と同 様に,2つに分解することができる. • 回帰平方和(regression sum of squares):回 帰によって説明できる変動 • 誤差平方和(error sum of squares):回帰に よって説明できない変動 Y Y Yˆ Y Y Yˆ N i 1 2 i N i 1 2 i N i 1 SSTOTAL SSREGRESSION SSERROR 2 i i 8.4.1 決定係数 • 従属変数の変動のうち,回帰によって説明で きる変動の割合を,決定係数(coefficient of determination)と呼ぶ. 2 Y .X R SSREGRESSION SSTOTAL SSERROR 1 SSTOTAL 誤差減少率としての決定係数 • 回帰式についての情報がまったくないとき に,従属変数 Y の値を予測せよと言われた ら,平均値を答えるしかない.平均値は,下 の式で表される偏差平方和を最小にする θ の値である.このとき,誤差は Y の変動 (SSTOTAL)だけある. N 2 Yi i 1 • 回帰式を得ることで,特定の X の値に対し て,Y = a + bX という予測が可能となる.この とき,予測誤差がどれだけ減少するかを考え る.これは誤差減少率(Proportional reduction in error)の測度である. SSTOTAL SSERROR PRE SSTOTAL 非決定係数 (coefficient of SSERROR 2 1 RY . X nondetermination) SSTOTAL Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.979696 0.430569 4.598 2.25e-05 *** CITYAGE 0.030777 0.004512 6.822 5.03e-09 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.383 on 60 degrees of freedom Multiple R-squared: 0.4368, Adjusted R-squared: 0.4274 F-statistic: 46.54 on 1 and 60 DF, p-value: 5.034e-09 • 単回帰分析の場合の決定係数は,2変数の 相関係数の2乗に等しい. • 決定係数の最小値は0,最大値は1である. • 社会統計演習で説明した,変数をベクトルと してとらえる見方は,ここでも使える. 変数のベクトル • 変数ベクトル:ある変数に関する各測定値を 並べたものは,ベクトルとみなすことができ る. • 偏差ベクトル:変数ベクトルの各要素から,平 均値を引いてできるベクトル. x1 x x2 x x x3 x x4 x x5 x 偏差ベクトルの大きさと標準偏差 • 偏差ベクトルの大きさ x n x x i 1 2 i 1 n 2 xi x n n i 1 n 「xの標準偏差」 2 x n 「 xの分散」 相関係数 • 相関係数は2つの偏差ベクトルが作る角度の コサイン y θ rxy cos x x y cos x y n x x y i 1 n i y n 2 x x y y i i i 1 i 2 i 1 1 n xi x yi y n i 1 1 n 1 n 2 2 xi x yi y n i 1 n i 1 rxy 相関係数の値 • 相関係数はコサインなのだから, 最小値は-1,最大値は+1 • 2つの偏差ベクトルが, – 同じ方向を向くとき,相関係数は+1 – 直交するとき,0 – 正反対の方向を向くとき,-1 • 従属変数の予測値のベクトルは,独立変数 のベクトルを伸縮させて作る – 従属変数(実測値)のベクトルの正射影. – この伸縮率は,回帰直線の傾き b である. Yˆi Y bˆX i X Yˆ1 Y X 1 X Yˆ2 Y ˆ X 2 X b Yˆ Y X X n n 従属変数の変動 Y 2 2 Y (Yi Y ) 回帰によって説明 できない変動 (Y Yˆ ) 2 回帰によって説明できる (X によって説明できる)変動 2 ˆ ( Y Y ) i X 伸縮 i R2 2 ˆ ( Y Y ) i 2 ( Y Y ) i rxy2 8.5 標準回帰係数 • 従属変数,独立変数の単位が明確な場合 は,回帰係数の解釈を自然に行うことができ る. – 例:都市の歴史が1年長くなると,都市が果たす 機能の数は0.03増える. • しかし,社会科学では,単位が明確でない変 数も多い. – 産業化,信仰の強さ,社会経済的地位,など • この場合,変数の標準化がしばしば行われ る. • 2変数を標準化してから回帰分析を行った場 合の回帰直線の傾きは,標準回帰係数ある いはベータ係数と呼ばれる.これは2変数間 の相関係数に等しい.このとき,回帰直線は 原点を通る(切片がゼロ).標準化してもしな くても,2変数間の相関係数は変化しない. SY Yi rXY X i X Y SX rXY * X Y 0 S X SY 1 • 標準化された独立変数 ZX の値が1(X の標 準偏差1つ分)増えると,標準化された従属 変数 ZY の値が β* (Y の標準偏差1つ分 × β* )増える. • つまり,標準回帰係数 β* の値は,「X の値が 1標準偏差だけ異なると,Y において(Y の) 標準偏差の β* 倍の差異が生じる」と解釈で きる. 8.5.1 平均への回帰 • 予測値(回帰直線上の値)の分散は,従属変 数(実測値)の分散よりも小さい. – 変動の分解を思い出そう • 変数を標準化してから回帰分析を実行する と,傾きは相関係数に一致する. – つまり,独立変数 X が1標準偏差だけ変化したと き,従属変数 Y の変化は(Y の)1標準偏差よりも 小さい. • したがって,予測値は平均値の方に回帰す る. = = 回帰直線よりも 上の値と下の値 が同程度ある. • 回帰効果は,相関が±1でない限り,必ず生 じる. – 2年目のジンクスは,この回帰効果で説明でき る.(次のスライド) – いくつかのさいころを投げて,もっとも大きな値を 出したさいころに「新人賞」を与えるゲームをす る.このさいころは,次のゲームでも「活躍する」 だろうか?(これは1年目と2年目の相関が0の ケース) 多くの人が期待する,2 年目の成績 実際は,平均的には この成績になる. この直線よりも上の 人と下の人が同程度 いる. 8.6 回帰と相関の有意性検定 • 標本から計算されるパラメータの値,および 決定係数は,母集団での本当の値の推定値 である. – 標本をとりなおせば異なった値になる. • 得られた推定値が意味のあるものだと考える ためには,その母集団での値が0でないとい うことを示す必要がある. 8.6.1. 決定係数の有意性検定 • 回帰平均平方(mean square regression):回 帰平方和をその自由度(1)でわったもの MS regression SS regression 1 • 誤差平均平方(mean square error):誤差平 方和をその自由度(N-2)でわったもの MS error SS error N 2 • 帰無仮説:母集団での決定係数は0 • 検定統計量:回帰平均平方と誤差平均平方 の比率は,帰無仮説が正しいとき,自由度 1, N-2 の F 分布に従う. F1, N 2 MSregression MSerror • 回帰平方和の自由度(=1)の説明 – 回帰平方和において Y を固定し,予測値を自由 に作ることを考える. SS regresion Yˆi Y 2 – 予測値 Yˆi はすべて直線上に並ぶ. – 回帰直線は,(Xの平均,Yの平均)という点を必 ず通る. – したがって,ある X に対する予測値をひとつ決め ると,直線が決まり,他の X に対する予測値はす べて決まってしまう.すなわち,自由度は1であ る. • 誤差平方和の自由度(N-2)の説明 – 全平方和=回帰平方和+誤差平方和 – 自由度も,平方和と同様に分解される. – 全平方和の自由度は N-1 である. – 回帰平方和の自由度は1である. – したがって,誤差平方和の自由度は N-2 となる. N 1 1 ( N 2) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.979696 0.430569 4.598 2.25e-05 *** CITYAGE 0.030777 0.004512 6.822 5.03e-09 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.383 on 60 degrees of freedom Multiple R-squared: 0.4368, Adjusted R-squared: 0.4274 F-statistic: 46.54 on 1 and 60 DF, p-value: 5.034e-09 8.6.2. a と b の有意性の検定 • 傾きについての帰無仮説:母集団での傾きは 0(b=0) • 検定統計量:傾き b の点推定値(𝑏)を,その 推定値の標本分布における標準偏差(標準 誤差)で割る.帰無仮説が正しいとき,自由度 N-2 の t 分布に従う. bˆ t N 2 MS error X N i 1 X 2 i • 切片 a の検定も可能だが,興味外のことも多 い.変数を標準化すれば, a Y bX 0 8.6.3. F と t2 の関係 • 単回帰分析では,決定係数の有意性検定 と,傾きの有意性検定は,同一のものであ る. – 回帰によって説明できる変動が0ということは,回 帰直線の傾きが0であること同じである. – 傾きの有意性検定での t 統計量の2乗を計算し, それが決定係数の有意性検定における F 統計 量と一致することを確かめよ. Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.979696 0.430569 4.598 2.25e-05 *** CITYAGE 0.030777 0.004512 6.822 5.03e-09 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.383 on 60 degrees of freedom Multiple R-squared: 0.4368, Adjusted R-squared: 0.4274 F-statistic: 46.54 on 1 and 60 DF, p-value: 5.034e-09 練習問題 • 傾き b の推定値の分散は以下の式で与えら れる.傾きの推定値を安定させる(推定値の 分散を小さくする)ために実行可能な手段は 何か? 2 e ˆ V (b) NS X2 – ここで,N は標本の大きさ.σe2は誤差 ei の母集 団分散. 2 1 N 2 ˆ e MSerror S X X i X 2 N i 1 理解確認のポイント • 単回帰分析の概要を説明できますか? – 量的な目的変数および説明変数 – 直線的な相関関係 – 回帰モデル – 最小2乗法による,回帰直線の傾きと切片の推 定 • 回帰直線が必ず通る点はどこですか? • 回帰直線の傾きと相関係数はどのような関 係にありますか? • 回帰係数および標準回帰係数の意味を説明 できますか? • 決定係数の定義式を書き,その意味を説明 できますか? • 回帰効果とは何か説明できますか? • データが与えられたとき,決定係数の有意性 検定を実行できますか? • データが与えられたとき,傾きの有意性検定 を実行できますか? – 傾きの推定値の分散を計算する式は覚えなくて よい. 2 e ˆ V (b) 2 NS X
© Copyright 2024 ExpyDoc