回帰分析 - 1 - 社会学研究法 a(2015 年度春学期 担当:保田 ) 「回帰

や す だ
社 会 学 研 究 法 a( 2015 年 度 春 学 期 担 当 :保 田 )
「 回 帰 分 析 ( 1): と に か く や っ て み る 」
■ 回 帰 分 析 の 目 的 と 魅 力 〔 テ キ ス ト pp.87-89〕
・ 応 用 的 な 分 析 技 法 で 圧 倒 的 に よ く 用 い る の は 回 帰 分 析 ( regression analysis )。
・ある 1 つの変数の値を、他の変数の値で説明したい⇒回帰分析を使う。
独立変数
説明
( independent variable)
従属変数
( dependent variable )
例)授業の遅刻回数の多さをアルバイト時間の長さで説明したい。
・発想は、散布図の上に直線を引いてみることと同じ。
35
30
遅刻回数
25
20
15
10
5
0
0
50
100
150
200
アルバイト時間
・直線を引く発想をしつこく考えると……
⇒「X と Y の関係は、本来この直線のような関数で表せるのではないだろうか。実際の
データがこの直線からいくらかずれているのは、何らかの誤差によるものだろう」
⇒ だ い た い Y=a+bX と い う 関 数 が 成 り 立 つ が 、 実 際 は Y=a+bX+e と 誤 差 が あ る 。
⇒最適な a や b を特定すれば、最適な直線が引けるはず。
例 ) Y=4.5+0.1X+e
・ 回 帰 線 ( regression line) … … 予 測 さ れ る 直 線 の こ と
・ 回 帰 式 ( regression equation) … … 回 帰 線 を 表 す 式 の こ と
切片である a を回帰式の定数項、
傾 き で あ る b を 回 帰 式 の 回 帰 係 数 ( regression coefficient) と 呼 ぶ
・独立変数が複数の場合(重回帰分析とも呼ぶ)でも、考え方はまったく変わらない。
Y=a+b 1 X 1 +b 2 X 2 +b 3 X 3 +… … +e
・回帰分析の目的……「回帰線を最適に調整することを通して、ある変数の値が、その原
因と考えられる変数によってどのように説明できるのかを統計的に明らかにする」
・回帰分析の魅力……X と Y の間に何らかの因果関係を想定したときに、実際に X が Y に
どれだけの影響を与えるのか具体的な関係を知ることができる。例)アルバイト時間が 1
時 間 増 え る ご と に 遅 刻 回 数 は 0.1 回 増 え る
回帰分析
- 1 -
作業課題①
( 1) テ キ ス ト p.259 の Web ペ ー ジ か ら 「 重 回 帰 分 析 の デ ー タ 」 を ダ ウ ン ロ ー ド す る
( 2) 以 下 の 設 定 で 回 帰 分 析 を 実 行 し て み る
従 属 変 数 Y= 老 後 幸 福 感
独 立 変 数 X1= 年 齢
X2= 世 帯 人 数
X3= 年 間 世 帯 所 得
( 3) 結 果 を 回 帰 式 で 表 し て 、 意 味 を 読 み 取 る 。
■ 回 帰 分 析 の 結 果 の 要 点 〔 テ キ ス ト pp.89-90〕
( 1) も っ と も よ い 線 を 引 く 。
⇒ 最 適 な 定 数 項 a と 回 帰 係 数 b 1 , b 2 ,… … を 読 み 取 る 。 ※ 最 重 要 !
( 2) そ の 線 は 全 体 と し て ど の く ら い よ い 線 で あ る か を 評 価 す る 。
⇒ 決 定 係 数 R2 で 説 明 力 を % で 表 す 。
( 3) 母 集 団 に つ い て も 同 様 の 線 を 引 く 価 値 が あ る か ど う か を 判 断 す る 。
⇒F 値を用いた検定の有意確率を確かめる。
( 4)[ 重 回 帰 分 析 の 場 合 ] 各 独 立 変 数 の 効 果 が 母 集 団 で も 有 効 と い え る か 判 断 す る 。
⇒t 値を用いた検定の有意確率を確かめる。
作業課題②
( 1) 作 業 課 題 ① の 出 力 を も う 一 度 見 直 し て 、 下 の 表 を 完 成 さ せ よ う 。
B
t
p
(定数)
X1
年齢
X2
世帯人数
X3
年間世帯所得
n=
、 調 整 済 み R2=
、 F=
、 p=
( 2) 適 切 な 数 値 を 読 み 取 っ て 、 以 下 の 文 章 を 穴 埋 め し よ う 。
老後幸福感の得点を 3 つの独立変数で予測する回帰分析を行った。その結果、老後幸福
感は年齢が 1 歳上がるごとに約
約
点( 上 が り・下 が り )、世 帯 人 数 が 1 人 多 い ご と に
点( 上 が り・下 が り )、年 間 世 帯 所 得 が 1 万 円 多 い ご と に 約
点( 上 が る・
下 が る ) こ と が わ か っ た 。 た と え ば 、 86 歳 、 3 人 家 族 、 所 得 700 万 円 の 人 は 、 老 後 幸 福 感
が
は、
が
点 と 予 想 さ れ る 。 た だ し 、 こ の う ち 有 意 水 準 5% で 有 意 な 効 果 が 認 め ら れ た の
だけであった。全体として、この回帰式で老後幸福感の個人差
% 説 明 で き る 。こ の 説 明 力 は 有 意 水 準 5% で 統 計 的 に 有 意( で あ る・で は な い )。
回帰分析
- 2 -
■ SPSS で や っ て み よ う 〔 テ キ ス ト pp.90-108〕
・ SPSS で の 回 帰 分 析 の 操 作
①メニューから、分析➜回帰➜線型
② 説 明 し た い 変 数 ( Y) を [ 従 属 変 数 ]、 説 明 に 使 う 変 数 ( X) を [ 独 立 変 数 ] 欄 へ 移 動
(②’
質的変数を独立変数にする場合は、あらかじめダミー変数に変換すること)
③ OK ボタン
❷
読み取るポイント
❶ 最 適 な 回 帰 式 の a、 b
❷調整済み決定係数
❸
❸全体的な検定結果
(重回帰分析の場合)
❹各独立変数の
影響力の検定結果
❶
❹
回帰分析
- 3 -
・ SPSS の 結 果 を 1 つ の 表 に ま と め る
↓
表 1
回帰分析の結果[詳細な表記の例]
B
(定数)
t
p
-18553.81
-.123
.903
X1
年齢
1620.41
.405
.687
X2
勤続年数
6772.44
3.517
.001
X3
中 3 時の成績
33703.64
2.783
.007
n=56、 調 整 済 み R 2 =.283、 F=8.247、 p<.001
表 2
通 常 は 、「 p=0.032」 な ど の
表 現 で よ い が 、「 p=.000 」
の 場 合 だ け は 、.001 よ り 小
さ い と い う 意 味 な の で 、ふ
つ う「 p<.001」と 記 述 す る 。
回帰分析の結果[簡潔な表記の例]
B
(定数)
有 意 確 率( p 値 )が 5% 、1% 、0.1%
未満のそれぞれの水準をクリアして
い た ら 、 *印 の 数 を 増 や す ( 星 が 多 い
ほ ど 統 計 的 な 有 意 性 が 保 証 さ れ る )。
10 % 水 準 を ク リ ア し て い れ ば 有 意
な 「 傾 向 」 が あ る も の と し て 、「 +」 ま
た は 「 † 」( ダ ガ ー ) の 記 号 を 使 う こ
ともある。
-18553.81
X1
年齢
1620.41
X2
勤続年数
6772.44 ***
X3
中 3 時の成績
33703.64 **
n=56、 調 整 済 み R 2 =.283 ***
+ p<.10,
* p<.05,
** p<.01,
*** p<.001
文章課題
老化意識を、年齢・年間世帯所得・目標設定・向上心で説明する回帰分析を行い、結果
を表にまとめた上で、口頭で説明しなさい。
回帰分析
- 4 -
や す だ
社 会 学 研 究 法 a( 2015 年 度 春 学 期 担 当 :保 田 )
「 回 帰 分 析 ( 2): 比 較 の 視 点 」
■回帰分析の比較の視点
・回 帰 分 析 の 魅 力 は 、各 独 立 変 数 の 影 響 力 が「 数 量 」で 具 体 化 さ れ て い る こ と( 回 帰 係 数 )
⇒数量は比較ができる
・代表的な比較の視点
①独立変数間の比較(標準化係数)
②モデル間の比較(独立変数の増減)
③対象者グループ間での比較
■ 独 立 変 数 間 の 比 較 ( 標 準 化 回 帰 係 数 )〔 テ キ ス ト p.104〕
・複数の独立変数の間でどれが一番重要な影響力を持つのか?
⇒単純に、回帰係数を比べてはならない
扱っている事柄の規模が違うから
・ 変 数 の 規 模 を そ ろ え て ( 平 均 0、 標 準 偏 差 1 の 標 準 化 し て ) か ら 回 帰 分 析
⇒標準化回帰係数β
・標準化回帰係数は、単純に数値の大小を比べて「何倍影響力が強い」と読める
・ただし、具体性はなくなる
作業課題①
JGSS-2000 の 30 代 女 性 デ ー タ を 用 い て 、「 月 給 」 を 「 年 齢 」「 勤 続 年 数 」「 中 3 時 の 成 績
( 5 段 階 評 価 )」の 3 変 数 で 説 明 す る 回 帰 分 析 を 行 い な さ い 。そ し て 、ど の 独 立 変 数 が 月 給
をもっとも強く規定するのか説明しなさい。
標準化係数
B
β
(定数)
X1
年齢
X2
勤続年数
X3
中 3 時の成績
n=
、 調 整 済 み R2=
* p<.05
** p<.01
*** p<.001
回帰分析
- 5 -
■ モ デ ル 間 の 比 較 ( 独 立 変 数 の 増 減 )〔 テ キ ス ト pp.104-108〕
・「 モ デ ル 」 と は ? … … (a)変 数 間 の 関 係 性 の 形 と 、 (b)扱 う 変 数 を ど う 仮 定 し て い る か
例)幸福感が収入と余暇時間に比例して上昇すると仮定するモデル
= 幸 福 感 が 従 属 変 数 ( Y) で 、 収 入 と 余 暇 時 間 が 独 立 変 数 ( X) の 線 形 回 帰 モ デ ル
・通常は、独立変数の変更が回帰分析でのモデル比較
( (a)は 同 じ で 、 (b)を 変 え る )
・モデルが変わると、同じ独立変数でも影響力(回帰係数)が変わることがある
【重回帰分析の図式】
学 年 ( X1)
+ 20.3
得 点 ( Y)
-
+ 0.9
出 席 率 ( X2)
Y  55.6  20.3 X1  0.9 X 2  e
Y  22.5  11.5 X1  e
・共線性の問題
あまりにも似たよう事項を同時に独立変数にすると、おかしな分析結果を示す
共 線 性 の 指 標 VIF が 2.0 以 上 だ と 要 注 意
作業課題②
( 1) JGSS-2000 の 30 代 女 性 デ ー タ を 用 い て 、 次 の 2 つ の モ デ ル で 結 果 を 比 較 し な さ い 。
モ デ ル 1:「 月 給 」 を 「 年 齢 」 で 説 明 す る
モ デ ル 2:「 月 給 」 を 「 年 齢 」 と 「 勤 続 年 数 」 で 説 明 す る
モデル 1
モデル 2
(定数)
X1
年齢
X2
勤続年数
n
調 整 済 み R2
* p<.05
** p<.01
*** p<.001
( 2) な ぜ 、 2 つ の モ デ ル で 年 齢 の 影 響 力 ( 回 帰 係 数 ) が 異 な る の か 説 明 し な さ い 。
回帰分析
- 6 -
■対象者グループ間での比較
・同じ回帰モデルを異なる対象者グループに適用して結果を比較する。
例)出席率が成績に影響する程度は、男子学生と女子学生でどう異なるのだろう?
・変数間の関係が「数量」で具体化されることの面白さがよくわかる。
文章課題
JGSS-2000 の デ ー タ を 用 い て 、「 月 給 」を「 年 齢 」「 勤 続 年 数 」「 中 3 時 の 成 績 」の 3 変 数
で 説 明 す る 回 帰 分 析 を 行 う 。た だ し 、以 下 の よ う に 男 女 別 に 20~ 50 代 に グ ル ー プ 分 け し て 、
8 個のグループで結果を比較しなさい。
わかることを、次の点に気を付けて文章化すること。
・結果と考察を区別する
・ や や こ し い 結 果 の 表 現 は GEE ア プ ロ ー チ に 留 意 す る
男性
20 代
30 代
40 代
50 代
(定数)
19709.859
-64006.551
434272.005
646708.232
X1
年齢
6226.834*
9238.483**
-4806.472
-7503.900
X2
勤続年数
5386.499*
-671.072
5102.617**
3391.071**
X3
中 3 時の成績
8839.909
24080.215*
29170.341*
37635.792**
112
124
137
161
.178
.096
.069
.127
n
調整済み R
2
* p<.05
** p<.01
*** p<.001
女性
20 代
30 代
40 代
50 代
(定数)
95902.668
-18553.808
189862.329
192055.206
X1
年齢
936.897
1620.406
-796.482
-1443.030
X2
勤続年数
6214.419**
6772.435***
4099.678
3772.995**
X3
中 3 時の成績
11246.544
33703.636**
15418.624
7081.771
101
56
78
85
.118
.283
.029
.059
n
調整済み R
* p<.05
2
** p<.01
*** p<.001
回帰分析
- 7 -
や す だ
社 会 学 研 究 法 a( 2015 年 度 春 学 期 担 当 :保 田 )
「 回 帰 分 析 ( 3): 最 小 二 乗 法 の 理 解 + ダ ミ ー 変 数 」
■ 最 適 な 回 帰 線 は ど う や っ て 導 か れ て い る の か 〔 テ キ ス ト p.89〕
・回帰分析はデータから「最適な回帰線」を算出している。
・簡単にその仕組みは理解しておいた方がよい。
・もっともよい回帰線
実 際 の デ ー タ と 予 測 値 の ず れ ( 残 差 ) 𝑌 − 𝑌̂ が 最 小 に な る 線
⇒ 全 体 で の 残 差 の 量 は 「 残 差 の 二 乗 の 合 計 ( 残 差 平 方 和 )」 に ま と め ら れ る
⇒ こ の や り 方 を 最 小 二 乗 法 ( method of ordinary least squares; OLS) と 呼 ぶ
⇒数学的には微分方程式だが、目分量でも同じような作業はできる
回帰式を用いた Y の予測
予測との誤差
Y の予測値
残差平方和
回帰分析
- 8 -
作業課題①
( 1) 自 分 が 最 適 だ と 思 う 直 線 を 、 散 布 図 の 上 に 定 規 で 引 い て み よ う 。
( 2) そ の 直 線 の 切 片 と 傾 き を 読 み 取 っ て 、 式 に 表 わ し て み よ う 。
35
30
【自分が引いた回帰線】
遅刻回数
25
Yˆ  a  b X
20
↓
15

Yˆ 
10
X
5
0
0
50
100
150
200
-5
-10
アルバイト時間
( 3) 自 分 が 引 い た 直 線 に つ い て 、 残 差 平 方 和 を 求 め 、 周 り の 人 と 比 較 し て み よ う 。
アルバイト 遅刻回数
時間
(観測値)
Y
X
1 人目
2 人目
3 人目
4 人目
5 人目
6 人目
7 人目
8 人目
9 人目
10 人 目
11 人 目
12 人 目
13 人 目
14 人 目
15 人 目
55
35
180
172
150
8
80
95
0
15
16
120
105
70
0
自分が引いた直線
予測値
Ŷ
残差
Y  Yˆ
残差平方
(Y  Yˆ ) 2
0
4
29
12
26
15
3
10
3
7
0
5
19
12
5
(合計)↓
残差の二乗の合計
=
( 4) SPSS に よ る 分 析 結 果 と 比 べ て み よ う ( 分 散 分 析 表 の 「 残 差 」「 平 方 和 」 の 欄 )。
回帰分析
- 9 -
■ ダ ミ ー 変 数 の 活 用 〔 テ キ ス ト pp.111-115〕
・質的変数を独立変数にしたいことがある。
・ 質 的 変 数 は ダ ミ ー 変 数 ( dummy variable) に 変 換 す る 。
└─→0 と 1 のどちらかしか取らず、量的変数としても扱える変数
・もともと 2 値の場合
元の変数
男性ダミー
男性
1
→
1
女性
2
→
0
女性ダミー
または
0
1
例 ) Y が 遅 刻 回 数 、 X1 が 学 年 、 X2 が 男 性 ダ ミ ー の 回 帰 分 析
Yˆ  2.0  3.9 X 1  2.2 X 2
・3 値以上の質的変数の場合
文学部
1
→
文学部
ダミー
1
法学部
2
→
0
1
0
工学部
3
→
0
0
1
医学部
4
→
0
0
0
元の変数
法学部
ダミー
0
工学部
ダミー
0
例 ) Y が 遅 刻 回 数 、 X1 が 学 年 、 X2 が 男 性 ダ ミ ー と し て 、
さ ら に X 3、 X4、 X 5 が 文 学 部 ダ ミ ー 、 法 学 部 ダ ミ ー 、 工 学 部 ダ ミ ー の 回 帰 分 析
Yˆ  1.2  4.0 X 1  0.2 X 2  (1.2 X 3  3.2 X 4  5.2 X 5 )
文学部
1.2+ 4.0×2+ 0.2×0+ ( 1.2×1- 3.2×0+ 5.2×0) = 10.4
法学部
1.2+ 4.0×2+ 0.2×0+ ( 1.2×0- 3.2×1+ 5.2×0) = 6.0
工学部
1.2+ 4.0×2+ 0.2×0+ ( 1.2×0- 3.2×0+ 5.2×1) = 14.4
医学部
1.2+ 4.0×2+ 0.2×0+ ( 1.2×0- 3.2×0+ 5.2×0) = 9.2
・選択肢(カテゴリー)よりも 1 つ少ない個数のダミー変数しか要らないことに注意。
・省略したカテゴリーは、比較の基準になるので重要。
参 照 カ テ ゴ リ ー [ 基 準 カ テ ゴ リ ー ]( reference category) と 呼 ぶ 。
・ 参 照 カ テ ゴ リ ー に は 、 明 確 な 内 容 で あ る 程 度 人 数 が 多 い も の を あ て る 。( ×「 そ の 他 」)
回帰分析
- 10 -
作業課題②
( 1)JGSS-2000 の デ ー タ を 用 い て 、「 月 給 」に つ い て 回 帰 分 析 を す る 。「 結 婚 状 況 」を 独 立
変数にしたい。適切なダミー変数を作成しなさい。
( 2) 30 代 男 性 の 「 月 給 」 に つ い て 、「 年 齢 」「 勤 続 年 数 」「 中 3 時 の 成 績 」「 結 婚 状 況 ( 2
つ の ダ ミ ー 変 数 )」 を 独 立 変 数 に し て 回 帰 分 析 を し な さ い 。
( 3) 同 じ 分 析 を 30 代 女 性 に つ い て お こ な い な さ い 。
30 代 男 性
30 代 女 性
(定数)
X1
年齢
X2
勤続年数
X3
中 3 時の成績
X4
X5
n
調 整 済 み R2
* p<.05
** p<.01
*** p<.001
文章課題
作 業 課 題 ② で 得 ら れ た 結 果 を 見 て 、30 代 男 女 の 違 い を 記 述 す る と と も に 、こ の 結 果 に つ
い て 考 察 し な さ い( な ぜ こ の よ う な 違 い が 出 た と 思 う か 、15 年 前 と 比 べ て 現 在 は ど う な っ
て い る と 思 う か 、 な ど )。
回帰分析
- 11 -