第2回
回帰分析2
説明変数が2つ以上のケース (重回帰モデル)
&
モデルの当てはまりの指標
これまでの復習
単回帰モデル
Yi    X i  ui
i  1,..., T
X: 原因となる変数(説明変数、独立変数)
Y: 結果となる変数(被説明変数、従属変数)
u : 誤差項(Yの変化がXの変化だけでは説明出来ない部
分)
T:データの数
α, β : 真のパラメータ
ˆ , ˆ : 推定パラメータ
⇒ 誰にも分からない!
⇒ 最小2乗法
2
重回帰モデル(多重回帰モデル)
2つ以上の説明変数が存在するモデルを重回帰モデルと呼ぶ。
例: 説明変数 X が2つのケース
Yi    1 X 1,i   2 X 2,i  ui
重回帰分析では、パラメータ
 1  2
を推定する。
⇒ 最小二乗法
3
例題1
あるコーヒーショップ8店舗に関するデータがあります。Yは1日
平均売上高(万円)、X1は客席数(席)、X2は店舗前の1日平均
通行者数(1,000人)を示している。
分析ツールを使って重回帰モデルを推定しなさい。推定パラ
メータが以下のようになることを確認しなさい。
ˆ
= - 11.47
ˆ1
=
0.61
ˆ2
=
1.99
4
決定係数
推定された回帰モデルが現実をよく説明しているかどうかは、
どのようにして判断するのだろうか?
最小二乗推定量は、観測データY を理論モデルで説明され
る部分と説明されない部分に分割できる。
Yi  ˆ  ˆX i  uˆi  Yˆ  uˆi
Yˆi
:理論モデルで説明できる部分
uˆi
:理論モデルで説明できない部分
5
決定係数
Y:結果
Yˆ  ˆ  ˆX
:推定回帰線
uˆ3
uˆ1:残差
Y1
:観測値
0
Yˆ1:推定値
uˆ 4
uˆ 2
ˆ , ˆ :最小二乗推定量
X:原因
6
決定係数
Y:結果
0
Y:結果
X:原因
0
X:原因
右図の方が、データが推定回帰線の近くに分布している
⇒ モデルの当てはまりが良い!
⇒ これを数値で表したのが「決定係数」
7
決定係数
2
<決定係数( R )>
推定回帰モデルがどれだけ現実を説明しているか。つまり
推定回帰線の当てはまりの良さを示す尺度。
<決定係数の特徴>
1.0から1の間をとる ( 0  R 2  1 )
2.“1”に近いほど、モデルの当てはまりが良い
⇒ 理論値 Yˆi が観測値 Yi をよく近似している
3.“0”に近いほど、モデルの当てはまりが悪い
8
決定係数(前回の例題1)
単回帰モデル: 決定係数
重回帰モデル: 自由度修正済決定係数
決定係数が“0.72“なので、モデルの当てはまりは良いと言える。
9
例題1のつづき
例題1の推定結果を利用して、以下の問いに答えなさい。
① モデルの当てはまりについてコメントしなさい。
② 客席数を1席増やすと、1日平均売上高はいくら増加する?
③ 店舗前の平均交通量が2,000人減ると、1日平均売上高は
いくら減少する?
④ 客席数が40席あるM店を、店舗前の平均交通量9,000人の
場所に出店する計画がある。M店の一日平均売上高の値を
予測しなさい。
10