第2章 データ分析の進め方

データ分析入門(12)
第12章 単回帰分析
廣野元久
1
本章の概要

2つの量的データのばらつき方に直線的な傾向が
見とめられる場合には,その傾向線(回帰直線)を,
データから求めよう

回帰直線が計算できれば,その関係を利用して,因
果関係の検証や将来の予測を行ってみよう

JMP INを使って散布図に回帰直線を描画する方
法や,その解釈を理解する
第12章 単回帰分析
廣野元久 高橋行雄
2/25
1.回帰分析






1.1 回帰分析とは
1.2 単回帰分析と重回帰分析
1.3 回帰係数の求め方
1.4 決定係数
1.5 回帰係数の有意性の検定
1.6 回帰分析の利用法
第12章 単回帰分析
廣野元久 高橋行雄
3/25
1.1回帰分析とは(1)

回帰分析とは

因果を持つ2つの量的データの直線的関係を
表す,直線の方程式を求めること

町の人口とごみ排出量
一人当りのごみ排出量がほぼ同じなら,人口が増え
れば,それだけごみ排出量は増えるであろう.
この関係を式(直線)で表せれば,
将来の町の人口が分かれば,町のごみ排出量が
直ちに,推定され,市政に役立つであろう
第12章 単回帰分析
廣野元久 高橋行雄
4/25
1.1回帰分析とは(2)
原因に左右されて
結果として,ばらつく変量
回帰直線
被説明
変量
or
従属
変量
ƒSƒ~Žû
W—Ê
lŒû‚ƃSƒ~Žû
W—Ê‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
150000
100000
原因となる
変量
ΜЯ
50000
0
0
100000
300000
l
Ξ
’¼
ü‚Ì‚ ‚Ä‚Í‚ß
第12章 単回帰分析
廣野元久 高橋行雄
500000
説明変量
or
独立変量
X
5/25

1.1回帰分析とは(3)
y
Regression Line
データ共通の傾向
Normal
Distribution
データ固有のばらつき(誤差)
x
第12章 単回帰分析
廣野元久 高橋行雄
6/25
1.2 単回帰分析と重回帰分析(1)
単回帰分析
残差
ε
結果 Y
原因 X
単回帰式
ごみ排出量 人口
Y  a  bX  
定数項
誤差項
回帰係数
傾き
第12章 単回帰分析
廣野元久 高橋行雄
7/25
1.2 単回帰分析と重回帰分析(2)
重回帰分析
(原因がたくさんあるという意味)
残差 ε
結果 Y
原因1 X1
原因2 X2
Y  a  b1 X1  b2 X2 
結果;ごみ排出量
原因;人口
商店の数
リサイクルの取組み
事業所数
etc….
原因p Xp
 bp X p  
第12章 単回帰分析
廣野元久 高橋行雄
8/25
1.3 回帰係数の求め方(1)
S
95%
信頼楕円
Smin
β0
a
b
β1
最小2乗法のイメージ
要因Xと特性Yについて,
n 個のデータ対が得られ,
要因xi (i=1,2,…,n)と
特性 yi(i=1,2,…,n)の間に
一次関係があると仮定する.
yi   0   1 xi   i
式の未知数 0 ,  1 は,
yi とその推定値yi との差が
全体としてできるだけ
小さくなるように決める.
S   yi  yˆi   min
第12章 単回帰分析
廣野元久 高橋行雄
2
9/25
1.3 回帰係数の求め方(2)
y
回帰直線
y
残差は,垂直方向最小
めのこ
残差は,直線の方向最小
x
x
回帰直線はめのこで引いてはいけない
第12章 単回帰分析
廣野元久 高橋行雄
10/25
1.4 決定係数(1)


従属変数Yの平方和Sは,回帰で説明できる
部分と,回帰では説明できない部分に分解
できる.
決定係数は,従属変数Yの平方和のうち,回
帰で説明できる平方和の割合を示すもの
回帰で説明がつく 平方和 SR
決定係数R 

従属変量Yの平方和
ST
2
第12章 単回帰分析
廣野元久 高橋行雄
11/25
1.4 決定係数(2)
y
+
=
Ave.
従属変数Yの平方和
回帰の平方和
残差平方和
傾きがない: 説明力0=0  R2  1=残差がゼロ: 点は直線上にある
第12章 単回帰分析
廣野元久 高橋行雄
12/25
1.5 回帰係数の有意性の検定

傾きbの検定
帰無仮説Ho:回帰直線の傾きは0である b=0
(説明変量xに,従属変数yを説明する力はない
xとyは無関係)
 対立仮説H1:回帰直線の傾きは0でない b=0

帰無仮説が棄却された:回帰直線はYのばらつきを
説明するのに有効
帰無仮説が棄却できない:回帰直線はYのばらつきを
説明のに有効でない
第12章 単回帰分析
廣野元久 高橋行雄
他の変量を
探索
13/25
1.6 回帰分析の利用法

因果の確認
 知識経験として,因果が想定される2変量が,実際に因果
があるかどうかをデータから判断できる
金属の抵抗値は,周辺の温度に依存する

予測
 回帰式が有効なら,それを予測に用いることができる
周辺温度が100℃のときの抵抗値を予測できる

制御
 説明変量をある値に固定すると,従属変動のばらつきは
小さくなり,平均値も目的の値に留めることができる
抵抗値が100Ωになるように,周辺温度を50℃に制御
する(工場の製品管理などに使われる)
第12章 単回帰分析
廣野元久 高橋行雄
14/25
2 単回帰分析の操作
2.1 単回帰分析の操作
 2.2 回帰分析の結果の書き方
 2.3 信頼区間曲線の表示
 2.4 残差の分析

第12章 単回帰分析
廣野元久 高橋行雄
15/25
2.1 単回帰分析の操作(1)

廃棄物処理.jmpをロードする
第12章 単回帰分析
廣野元久 高橋行雄
ここをクリック
16/25
2.1 単回帰分析の操作(2)
1.人口をクリック
2.Xをクリック
6.ゴミ収集量の
役割が決まる
7.OKボタンを押す
3.人口の
役割が決まる
4.ゴミ収集量をクリック
5.Yをクリック
第12章 単回帰分析
廣野元久 高橋行雄
17/25
2.1 単回帰分析の操作(3)
1.人口とゴミ収集量の
散布図が表示される
2.ここをクリックする
3.直線のあてはめをクリックする
ƒSƒ~Žû
W—Ê
lŒû‚ƃSƒ~Žû

W—Ê‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
4.回帰直線
が表示
される
150000
100000
ΜЯ
50000
0
0
100000
300000
500000
lΞ

’¼
ü‚Ì‚ ‚Ä‚Í‚ß
第12章 単回帰分析
廣野元久 高橋行雄
18/25
2.1 単回帰分析の操作(4)
回帰式
’¼
ü‚Ì‚ ‚Ä‚Í‚ß
ƒSƒ~Žû
W—Ê = 4811.3843 + 0.2998754 
lΞ
‚ ‚Ä‚Í‚ß‚Ì—v–ñ
R2
æ
0.96675
Ž©—R“x’²
®R2
æ
0.964375
Œë
·‚Ì•W
€•Î
·(RMSE)
7598.027
Y‚Ì•½‹Ï
58831.5
ƒIƒuƒUƒx
[ƒVƒ‡ƒ“(‚Ü‚½‚͏
d‚݂̏
‡Œv)
16
•ªŽU•ª
Í
—vˆö
Ž©—R“x •½•û˜a •½‹Ï•½•û
F’l
ƒ‚ƒfƒ‹
1 2.3499e+10 2.3499e10 407.0500
Œë
·
14 808220268 57730019 p’l(Prob>F)
‘S‘Ì(
C
³
Ï‚Ý)
15 2.43072e10
<.0001
ƒpƒ‰ƒ
[ƒ^

„’è’l

€
„ ’è’l

•W
€Œë
·
t’l p’l(Prob>|t|)
Ø•Ð

4811.3843 3282.865 1.47
0.1649
切片
lΞ

0.2998754 0.014863 20.18
<.0001
人口1人増加すると
ごみは0.29988t増加する
決定係数R2
標準誤差
回帰で説明できない
残差の標準偏差
回帰係数の検定結果
回帰係数
:定数項
人口:傾き
傾きのp値が<.0001と
非常に小さいので高度に有意
回帰直線は意味がある
第12章 単回帰分析
廣野元久 高橋行雄
19/25
2.2 回帰分析の結果の書き方

書き落としてはいけないこと
回帰式
 回帰係数のt値(あるいは,標準誤差)
 決定係数
 標準誤差

ゴミ 収集量  4811.38  0.29988人口
t値
1.47  20.18
R2  0.967
第12章 単回帰分析
廣野元久 高橋行雄
S.E.  7598
20/25
2.3 信頼区間曲線の表示(1)
1.直線のあてはめの▼マークをクリック
ƒSƒ~Žû
W—Ê
2.回帰の信頼区間をクリック
150000
100000
ΜЯ
50000
0
0
100000
300000
500000
lΞ

第12章 単回帰分析
廣野元久 高橋行雄
3.95%の信頼区間
曲線が表示される
21/25
2.3 信頼区間曲線の表示(2)
1.ここをクリック
2.平均のあてはめをクリック
3.Yの標本平均が表示される
ƒSƒ~Žû
W—Ê
lŒû‚ƃSƒ~Žû

W—Ê‚Ì“ñ•Ï—Ê‚ÌŠÖŒW
150000
100000
標本平均の線の全域が
信頼区間曲線内に含ま
れるとき
ΜЯ
50000
0
0
100000
300000
500000
lΞ

’¼
ü‚Ì‚ ‚Ä‚Í‚ß
•½‹Ï‚Ì‚ ‚Ä‚Í‚ß 第12章 単回帰分析
廣野元久 高橋行雄
回帰の傾きは
有意ではない
22/25
2.4 残差の分析(1)
目的

回帰モデル(回帰直線)がデータによく当てはまってい
るかどうかのチェックを行う
1.ここをクリック
2.残差プロットをクリック
3.残差プロットが表示される
Žc
·

20000
15000
10000
5000
0
-5000
-10000
ΜЯ
0
100000 200000 300000 400000 500000
lΞ

ラベルで
外れ値を
表示
良いモデルは
残差のプロットはランダムである
第12章 単回帰分析
廣野元久 高橋行雄
23/25
2.4 残差の分析(2)

外れ値の特徴を調べる
 データの背後にある知識を活用して,外れ値の
特徴を調べる
 この例では

厚木,大和,小田原,鎌倉
ホテルや
歓楽街
観光地
第12章 単回帰分析
廣野元久 高橋行雄
観光客などが多い
ごみを出す人口に
カウントされていない
24/25
2.4 残差の分析(3)

系列相関
 時系列データの場合には,残差に波状の系列
相関が現れることがある
 自己相関モデルを追加するなどの特殊なテクニッ
クが必要

不等分散

残差が説明変量の値に従い大きくなる
 対数変換や2次項の追加などの変数変換が必要
第12章 単回帰分析
廣野元久 高橋行雄
25/25