回帰分析

回帰分析の要約
- シミュレーション イントロ
1.課題
2.回帰分析でモデル作成
3.回帰分析結果の評価
4.回帰分析の学び方
5.回帰分析パッケージで
課題データを分析
20090913
1
シミュレーション イントロ
• バカチョン回帰分析
回帰分析をExcel内のツールで体得。
データを入れれば、数式の係数が得られる。
• 回帰分析は手段
手段<シミュレーション<モデリング<目的
• シミュレーションとは・・・
• 回帰分析とは・・・
2
バカチョン回帰分析
• データから、数式を求めるとは・・
3点のデータを散布図に描く
3点を最もよくあらわすと思う直線を描く
• 回帰分析をExcel内のツールで体得
Excelで散布図を描く
参考:ラベル付き散布図の作り方
http://software.ssri.co.jp/statweb2/tips/tips_6.html
3点のデータの数式化
各種データの回帰分析
3
3点のデータを表すモデルをグラフ上で作る
データ 1
x
y
1.0
2.0
3.5
2.3
6.0
4.0
・左の3点のデータを散布図に描く。
・3点を最もよくあらわすと思う直線を描く。
・どのような原理で、直線を描けばよいかを考える。
EXCELの中の「回帰分析」の使い方の練習
・ツール/分析ツール/「回帰分析」を開き、データを入力し、
回帰分析を実行する。結果を眺める。いろいろな統計
量が表示されている。どこに、切片の値と勾配の値が
あるのか探す。
・切片の値と勾配の値を散布図に描く。
・直感で描いた直線と比較する。
データ 1
x
y
1.0
2.0
3.5
2.3
6.0
4.0
7.0
5.0
3点+追加点のデータを表すモデル(数式)をグラフ上で作
る
・上記と同じことをしてみる。
・統計量がどのように変化したか。
↓
・モデリングのために、データはどのように集めたらよいか。
・回帰分析の本やWebを調べてみよう。
4
1.課題
• データセット(1.0,2.0)(3.5,2.3)(6.0,4.0)の
散布図を描き,この3点を適切に表現する
直線を図上に描きなさい。
y
線をどこに引くか
5
4
3
2
1
0
1
2
3
4
5
6
散布図 y vs x
x
← Captionという
7
5
回帰分析とは
数学的,統計的表現:
データセットから最小二乗法により直線を求める。
・式の形:線形 y = b0 + b1・x を仮定し、
・切片,係数の決定: b0 , b1 を求める。
最小二乗法とは
min(l2 + m2 + n2)
l
n
m
6
(A)パッケージ利用
3点のデータを表すモデル作成
データ 1
3点データ
y
1.0
3.5
6.0
4.5
2.0 A
2.3 B
4.0 C
4.5
4.0
4.0
3.5
3.0
3.0
2.5
y
回帰統計
重相関 R 0.927146
重決定 R2 0.859599
補正 R2
0.719198
標準誤差 0.571548
観測数
3
C
2.5
2.3
2.0
概要
4.0
3.5
2.0
2.0
1.5
1.5
1.0
1.0
0.5
0.5
0.0
A
0.0
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
0.0
x
自由度
切片
X値1
変動
分散 観測された分散比 有意 F
1
2
2
6.122449 0.24451
1 0.326667 0.326667
2 2.326667
係数
標準誤差
t
1.366667 0.654998 2.086521
0.4 0.161658 2.474358
1.0
2.0
3.0
4.0
5.0
6.0
7.0
x
分散分析表
回帰
残差
合計
B
y
x
3点データ
重要な項目・値
P-値
下限 95% 上限 95% 下限 95.0% 上限 95.0%
0.2845206 -6.95583 9.689168 -6.95583 9.689168
0.2445095 -1.65405 2.454052 -1.65405 2.454052
ラベル付け
近似曲線の追加
背景色消去
(単)相関係数
列1
列1
1
列 2 0.927146
列2
1
7
(A)パッケージ利用
4点のデータを表すモデル作成
4点データ(1)
4点データ(1)
データ
x
y
6.0
2.0
2.3
4.0
5.0
A
B
C
D
5.0
相関係数
列1
列1
列2
1
0.946935
D
4.0
y
1.0
3.5
6.0
7.0
列2
1
散布図を描く
挿入/グラフ/散布図/データ範囲
グラフオプション:
グラフタイトル、 x/数値軸に x、
y/数値軸に y を記入。
ラベルを付ける
データ点を右クリック
/データ系列の書式設定
(「タイトルとラベル」からの開始もある)
ラベル名を変更する
データ点を左クリック
/正しいラベルを書き込む
近似曲線を描く
表示中のグラフをクリック。
グラフ/近似曲線の追加/線形近似
プロット領域の色を抜く
回帰統計
重相関 R 0.946935
重決定 R2 0.896686
補正 R2
0.845029
標準誤差 0.559848
観測数
4
C
3.0
2.0
B
A
1.0
0.0
0.0
1.0
2.0
3.0
4.0
5.0
6.0
x
分散分析表
自由度
回帰
残差
合計
切片
X値1
変動
分散観測された分散比
有意 F
1 5.440641 5.440641 17.35843 0.053065
2 0.626859 0.313429
3
6.0675
係数
標準誤差
t
P-値
下限 95% 上限 95% 下限 95.0% 上限 95.0%
1.133718 0.595801 1.902845 0.197392 -1.42981 3.697245 -1.42981 3.697245
0.500865 0.120217 4.166345 0.053065 -0.01639 1.018116 -0.01639 1.018116
7.0
8.0
(A)パッケージ利用
ばらつきの違うデータ
a=
0.1
x y=x+0.1*Δy
0
0
1
1.1
2
1.9
3
3.1
4
3.9
5
5
6
5.9
7
7.1
8
7.9
9
9.1
10
10
ラ ベル
A
B
C
D
E
F
G
H
I
J
K
a=
0.5
x y=x+0.5*Δy
0
0
1
1.5
2
1.5
3
3.5
4
3.5
5
5
6
5.5
7
7.5
8
7.5
9
9.5
10
10
a=
1
x y=x+1*Δy
0
0
1
2
2
1
3
4
4
3
5
5
6
5
7
8
8
7
9
10
10
10
a=
2
x y=x+2*Δy
0
0
1
3
2
0
3
5
4
2
5
5
6
4
7
9
8
6
9
11
10
10
a=
5
x y=x+5*Δy
0
0
1
6
2
-3
3
8
4
-1
5
5
6
1
7
12
8
3
9
14
10
10
a=
10
x y=x+10*Δy
0
0
1
11
2
-8
3
13
4
-6
5
5
6
-4
7
17
8
-2
9
19
10
10
a=
20
x y=x+20*Δy
0
0
1
21
2
-18
3
23
4
-16
5
5
6
-14
7
27
8
-12
9
29
10
10
y=x+5*Δy
16
y=x+0.1*Δy
12
8
4
0
y
6
1
8
0
2
5
2
0
0
3
4
2
1
10
8
8
4
3
2
7
10
K
9
6
F
9
12
7
6
y=x
R2 = 0.3548
14
y=x
R2 = 0.9993
10
y
Δy
0
1
-1
1
-1
0
-1
1
-1
1
0
4
6
x
8
10
12
-2
6
0
0
4 4
2
6
8
10
12
2
-4
x
9
2.回帰分析でモデル作成(1)
• シミュレーションでは,データからモデルを作
るために,回帰分析を用いる。
• 回帰分析とは,データ(セット)から,モデルの
構造 (たとえば線形一次式)を仮定し,その係
数 bi を推定するものである。
線形式(仮定)
データ(入力)
回帰分析
係数 bi (出力)
10
2.回帰分析でモデル作成(2)
線形式(仮定)
データ(入力)
データセット
xα1, xα2, xα3, ‥,yα
データ
回帰分析
係数 bi (出力)
線形式
多項式
従属変数←独立変数
(目的変数) (説明変数)
y = b0 + b1・x1 + b2・x2 + b3・x3 + ‥
構造式
モデル構造
推定母数関数
推定係数
bi
モデル
数学モデル
数式モデル
回帰式
11
2.回帰分析でモデル作成(3)
線形式(仮定)
データ(入力)
線形式
推定係数
多項式
従属変数←独立変数
(目的変数) (説明変数)
y = b0 + b1・x1 + b2・x2 + b3・x3 + ‥
bi
データセット
xα1, xα2, xα3, ‥,yα
y
4
y
データセット
4
勾配 b1
3
3
2
切片
b0
1
0
係数 bi (出力)
回帰分析
1
2
3
4
5
散布図 y vs x
6
x
2
回帰式 y = b0 + b1・x
0
1
2
3
回帰式
4
5
6
x 12
3.回帰分析結果の評価
 モデル構造は妥当か。独立変数は従属変数を
うまく説明しているか。
 回帰係数は妥当か。独立変数相互は独立か。
 データは大丈夫か。散布図で確認。
係数の良否判定
回帰式の妥当性評価
モデリングの中で,
分析結果の評価・吟味が,一番重要。
13
4.回帰分析の学び方
回帰分析の学び方として,次の3種類を用意している。
(A)パッケージ利用
(A)パッケージの利用
EXCELに組み込まれている「回帰分析」のパッケージ
を道具として使う。データを入力すれば回帰式が得ら
れる。Black box。
(B)数学的な説明(教科書的な説明)
回帰分析の原理式。統計量の計算式。
(C)計算手順
回帰分析の手順をEXCELに組み込む。
掃き出し法が手順の中心になる。
(B)数学的説明
(C)計算手順
14
需要予測 時系列分析
傾向変動の分析
最小二乗法
各線分の長さの二乗の合計を最小にする
傾向線
a, bを自動的に求める方法が回帰分析だ
15
需要とその決定要因の関係の分析
最小二乗式 = 回帰式
散布図:Scatter map
16
回帰分析
• 需要とその決定要因の関係の分析
• y = b0 + b1x1 + b2x2 + b3x3 + --- のbiを決定
多項式(polynomial),線形式
Scatter map
17
(A)パッケージ利用
(A)パッケージを使った回帰分析
18
(A)パッケージ利用
回帰直線を求める
19
決定係数
決定係数 = 寄与率 = 重決定 = (重相関係数 R)2 ,
決定の度合い
R2 = 1
R2 ≒ 0
R2 ≒ 1
R2 = 0
決定係数: 0~1
0.86: yがxにより約86%
決定されることを示す。
20