b

経営系データ解析
回帰分析
散布図に直線を当てはめる
回帰直線の式
yi = b0 + b1 x1i + ... + bn xni + ei
従属変数
または
被説明変数
目的変数
参考URL:
定数項
(偏)回帰係数
独立変数
または
説明変数
誤差変数
誤差項
回帰分析の基礎理論: http://www.sci.kagoshima-u.ac.jp/~itls/Japanese/chapter5/index.html
回帰直線の選び方
y= 39.065183 - 0.6449298*x
平成18年時の6歳から17歳までの男女の平均身長・体重
最小2乗法
`
残差平方和の最小となる式
→実測値と予測値の平方和が最小
`
値を2乗する
→符号をあわせる為
→絶対値は扱いが複雑
→大きい残差はより大きく強調
→大きな残差を排除できる
yi = b0 + b1 x1i + ei
式の推定
weight(kg) height(mm)
1
30.4
14.5
2
26.5
17.1
3
29.2
16.5
4
29.5
15.5
5
25.9
16.6
6
29.6
18.8
7
26.2
19.1
8
28.1
17.5
9
31.1
14.6
10
26.9
16.1
平均
28.34
16.63
分散
3.50
2.45
偏差積和
共分散
b1 =
=
説明変数の平方和 説明変数の分散
偏差積和:平均との差を掛け合わせた結果の合計
- 14.20 - 1.58
b1 =
=
= -0.6449298
22.02
2.45
yi = b0 + b1 x1i + ei
式の推定
weight(kg) height(mm)
1
30.4
14.5
2
26.5
17.1
3
29.2
16.5
4
29.5
15.5
5
25.9
16.6
6
29.6
18.8
7
26.2
19.1
8
28.1
17.5
9
31.1
14.6
10
26.9
16.1
平均
28.34
16.63
分散
3.50
2.45
b0 = yi − b1 x1i − ei
b1 = -0.6449298, xi = 16.63, yi = 28.34
b0 = 28.34 − 0.6449298 ×16.63
b0 = 39.065183
y = 39.065183 - 0.6449298 x
単回帰分析
推定された式
寄与率、決定係数
R2 =
推定の偏差平方和
目的変数の偏差平方和
推定の偏差平方和
誤差の平方和
目的変数の偏差平方和
回帰式の有意性の検定F検定とt検定
p値が0.05および0.01より
小さいかどうか?
t値=推定値に対する標準誤差の比
重回帰分析の手順
①データ入力
②変数の選択と散布図行列の表示
分析→多変量→多変量の相関
(Y,列に相関関係を見たい変数名を割り当てる)
(Byに変数を割り当てるとその変数で層別の散布図行列が作成される。)
③散布図を動かしてみる(外れ値の有無や相関関係の確認)
ツール→手のひらツール
重回帰分析の手順
④変数の選択と重回帰分析の実行
分析→モデルのあてはめ
1)被説明変数(従属変数)を「役割変数の選択」のYに割り当てる。
2)説明変数(独立変数)を「モデル効果の構成」に追加で指定する。
3)手法を「標準最小2乗」に設定して、「モデルの実行」をクリックする。
⑤結果の解釈
1)自由度調整R2乗
2)分散分析のp値(モデルのF検定)
3)パラメータ推定値のp値の列(偏回帰係数のt検定)
重回帰分析の手順
⑥残差の分析
1)応答Yのプルダウンメニューの「列の保存」→スチューデント化
された残差を選択
2)データテーブルにスチューデント化された残差が記録されるの
で、このスチューデント化された残差と各説明変数との間の無
相関を散布図から確認する。
最小2乗法によるモデルのあてはめの前提
1)誤差項が各ケースで独立
2)誤差項は平均が0で分散は一定
3)誤差項は正規分布に従う
95%信頼区間と平均線の表示
図示した95%信頼区間の曲線が
平均線と交わっているかどうかで、
5%有意水準での回帰式の有意性
の検定を視覚的に行うことができる。
残差分析
•残差分析(残差=観測値-予測値)
•残差をプロットすることにより、
①外れ値や異常値のチェックおよびこれによる隠
された要因の検討
②点の並び方のクセやトレンドから誤差の等分散
性や系列相関、さらに非線形性のチェック
1)残差のヒストグラムから正規分布にしたがっ
ているといえるか?
2)残差の+と-の符号の数は同数か?
3)残差の中央値はゼロに近いか?
4)残差と目的変数および説明変数との間の散
布図から何らかの関係が見つからないか?
を検討する。
•ダービン・ワトソン比:時系列データの自己相関の
チェックに。2を中心に0から4までの値を取る。
三次元散布図
三次元散布図
3次元表示で視覚的に確認
旧称は回転プロット
手のひらツールで回転させる。
Shift
Alt
の各キーを押しながら
Ctrl
モデルのあてはめ
被説明変数
目的変数
従属変数
説明変数
決定変数
独立変数
あてはめ結果の解釈
①自由度調整R2乗
(自由度調整済み決定係数)
②分散分析表によるF検定
(帰無仮説:回帰式は意味をもたない。
(切片を除く全ての回帰パラメータが0である。))
③偏回帰係数のt検定
(帰無仮説:真のパラメータはゼロである。)
④偏回帰係数の推定値の符号
残差分析
効果の検定は、連続量の説明変数の
場合にはt検定と同じ。
残差分析
製造条件をチェック
他の要因はないか?
残差と変数との関係
スチューデント化された残差:
i番目の残差について、i番目の
残差を除いた他の残りの残差か
ら計算された残差の標準偏差を
用いて基準化した残差。外的に
スチューデント化された残差とも
言う。単に全残差の標準偏差で
基準化された残差を標準化残
差あるいは内的にスチューデン
ト化された残差と言う。
残差と各説明変数との間の関係
スチューデント化された残差と説明変数との
間に何の関係も見られないことが望ましい。
てこ比プロット
個々の偏回帰係数の有意性に関して、5%有意水準で視覚的に判定できる。
標準偏回帰係数
•目的変数と説明変数のそれぞれの
データを標準化してデータテーブルに保
存。
•この標準化されたデータを用いて重回
帰分析を行うと、得られる偏回帰係数は、
ある説明変数が1標準偏差分だけ変化
したとき、目的変数は何標準偏差分だ
け変化するかを示すことになり、説明変
数のスケール値やバラツキの大小には
依存しないようにして、各説明変数の目
的変数への影響度の比較を行うことが
できるようになる。
•このようにして得られる偏回帰係数を
標準偏回帰係数と呼ぶ。
標準偏回帰係数の推定
重回帰分析演習(1)
•酸度の変数を追加して収率の変動を説明するモデルを構築せよ。
バッチ番号
y:収率(%)
x1:圧力(気圧)
x2:温度(℃)
x3:酸度(pH)
1
30.4
14.5
87.6
7.5
2
26.5
17.1
89.3
6.9
3
29.2
16.5
92.3
7.2
4
29.5
15.5
89.2
7.4
5
25.9
16.6
87
6.5
6
29.6
18.8
91.6
8.2
7
26.2
19.1
90
7.3
8
28.1
17.5
91.5
7.8
9
31.1
14.6
89.7
7
10
26.9
16.1
90.5
6.7
相関分析
偏相関係数
他の変数の影響を取り除いた純粋な目的
変数と1つの説明変数との間の相関の程
度を表す尺度。目的変数と説明変数を残り
の説明変数で回帰式にあてはめ、それぞ
れの残差から求められる相関係数のこと。
結果の解釈
①自由度調整R2乗(自由度調整済み決定係数)
②分散分析表によるF検定
③偏回帰係数のt検定
④偏回帰係数の推定値の符号
重相関分析演習(2)
•粘度が追加された以下のデータを用いて収率を説明するモデルを作成せよ。
バッチ番号
y:収率(%)
x1:圧力(気圧) x2:温度(℃) x3:酸度(pH) x4:粘度
1
30.4
14.5
87.6
7.5
6.2
2
26.5
17.1
89.3
6.9
5.5
3
29.2
16.5
92.3
7.2
5.7
4
29.5
15.5
89.2
7.4
6.1
5
25.9
16.6
87
6.5
5
6
29.6
18.8
91.6
8.2
5.9
7
26.2
19.1
90
7.3
5
8
28.1
17.5
91.5
7.8
5.7
9
31.1
14.6
89.7
7
6.4
10
26.9
16.1
90.5
6.7
5.2
相関分析と相関・偏相関係数
結果の解釈
偏回帰係数のt検定結果と偏回帰係数の推定値は
どのように変化しただろうか?
偽相関
•同じ説明変数を用いた、収率を目的変数
とした重回帰分析の結果と比較してみよ。
•粘度は収率を説明する原因系の変数で
はなく、収率と同様に圧力と温度と酸度で
説明される結果系の変数ではないか。
•収率と粘度との間の高い単相関は、互い
に共通した説明要因に起因する偽相関で
ある可能性が強いようだ。
説明変数の選択
•PrincipleofParsimony(ケチの原則)
目的変数の予測という立場からは、説明変数の数が増えるほど寄与
率は高くなるが、あまり寄与率は下げないで、なるべく少数の説明変数
で、簡潔にモデルを記述したいという考え方。
•有効な変数と不要な変数を選択して、最適な回帰式を求めるには?
•変数選択の方法
①総当り法
②ステップワイズ法(逐次変数選択法)
1)変数増加法
2)変数減少法
3)変数増減法
4)変数減増法
③対話型変数選択法
ステップワイズ法による変数選択
説明変数の選択方法の選択
•方向で選択方法を選択
•SSE:誤差平方和
•DFE:誤差の自由度
•MSE:平均平方誤差
•Cp:MallowのCp基準
•AIC:赤池の情報量基準
AIC=nln(SSE/n)+2p
AICが最小であるモデルが
最良のモデル。
•経験的にF値が2以上であれば有
効な変数、2未満であれば不要な
変数とされている。
ステップワイズ法の結果
多重共線性
•説明変数の中に互いに非常に相関の高い変数が含まれているときに起こ
る現象
•発生する問題
①偏回帰係数を求めるとき、大きな計算誤差を伴うか、あるいは計算不能になっ
てしまう。
②求められた偏回帰係数が、1つのオブザベーションの追加や、ちょっとした誤差
によって、大きく変化してしまう。
③求められた偏回帰係数の符号が単相関係数の符号と合わない。
④寄与率(決定係数)は高いのに、個々の偏回帰係数は統計的に有意にならな
い。
•対策
①互いに関係をもった説明変数の一部を除去する。
②多重共線性を弱めるようなデータを追加する。
多重共線性の例
•以下のデータを用いて重回帰分析を行ってみなさい。
(内田他、『すぐわかるJMPによる多変量解析』、東京図書、2002年より)
バッチ番号 y
1
2
3
4
5
6
7
8
9
10
x1
30
32
30
33
30
35
35
37
37
39
x2
10
12
14
16
18
20
22
24
26
28
x3
20
24
28
32
36
40
44
48
52
56
15
17
19
19
22
24
24
25
25
26
質的変数を含んだ重回帰分析
•これまでのデータには、AとBの異なる原産地からの原料が含まれていることが
わかった。原料の情報を新たな説明変数に加えて重回帰分析を試みよ。
バッチ番号 y:収率(%) x1:圧力(気圧) x2:温度(℃) x3:酸度(pH) x5:原料
1
30.4
14.5
87.6
7.5 A
2
26.5
17.1
89.3
6.9 B
3
29.2
16.5
92.3
7.2 B
4
29.5
15.5
89.2
7.4 A
5
25.9
16.6
87
6.5 B
6
29.6
18.8
91.6
8.2 A
7
26.2
19.1
90
7.3 B
8
28.1
17.5
91.5
7.8 B
9
31.1
14.6
89.7
7A
10
26.9
16.1
90.5
6.7 B
結果の解釈
•Marginal法
•推定された回帰式は?
0ー1型ダミー変数の導入
結果の違いは?
•Partial法
•推定された回帰式は?
ダミー変数の作り方
partial法
marginal法
x1
x2
x3
x1
x2
x3
A
1
0
0
1
0
0
B
0
1
0
1
0
O
0
0
1
0
0
1
AB
0
0
0
-1
-1
-1
順序尺度の場合のJMP
x1
x2
x3
1
0
0
0
2
1
0
0
3
1
1
0
4
1
1
1
多項式回帰モデルと線形回帰モデル
西暦
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
VTR生産台数
50
49
114
137
124
119
288
762
1470
2199
4441
9498
13134
18217
28611
•左に示すのは、1970年から1984年までの国内VTR
生産台数のデータである。
•この生産台数の推移をうまく当てはめるモデルを
推定しなさい。
ヒント
①年の取り方に工夫されたい。
②グラフでプロットしてみて、データの特徴を読み取られたい。
③2次と3次の項を考えなさい。
データ分析の例
店舗名
乗降客数 店の広さ 駐車台数 売上高
小田原
245
59
60
272
秦野
118
32
35
161
伊勢原
142
25
30
129
本厚木
249
55
45
252
海老名
174
49
40
204
藤沢
202
32
35
168
大和
254
54
45
242
相模大野
168
32
40
169
町田
224
42
50
224
新百合ヶ丘
186
45
45
202
成城学園前
212
56
50
259
経堂
145
32
30
165
下北沢
174
31
35
180
梅ヶ丘
82
38
30
131
代々木上原
177
34
40
215
出所:「Lotus1-2-3活用多変量解析」(共立出版)
参考文献
•内野治・松木秀明・上野真由美、『すぐわかるJMPによる統計解析』、
東京図書、2002年。
•内野治・松木秀明・上野真由美、『すぐわかるJMPによる多変量解析』、
東京図書、2002年。
•田久浩志・林俊克・小島隆矢、『JMPによる統計解析入門』、2002年。
•圓川隆夫、『多変量のデータ解析』、朝倉書店、1988。
•JMPのヘルプファイルや統計関係のウェブサイトも参考になります。
「JMP」をキーワードに検索エンジンで検索してみて下さい。
多項式回帰(1)
•直線(説明変数xの1次式)
y = ax + b
•曲線1(説明変数の2次式)
y = ax 2 + bx + c
•曲線2(説明変数の3次式)
y = ax 3 + bx 2 + cx + d
多項式回帰(2)
•列を追加して、計算式で説明変数
(西暦年-1969)の2乗と3乗の列を作成する。
多項式回帰(3)
多項式回帰(4)
多項式回帰(5)
推定された多項式回帰モデルは
y = 5318.13 –2812.08 x + 271.686 x2
多項式回帰(6)
推定された多項式回帰モデルは
y = -2063.55 + 1970.32 x –452.007 x2+ 30.1539 x3
予測値のチェック
モデルは予測に使えるか?
①マイナスの生産台数
②3次のモデル1973年から76年まで予測値が減少
③1970年頃(少量生産)と1980年頃(大量生産)で等分散性を仮定してよいか?
VTR生産台数の対数変換
VTR生産台数を対数変換してみると、線形の関係が見られる。
変数変換による線形回帰モデル
推定された回帰モデル:lny = 2.797 + 0.496 x
このモデルで生産台数を予測するには?
予測値の逆変換
対数変換モデルによる予測
JMPでの変数変換による重回帰分析
JMPでの対数変換モデルの推定結果
ここに示された決定係数は、
変換後のデータに対するもの
数量化理論第Ⅰ類
ダミー変数のみを用いた重回帰分析と同等
チーム名
観客動員数
リーグ
本拠地
親会社業種
前年度成績
読売
304
セ
首都圏
新聞
A
中日
201
セ
その他
新聞
A
広島
112
セ
その他
市
A
ヤクルト
222
セ
首都圏
メーカー
B
大洋
154
セ
首都圏
市
B
阪神
213
セ
関西
電鉄
C
西武
181
パ
首都圏
電鉄
A
阪急
123
パ
関西
電鉄
A
日本ハム
124
パ
首都圏
メーカー
B
南海
88
パ
関西
電鉄
B
ロッテ
78
パ
首都圏
メーカー
C
近鉄
101
パ
関西
電鉄
C
1987年度プロ野球観客動員数と球団属性一覧
モデルの仮説
モデルのあてはめ
数量化理論第Ⅰ類の結果(1)
カテゴリスコア
リーグ[パ]の係数 =
-リーグ[セ]の係数= -60.76087
本拠地[首都圏]の係数
=-本拠地[関西]の係数
-本拠地[その他]の係数
= 4.333333 + 42.24638 =46.57971
アイテムのレンジ =
アイテムのカテゴリスコアの最大値-カテゴリスコアの最小値
有意性の判定
数量化理論第Ⅰ類の結果(2)
残差の分析
数量化理論第Ⅰ類の応用
1. 2003年度のデータを使用してプロ野球の観客動員数の予測を行ってみなさい。
2. 兵庫県市町データを用いて、数量化理論第Ⅰ類を適用した分析を考えてみなさい。
判別関数分析
サンプル番号
カード使用状態
家族構成数
年齢
年収
1
○
3
30
347
2
○
4
55
383
3
○
5
50
615
4
○
4
54
435
5
○
6
60
751
6
○
5
39
377
7
○
3
42
430
8
○
6
64
672
9
○
2
70
702
10
○
4
35
398
11
×
3
41
552
12
×
3
37
306
13
×
2
40
408
14
×
2
30
301
15
×
3
42
315
16
×
4
37
308
17
×
4
33
375
18
×
2
34
578
19
×
3
39
357
20
×
5
30
422
一変量の分布(層別ヒストグラム)
カード使用状況とその他の変数との間には、どのような関係が存在するか?
層別散布図(1)
層別散布図(2)
回転プロット
判別関数分析(1)
外的基準(説明したい変数)を0-1型の変数に変換する。
判別関数分析(2)
0-1型に変換された外的基準
判別関数分析(3)
判別関数分析(4)
判別関数分析(5)
判別関数分析(6)
マハラノビスの汎距離による判別式
を得るには、外的基準yの値として
Ⅰ群に
n2 /(n1 + n2 )
Ⅱ群に
− n1 /(n1 + n2 )
を与える。こうすれば、外的基準の
値の総平均が0となり、予測値の正
負で判別が可能になる。
また、重回帰分析の変数選択や偏
回帰係数の有意性の検討が判別
関数分析にも応用できる。
判別関数分析(7)
z = −1.362 + 0.116 x1 + 0.0218 x2
となる直線(線形判別関数)
Ⅰ群(正常○)に判別
Ⅱ群(異常×)に判別
判別関数分析(8)
MANOVA(多変量分散分析モデル)
を指定
説明変数を指定
外的基準を指定
判別関数分析(9)
•判別結果をデータテーブルに保存する
判別関数分析(10)
判別結果
各群の重心からオブザベーションまで
の
マハラノビスの距離
オブザベーションが各群に
含まれる確率
判別関数分析(11)
説明変数として、家族構成員数と年齢に加えて、年収も入れて分析を行ってみよ。
年収は判別に寄与していない!
数量化理論第Ⅱ類(1)
•ダミー変数のみを用いた判別関数分析と同等
•リーグを外的基準にして、リーグの違いを分析してみよ。
1987年度プロ野球観客動員数と球団属性一覧
チーム名 観客動員数 リーグ
読売
304 セ
中日
201 セ
広島
112 セ
ヤクルト
222 セ
大洋
154 セ
阪神
213 セ
西武
181 パ
阪急
123 パ
日本ハム
124 パ
南海
88 パ
ロッテ
78 パ
近鉄
101 パ
本拠地
首都圏
その他
その他
首都圏
首都圏
関西
首都圏
関西
首都圏
関西
首都圏
関西
親会社業種
新聞
新聞
市
メーカー
市
電鉄
電鉄
電鉄
メーカー
電鉄
メーカー
電鉄
前年度成績
A
A
A
B
B
C
A
A
B
B
C
C
数量化理論第Ⅱ類(2)
リーグを0ー1型変数
または0.5と-0.5の値を
とる変数に変換。
数量化理論第Ⅱ類(3)
分析結果を解釈してみると?
R 2 = 1 − ( S E /( n − p − 1)) /( ST /( n − 1))
数量化理論第Ⅱ類(3)
主成分分析(1)
多数の変数データから、変数間の内部関連に基づく少数の
主成分と呼ばれる合成変数を構成する分析法
学生番号 国語
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
社会
55
36
53
78
6
41
73
21
50
61
73
56
56
35
37
61
39
37
40
54
数学
59
49
58
80
19
43
78
29
55
69
80
69
53
43
52
66
55
41
45
65
理科
38
35
16
42
38
49
57
38
22
57
66
79
30
35
54
53
56
23
60
55
音楽
66
57
41
65
59
66
77
58
51
71
88
91
50
49
71
74
69
42
72
72
美術
29
63
67
85
49
74
61
64
58
68
43
55
73
57
81
69
82
53
73
81
32
62
54
75
47
64
62
58
58
61
48
50
72
53
72
62
70
50
67
73
保健体育 技術家庭 英語
29
36
55
66
50
50
69
76
43
57
63
75
53
65
52
65
51
46
53
64
42
60
50
72
63
62
45
47
70
80
56
74
68
78
37
44
59
76
68
85
61
45
48
70
26
49
73
32
52
63
80
73
45
38
51
63
52
37
48
66
主成分分析(2)
主成分分析(3)
•x1, x2, ‥‥, xpのp個の変数から新しい変数z1, z2, ‥‥, zmを
作成することを考える。
z1 = a11 x1 + a12 x2 + ⋅ ⋅ ⋅ + a1 p x p
z 2 = a21 x1 + a22 x2 + ⋅ ⋅ ⋅ + a2 p x p
:::::
z m = am1 x1 + am 2 x2 + ⋅ ⋅ ⋅ + amp x p
・ここで、z1からzmへと順にx1からxpまでの情報が
最大限に集約されるように係数aijを決めたい。
•もとの変数の分散共分散行列の固有値と固有ベクトルを
計算することに帰着される。
主成分分析(4)
•通常は相関係数行列からを選択
•分散共分散行列からを選択すると
変数のスケールのとり方に
依存して 分散共分散行列の値が変
化する。
主成分分析(5)
固有値の総和=p(分散共分散行列からの場合は各変数の分散の総和)
第k主成分の寄与率=第k主成分の固有値/p
どこまでの主成分を考えるかの基準
①累積寄与率
②寄与率の低下の仕方
③相関行列からの場合に固有値が1より大
主成分分析(6)
主成分分析の結果
(各主成分の重み係数=主成分負荷量=固有ベクトル)を保存
主成分分析(7)
主成分の解釈(主成分の意味の検討)
各主成分の散布図行列から各主成分のもつ意味を検討する。
主成分分析(8)
主成分分析(9)
第1主成分
綜合点
第2主成分
第3主成分
で
特殊技能系
文科系
理科系
主成分スコアから各オブザベーションの特徴を知る