東京大学公共政策大学院教材

事例研究(ミクロ経済政策・問題分析 I)
- 規制産業と料金・価格制度 (第8回 - 手法(4) 誤差への対策)
2014年 6月 13日
戒能一成
0. 本講の目的
(手法面)
- 分析・計測時の誤差に対する典型的な対策手法
を理解する
- 特に事前措置(試料整備)と事後措置(感度分
析)の組合せによる問題解決手法を理解する
(内容面)
- 計量経済学・統計学を実戦で応用する際の
基礎的留意点を理解する (3)
2
1. 削減困難な誤差・削減可能な誤差
1-1. 誤差の分類
- 一般に社会科学分野のデータを分析・計測する
場合において一定程度の誤差は不可避である
- 一方、なるべく誤差を削減するための対策は十
分でないことが多い(← 減らせる「誤差」がある)
○ 本質的に削減困難な誤差
- 偶発的要因の影響 (自然現象・社会現象)
- 考慮外の要因の影響 (未知の事象)
○ 削減可能な誤差
- 試料の作成過程での問題の影響
3
- 分析モデル上の問題の影響
1. 削減困難な誤差・削減可能な誤差
1-2. 事前対策・事後対策
- 削減可能な誤差に対する対策には事前対策・事
後対策がある
事前対策: 測定・分析する試料を準備する段階
→ 試料属性の分別、試料数の確保
→ モデルの検討、複眼的探索の実施
事後対策: 測定・分析を実施した後の段階
→
検算・検定、感度分析の実施
- 事前・事後の対策を直線的に適用するだけでは
不十分であり、可能な限り両者を組合わせて再帰
的に対策を実施していくことが有効である
4
1. 削減困難な誤差・削減可能な誤差
1-3. 削減可能誤差への「再帰的」対策
- 事前対策・事後対策の「再帰的」組合せの例
( →「予察」による再帰的対策の重要性; 冗長性 )
事前対策: 試料数の確保
分析・計測
「再」事前対策
モデル構造見直し(再計測)
試料属性見直し(再採取)
事後対策: 感度分析
結果判定
5
2. 事前対策(1) 試料整備
2-1. 「試料整備」は「追加整備(=やり直し)」を前提に
- 事前対策として理想的な試料整備は、後の分析・
計測で使用する可能性がある試料を悉皆的・網羅
的に整備しておくこと
- 一方で時間的・予算的制約の観点からは、必要
最小限の試料整備で済ませることが必要
特に実務上は当該制約は非常に厳しい
→ 「最適な試料整備」を 1回の試行で達成する
ことは不可能であり、「後で 2回目以降の追加
整備」を行う可能性を考慮に入れておくこと
6
2. 事前対策(1) 試料整備
2-2. 試料整備の手法: 「着眼大局・着手小局」
- 出典元・形態の記録 (どこから持ってきたか?)
・ 発行機関・資料名・刊/編・ページ, 入手日時
- 分類情報の把握・記録
・ 入手可能年 (何年(度)から入手可能か?)
・ 原分類項目 (地域・属性などの分類は?)
企業: 業種・規模(売上,従業員数)
家計: 地域・所得階層・世代層
・ 改訂経過 (毎年度改訂? 5年毎?)
→ 最初「枠」(表頭・表側)と合計値だけ整備しておく
7
2. 事前対策(1) 試料整備
2-3. 精度と信頼区間 : CI Confidence Interval
- 95%水準での t検定の考え方を拡張して、逆に
回帰係数β*k が信頼できる確率95%の範囲(=
β*k との差が 0 と言える確率が片側2.5%以上の
範囲が「信頼区間 CI」
- β*k(±5%) = β*k ± t(0.025) * ( σ*2・(x’x)-1kk )0.5
d (帰無仮説が真である)
確率密度, t分布
β*k: △β*k=0
△β*k(±5%) = t(0.025) * ( σ*2・(x’x)-1kk )0.5
確率密度積分値(=確率)
片側 2.5%
t (n-k)
0 (= t0.500 )
t(0.025)
t 検定統計値
8
2. 事前対策(1) 試料整備
2-4. 試料数と信頼区間
- 試料数と信頼区間 (危険率5%, 分散既知)
n ≧ (2 * t(0.05, n-1) )2/CI 2 * σ2 ⇔
CI ≦ 2 * t(0.05, n-1) * σ / n0.5
~ CI α n-0.5 ( t > 10 )
n : 試料数, CI : 信頼区間, σ2 : 分散
→ 信頼区間が 1/2になる迄精度を上げるために
は試料数を 4倍に増やす必要あり ( ! )
→ しかし、社会科学分野では試料数を増加させ
ることは非常に困難、分析上の「隘路」
9
2. 事前対策(1) 試料整備
2-5. 単に試料数を増やせばよい訳ではない
- 社会科学分野での分析・計測精度上の問題は
「均質な」試料を増やす必要があること
- 試料を過去何十年に遡って集めたり、地域分
割したとしても、均質性が確保されているとは
限らないため、却って精度が下がる場合あり
- 手堅い対応は年(年度)資料を月次資料に
よる分析に置換えること (精度約 3倍)
→ 近年公的統計の「個票データ」利用による分析
・計測が多用される理由の 1つ
10
2. 事前対策(1) 試料整備
2-6. 現実的目安 [重要]
- 試料数が10以上かつ自由度が 5以上になるよう
措置しておけば一定の精度が確保可能
(例えば 説明変数2, 月次の重回帰なら 18試料)
- それ未満の場合自由度の低下に伴い精度急減
p=0.05 の t分布表
t ( = 検定値 Z の臨界値 )
14.00
両側検定
12.00
片側検定
10.00
8.00
6.00
4.00
CI ≦ 2 * t(α,n-1) * σ/ n0.5
→ t が n < 5 で急増
⇔ CI が n < 5 で急拡大
2.00
0.00
1
3
2
5
4
7
6
9
8
11
10
13
12
自由度 ( n- 1)
15
14
17
16
18
11
3. 事前対策(2) モデル検討
3-1. モデル選択の現実的問題
- 一般に社会科学分野で多様されるモデルは、
複数の説明変数による線形・対数線形モデル
- 特に政策の評価・分析を行う際には、殆どの場合
時系列(線形・対数線形)モデルを解くこととなる
(→ ARMAX(Box-Jenkins) 又は VAR モデル )
- 従って「如何に妥当な被説明変数・説明変数の
組合せを用いて分析・計測したか」
という点が問題
→ ミクロ経済理論と計量分析の接点
12
3. 事前対策(2) モデル検討
3-2. 企業モデル (1) 基本的手法
- 企業モデルにおいて重要な点は「供給曲線」に関
する情報の識別
- 多くの場合、財務諸表から平均費用・限界費用を
推計することとなる (← 年度, 一部四半期)
- 平均費用の推計は容易であるが、限界費用を推
計することは困難であり、通常は可変費で代用
- 費用項目別の固定費・可変費の区別は業種によ
り異なるため、最終的には作図や簡単な回帰分析
で可変費か否かを確定させることとなる
(生産量変化に応じた当該費目の変化が正相関?)
13
3. 事前対策(2) モデル検討
3-3. 企業モデル (2) 可変費に関する問題
- 費用項目別の可変費からの限界費用の推計に
おいては「外的要因の除去」が必要
(例: 燃料・原料費 (物価・為替), 人件費 (賃金))
- 可変費から限界費用を推計する場合、曲線形状
の仮定が分析・試算の精度に影響を与える
(例: 固定値(定数), 一次(直線), 二次, 片対数, ・・・)
P,C 価格・費用
x
x
x
x
Q 数量
14
3. 事前対策(2) モデル検討
3-4. 家計モデル (1) 基本的手法
- 家計モデルにおいて重要な点は「需要曲線」に関
する情報の識別
- 多くの場合、世帯別家計消費支出から価格弾力
性など需要曲線に関する分析・計測を実施
→ 総務省「家計調査報告」(月報)の有用性
- 世帯別家計消費支出の分析においては、通常は
価格弾力性・所得弾力性を時系列分析により推計
Qx = ex * Px + e-x * P-x + ei * I + [Lag] + [error]
x; 当該財サービス –x; 他の財サービス
Q; 数量 P; 価格 I; 所得
15
3. 事前対策(2) モデル検討
3-4. 家計モデル (2) 試料の均質性の問題
- 家計モデルにおける分析・計測で明確な弾力性
が観察されない場合、分析・計測対象となる試料
の属性を識別して分析・計測してみることが有効
( = 試料の属性別「不均質性」を疑う価値あり )
→地 域
(10地域・47県庁所在地)
→ 所得階層 (5分位 (嘗ては10分位))
→ 世代層 (世帯主10歳刻 (嘗ては 5歳刻))
(例) 飲食費・交通通信費・娯楽費(← 地域・所得)
教育費・医療費
(← 世代層・所得)
16
4. 事後対策 – 感度分析
4-1. 感度分析の目的・手法
- 分析・計測実施後に、分析・計測結果に対して問
題とする「計測値」の精度が与える影響を確認する
ことが感度分析の目的
- 感度分析は通常「信頼区間の上限・下限」を用い
て実施する (例: 95%信頼区間 CI )
← 通常起こりえる当該「計測値」の変動に対し
分析・計測結果がどの程度変化するかを確認
- 問題となるのは、「信頼区間の上限・下限」による
感度分析の結果、分析・計測結果が覆る場合
→ 事前対策に戻り「再帰的対策」を試行すべき
17
4. 事後対策 – 感度分析
4-2. 「再帰的対策」を講じてもなお不安定な場合
- 十分に「再帰的対策」を講じてもなお、「信頼区間
の上限・下限」を用いた感度分析の結果、分析・計
測結果が覆る場合には、「誤差」の問題ではなく
「本質的不安定性」が原因である場合あり
→ (例) 一時的流行
(ex 健康食品・化粧品)
災害・自然現象
(ex 東日本大震災)
画期的新製品普及 (ex スマホ)
- この場合においては、「結果が不安定である」とい
う点自体が重要な帰結の一部であり、何故不安定
なのかを究明する旨方針転換すべき
18
4. 事後対策 – 感度分析
4-3. 当該「数値」の精度情報が得られない場合
- 先験的・演繹的に設定された数値の場合、信頼
区間など精度に関する情報が得られないことがあ
る (例) 海外の事例、先行研究事例
- その場合「通常起こりえる当該「数値」の範囲」を
推計し分析・計測結果がどの程度変化するか確認
← (例) 過去最大値・最小値の差の 25%
該当値の ± 10%, ±20% or ±25%
- やむを得ない場合を除き、分析・計測上重要な
「数値」を先験的・演繹的に設定することは避ける
べき
19
5. 実践的事例 – 「酒類の価格と消費」
5-1. 酒類の価格と消費 (事例状況説明)
- 例: 酒類消費量(家計調・県庁所在地別・2008)
横断面分析
20
5. 実践的事例 – 「酒類の価格と消費」
5-2. 事例1 - 焼酎の価格効果(1)
- 焼酎購入量(家計調・県庁所在地別・2008)
lsaq: 消費量(対数, l) lsap: 価格(対数, \/l)
lexp: 消費支出(対数) lpdp: 人口密度(対数)
lbeep: ビール価格(対数) ; STATA計測結果
. reg lsaq lsap lbeep lexp lpdp
Source
推計式説明
分・残差分
SS
二乗和・ k, n-k ・平均二乗和
df
MS
Model
Residual
2.59129468
2.5767747
4
42
.647823671
.061351779
Total
5.16806938
46
.112349334
Number of obs = 47
F( 4,
42) = 10.56
Prob > F
= 0.0000
R-squared
= 0.5014
Adj R-squared = 0.4539
Root MSE
= .24769
t値・p値
lsaq
lsap
lbeep
lexp
lpdp
_cons
Coef.
-1.452444
3.232778
-.7018367
-.1476392
.0037443
βi (係数)
Std. Err.
.32794
1.085017
.4758033
.0525584
9.692547
t
-4.43
2.98
-1.48
-2.81
0.00
√σ2(xx)-1(標準誤差)
P>|t|
0.000
0.005
0.148
0.008
1.000
F検定結果
R2・ Adj.R2
残差平方和
[95% Conf. Interval]
-2.114253
1.043126
-1.662047
-.2537063
-19.55661
-.7906338
5.42243
.2583733
-.041572
19.5641
95%信頼区間上限・下限
21
5. 実践的事例 – 「酒類の価格と消費」
5-3. 事例1 - 焼酎の価格効果(2)
- 焼酎の価格弾力性(lsap 係数) は -1.452,
95%信頼区間の上限・下限は -0.791, -2.114
→ 変動は ± 0.66
(例) 酒税を 10%引上げ → 需要は△8~△21%
. reg lsaq lsap lbeep lexp lpdp
Source
SS
df
MS
Model
Residual
2.59129468
2.5767747
4
42
.647823671
.061351779
Total
5.16806938
46
.112349334
lsaq
Coef.
lsap
lbeep
lexp
lpdp
_cons
-1.452444
3.232778
-.7018367
-.1476392
.0037443
βi (係数)
Std. Err.
.32794
1.085017
.4758033
.0525584
9.692547
Number of obs = 47
F( 4,
42) = 10.56
Prob > F
= 0.0000
R-squared
= 0.5014
Adj R-squared = 0.4539
Root MSE
= .24769
t
-4.43
2.98
-1.48
-2.81
0.00
P>|t|
0.000
0.005
0.148
0.008
1.000
[95% Conf. Interval]
-2.114253
1.043126
-1.662047
-.2537063
-19.55661
-.7906338
5.42243
.2583733
-.041572
19.5641
95%信頼区間上限・下限
22
5. 実践的事例 – 「酒類の価格と消費」
5-4. 事例1 - 焼酎の価格効果 ; 精度向上対策検討
- 量的対応: 試料数の増加
- 月報・複数年度利用によるパネルデータ化
(但し 月次・年次変動など時系列変動注意)
- 質的対応: 属性区分による対応
- 地域・所得・世代層区分によるデータ分割
(但し 多層に区分すると試料数は急減)
- 複合的対応
- 例: 月報利用 & 地域区分化, 但し試行錯誤要
→ 1) 質的対応, 2) 量的対応 の順に試行すべき
23
5. 実践的事例 – 「酒類の価格と消費」
5-5. 事例1 - 試料数を無作為に減らした影響
・ 24(奇数県)
~ ± 1.0
(精度低下)
. (5 vars, 24 obs pasted into editor)
reg lsaq lsap lexp lbep lpdp
Source
df
MS
Model
Residual
1.35421909
1.30954389
4
19
.338554772
.068923363
Total
2.66376298
23
.115815782
lsaq
Coef.
lsap
lexp
lbep
lpdp
_cons
・ 23(偶数県)
~ ± 1.0
(精度低下)
SS
-1.024395
-.2529548
3.057913
-.1711668
-5.338253
Std. Err.
.4819226
.6417604
1.428668
.0705118
12.5334
Number of obs = 24
F( 4,
19) = 4.91
Prob > F
= 0.0069
R-squared
= 0.5084
Adj R-squared = 0.4049
Root MSE
= .26253
t
-2.13
-0.39
2.14
-2.43
-0.43
P>|t|
0.047
0.698
0.046
0.025
0.675
[95% Conf. Interval]
-2.03307
-1.596175
.067676
-.3187498
-31.57096
-.0157192
1.090265
6.04815
-.0235838
20.89446
. (5 vars, 23 obs pasted into editor)
reg lsaq lsap lexp lbep lpdp
Source
SS
df
MS
Model
Residual
1.32774085
1.07092205
4
18
.331935212
.059495669
Total
2.39866289
22
.109030132
lsaq
Coef.
lsap
lexp
lbep
lpdp
_cons
-1.838581
-1.306458
2.799773
-.1262372
11.5556
Std. Err.
.4883224
.7733931
1.986667
.0932673
17.05605
Number of obs = 23
F( 4,
18) = 5.58
Prob > F
= 0.0042
R-squared
= 0.5535
Adj R-squared = 0.4543
Root MSE
= .24392
t
-3.77
-1.69
1.41
-1.35
0.68
P>|t|
0.001
0.108
0.176
0.193
0.507
[95% Conf. Interval]
-2.864509
-2.931297
-1.37406
-.3221845
-24.27784
-.8126541
.3183805
6.973605
.0697102
47.38904
24
5. 実践的事例 – 「酒類の価格と消費」
5-6. 事例1 - 試料を属性区分した影響(試料数1/2)
・ 東日本(24)
~ ± 0.8
(精度向上)
. (5 vars, 24 obs pasted into editor)
reg lsaq lsap lexp lbep lpdp
Source
df
MS
Model
Residual
1.5470333
.987903226
4
19
.386758325
.051994907
Total
2.53493653
23
.110214632
lsaq
Coef.
lsap
lexp
lbep
lpdp
_cons
・ 西日本(23)
~ ± 1.4
(有意性消滅)
SS
-1.585569
-.9195582
2.595993
-.0626354
6.640061
Std. Err.
.3738825
.7447469
1.848456
.0597867
15.35801
Number of obs = 24
F( 4,
19) = 7.44
Prob > F
= 0.0009
R-squared
= 0.6103
Adj R-squared = 0.5282
Root MSE
= .22802
t
-4.24
-1.23
1.40
-1.05
0.43
P>|t|
0.000
0.232
0.176
0.308
0.670
[95% Conf. Interval]
-2.368114
-2.478331
-1.27287
-.1877704
-25.50462
-.8030238
.6392149
6.464857
.0624995
38.78474
reg lsaq lsap lexp lbep lpdp
Source
SS
df
MS
Model
Residual
1.3649915
1.26628196
4
18
.341247875
.070348998
Total
2.63127346
22
.119603339
lsaq
Coef.
lsap
lexp
lbep
lpdp
_cons
-1.410083
-.5742994
3.121579
-.3175943
-.0206719
Std. Err.
.6903079
.6977093
1.529034
.0992071
12.90055
Number of obs = 23
F( 4,
18) = 4.85
Prob > F
= 0.0078
R-squared
= 0.5188
Adj R-squared = 0.4118
Root MSE
= .26523
t
-2.04
-0.82
2.04
-3.20
-0.00
P>|t|
0.056
0.421
0.056
0.005
0.999
[95% Conf. Interval]
-2.860366
-2.040132
-.0908034
-.5260206
-27.12373
.0401998
.8915334
6.333961
-.1091679
27.08238
25
5. 実践的事例 – 「酒類の価格と消費」
5-7. 事例2 – 清酒の価格効果
- 「95%有意でない」係数の意味
- 清酒の価格弾力性(lsesp 係数) は -0.760,
95%信頼区間の上限・下限は +0.171, -1.692
→ 変動は ± 0.93 だが 符号反転
→ 試料の再探索・モデルの再構築が必要
reg lsesq lsesp lexp lbep lpdp, robust
Linear regression
lsesq
lsesp
lexp
lbep
lpdp
_cons
Number of obs = 47
F( 4,
42) =
3.46
Prob > F
= 0.0157
R-squared
= 0.1801
Root MSE
= .50057
Coef.
-.7603808
2.647922
.9660747
-.0551439
-36.86758
Robust
Std. Err.
.4615664
1.460407
3.174408
.0656767
39.2541
t
-1.65
1.81
0.30
-0.84
-0.94
P>|t|
0.107
0.077
0.762
0.406
0.353
[95% Conf. Interval]
-1.69186
-.2992983
-5.440141
-.1876848
-116.0856
.171098
5.595142
7.37229
.0773971
42.35041
26