計量経済学 講義 第 23 回 確率モデル 2010 年 1 月 4 日(月)3 限 担当教員: 唐渡 広志 研究室: 経済学研究棟4階432号室 email: [email protected] website: http://www3 u-toyama http://www3.u toyama.ac.jp/kkarato/ ac jp/kkarato/ 1 講義の目的 データから母集団の性質を予想するために必要な推定量について 理解します. あるデータがどのようにして「発生したのか」を考えるために 「確率モデル」を定義します. key words: 確率モデル,デ 確率モデル,データ発生プロセス(DGP),理論観測 タ発生プ セス(DGP),理論観測 値,統計量,推定量,推定値,単純回帰モデル,最小2乗推定量 教科書: 山本: pp.326 pp 326 – 334, 334 52 - 57. 57 白砂: 2 データの発生プロセス 例.ある町で川に橋をかけるために「川幅」を測定. 4つの橋梁施工業者に測定を依頼した. 4つの橋梁施工業者に測定を依頼した 測定結果 測定した川幅(m) 真の川幅はたった一つしかないのに, 真の川幅はた た つしかないのに なぜ業者によって長さが違うのか? 業者1 50 3 50.3 業者2 48.9 業者3 49.5 ・使っている測定器の精度の違い 業者4 50.6 ・測定した技術者の能力の違い 理由 ・測定する場所が間違っていた etc データ { 50.3, 50 3 48.9, 48 9 49 49.5, 5 50 50.6 6 } はどのようなメカニズムで発生したのだろうか? 3 確率モデル データが発生した仕組み(データ発生プロセス)を確率 変数で表した「模型(モデル)」を確率モデルとよぶ. 確率モデル 川幅の測定データ 真の川幅 誤差項 デ タ発生プロセスを数式で表現 データ発生プロセスを数式で表現 誤差項を確率変数と考える. 例.真の川幅 = 50m であるとしよう(本当は誰も知らない) 業者1のデータ のデ タ 50 誤差 0.3 50.3 業者2のデータ 50 誤差 1.1 48.9 業者3のデ のデータ タ 50 誤差 0.5 49.5 業者4のデータ 50 誤差 0.6 50.6 4 大胆な単純化 Yi のデータ発生プロセス(Data Generating Process; DGP) Yi ui 真の値 i 1,2, , n 誤差項 ui ~ N 0, 2 u1 ~ N 0, 2 u 2 ~ N 0, 2 【確率モデルの仮定】 u n ~ N 0, 2 ・未知の真の値が存在する. ・誤差項は平均0,分散2の正規分布にしたがう確率変数である. ・誤差項は互いに独立な確率変数である. 例えば,Covu1 , u 2 0 ・ Y は「真の値に誤差を加わえる」ことによって生じたデータである. は「真の値に誤差を加わえる」ことによって生じたデータである 【重要】 uiは確率変数なので, Y iも確率変数である. 5 ui ~ N ( 0, 2 ) の意味 E ui 0 V ui 2 E ui E ui E ui2 2 期待値が0なので,誤差の2乗の期待値が誤差の分散になる. Covui , u j E ui E ui u j E u j E ui u j 互いに独立なので, Covui , u j E ui u j 0 番号違いの誤差項の積の期待値は共分散を示している. 【仮定】より0である. 6 u1 ~ N 0,1 0.0 0..2 0.4 データ発生プロセス 0.0 0.2 0.4 0 2 4 Y2 48.9 0.0 0.2 0.4 -2 0 2 4 0.0 0.2 0.4 -2 2 0 2 4 +0 6 +0.6 -4 -2 0 真の値 = 50 [[m]] Y3 49.5 -0.5 -4 4 u 4 ~ N 0,1 -2 -0.11 -4 u 3 ~ N 0,1 Y1 50 .3 +0.3 -4 u 2 ~ N 0,1 例. 2 1 のケース Y4 49.5 2 4 7 理論観測値とその実現値 Yi ui , ui ~ N 0, 2 i 1,2, , n 確率モデルにおける Y1 はいろいろな値をとる可能性をもった確 率変数と考えることができる.これを 理論観測値 とよぶ. データとして生じた Y1 = 50.3 はその実現値である. 実現値 50.3 が発生したメカ が発生したメカニズムの背後には理論観測値 ズムの背後には理論観測値 Y1 の存在 があり,実際には数多くある実現値の中の一つがたまたま生じた, と考える. 理論観測値 Y1 50.3 確率変数と考える 確率変数 無数 ある実現値 確率変数の無数にある実現値 の一つ(データ)と考える たまたま生じたデータ 8 理論観測値の期待値と分散 Yi ui , ui ~ N 0, 2 i 1,2, , n u1 , u2 , , un は平均 0,分散 2 の正規分布にしたがう E Yi E ui E ui 0 E u V Yi E Yi E Yi 2 E ui2 i V ui 2 2 CovYi , Y j E Yi E Yi Y j E Y j E ui u j 0 番号違いの誤差項の積の期待値は共分散 を示している. 【仮定】より0である. Yi ~ N , 2 i 1,2, , n 9 理論観測値の実現値の分布 Y のデータ発生プロセス 0.44 データ デ タ Y 0.2 0.1 0.0 p 0.3 i 46 48 50 52 54 x 真の川幅 真 川幅 誤差 u 1 49.2747 50 -0.7253 2 50.7239 50 0.7239 3 50.8246 50 0.8245 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 1000 51.4132 50 1.4132 真の川幅 誤差項が正規分布だったので, Yも正規分布になる. 1000人の業者が測定した川幅のデータ 10 真の値 をどのように推定するか Yi ui , ui ~ N 0, 2 i 1,2, , n ・真の値 真の値 は誰も知らない. は誰も知らない しかしデータ しかしデ タYi Y1 , Y2 , , Yn だけはある. だけはある ・真の値 の推定方法 例えば,データYi を利用して最小2乗法 最小2乗法 = 誤差(残差)の2乗和を最小にするパラメタを見つける方法 誤差 : ui Yi 両辺を 2乗して合計すると ui2 2 Y Yi 2 2 Yi n 2 i u i2 を最小にする を求める.微分して 0とおく d uˆi2 0 dˆ Yi ˆ n 2 Yi 2nˆ 0 {Yi} の平均値を計算すれば,それが の予想に役立つ 11 例.確率モデルの最小2乗推定 Yi ui , ui ~ N 0, 2 Yi 6,9,10,11 Y i 残差2乗和 : 338 Yi 36 2 2 ˆ ˆ u Y i i n4 Yi 2 2ˆ Yi nˆ 2 残差2乗和の最小値 30 Yi 最小2乗推定値: ˆ 9 4 2 25 Y2i 2^ Yi n^ 15 1 14 10 2 20 残差2乗和 和 残差 2乗和の最小値 uˆ i2 Y i Y 2 7 8 9 mu hat 10 11 12 統計量と推定量,推定値 ˆ 1 1 1 Y1 Y2 Yn n n n ˆ のように理論観測値 {Y1,Y2,…,Yn } を利用して作られた 式を「統計量」とよぶ. 式を 統計量」とよぶ. 統計量の中で,パラメタ推定に用いられるものを「推定量」 とよぶ(推定量とは推定に用 られる統計量の とである) とよぶ(推定量とは推定に用いられる統計量のことである). 推定量の式に理論観測値の実現値を代入して計算された 値を「推定値」とよぶ. 値を「推定値」とよぶ 「推定量」とは推定値を得るための計算手順を示した式であ る. 1 1 1 1 推定値:ˆ 6 9 10 11 9 4 4 4 4 13 統計量と推定量 理論観測値の集まり Y1 , Y2 , , Yn 統計量(statistics) 統計量と推定量の集合 推 推定量(estimator) 最小2乗推定量 別の推定量 最小2乗推定値 14 例題 あるデータ {Yi } = { 6,9,10,11} がある.確率モデル Yi = + ui を 利用して,真の値 を推定したい.以下の問いに答えなさい. 問1: 統計量でないのはどれか. a Y1 Y2 Y3 b Y4 c Y1 Y2 Y4 Y1 Y4 Y1 d 9 問2: 推定量でないのはどれか. 1 1 1 a Y1 Y2 Y3 3 3 3 Yi b 4 Y1 Y2 c Y4 Y1 Y4 Y1 d 10 問3. の推定量として Y3 Y2 を利用したとする. Y4 Y1 Y4 Y1 このときの推定値を計算しなさい. 15 の最小2乗推定値の性質 川幅の測定値(m) Yi 業者1 50.3 業者2 48.9 業者3 49.5 業者4 50.6 ひょっとしたら,こんなデータだったかもしれない・・・ 川幅の測定値(m) 川幅の測定値(m) Yi Yi 業者1 48.2 業者1 50.2 業者2 49 9 49.9 業者2 48 3 48.3 業者3 51.5 業者3 50.1 業者4 50.8 業者4 48.8 ˆ 49.825 ˆ 2 50.1 ˆ 3 49.35 データには誤差が含まれているので,そ のデータを利用して計算される推定値に も誤差が含まれている も誤差が含まれている. 推定値は分布をもつ 推定値が分布をもつのは,「推定量」が理論 推定値が分布をもつのは 「推定量」が理論 観測値で構成されているから. 16 * 推定量ˆ の平均と分散 i 1,2,3,4, Yi ui , ui ~ N 0, 2 , EYi , V Yi Eui2 2 最小 2乗法 ˆ 1 E αˆ E n 1 n CovYi , Y j E YiY j 0 Yi 1 1 1 Yi E Y1 Y2 Yn n n n 1 1 1 E Y1 E Y2 E Yn n n n 1 1 1 n n n 1 1 1 1 ˆ V α V Yi V Y1 Y2 Yn n n n n 2 2 2 1 1 1 V Y1 V Y2 V Y1 n n n 1 2 1 2 1 2 2 n n n n 2 2 2 17 別の確率モデル:単純回帰モデル 単純回帰モデル 直線+誤差によってデータが発生したと考える i 1,2,, n Y i X i ui 真の直線 ui ~ N 0, 2 残差2乗和 uˆi2 Yi ˆ ˆ X i uˆ i2 uˆ i2 0, 0 ˆ ˆ E Yi X i V Yi E ui2 2 CovYi , Y j E ui u j 0 2 を ˆ , ˆ について最小化する. ˆ Y ˆ X , の推定量 ˆ X X Y Y X X i i 2 i 18 最小2乗推定値はどのように分布するか(1) 誤差項 u1, … , un のふるまいが Y1, … , Yn の実現値を決定 , Y1, … , Yn が推定値を決定する. 推 値 決 す し, 誤差項の性質が推定値の特徴を決める 【回帰モデルの標準的仮定】 山本: p.48,白砂: p.129 【仮定 1】 説明変数 X i は確率変数ではなく, 固定された値を持つ. 【仮定 2】 n のとき, i 1 X i X n 2 すべての i について に て 2 【仮定 4】 V u i E u i 2 すべての i について 【仮定 5】 Cov u i , u j E u i u j 0 すべての i j について 【仮定 6】 u i ~ N 0, 2 すべての i について 【仮定 3】 E u i 0 誤差項の性質 【重要】回帰モデルは誤差項 ui を「確率変数」であると仮定している. 19 単純回帰モデルの最小2乗推定量の性質1 ˆ X X Y Y X X i i 2 i ˆ の期待値と分散 E ˆ E Xi X Y i Y 2 X X i Xi X Y i Y ˆ V V 2 Xi X 2 2 X X i ˆ の分布 2 X i X 2 20 単純回帰モデルの最小2乗推定量の性質2 偏差の積和の別形 X i X Yi Y X i X Yi X i X Y X i X Yi X i X Y X i X Yi Y X i X X i X Yi ˆ 0 X i X Yi 2 X X i 21 単純回帰モデルの最小2乗推定量の性質3 ˆ X i X Yi 2 X X i 1 X i X 2 X 1 X Y1 X 2 X Y2 X n X Yn Xn X X1 X X2 X Y Y Y 2 1 2 2 2 n X i X X i X X i X ここで wi ここで, X i X 2 X X i ˆ w1Y1 w2Y2 wnYn と定義すると wiYi 推定値の別形(推定値はY1,Y Y2,… にw に 1,w2,…の「重み」が付いた加重和になっている) の「重み」が付いた加重和にな ている) (線形結合式ともよぶ) 22 単純回帰モデルの最小2乗推定量の性質4 重み wi X i X 2 X X i の特徴 [特徴1] X X i w i X X 2 i [特徴2] X X wi X i Xi X 2 X i i [特徴3] wi2 2 X i X 0 X i X 0 X i X 2 X i X 1 2 X i X X i 1 X i X 1 2 X i X 2 2 X X 1 i 2 2 2 X X X i X i 23 数値例 24 単純回帰モデルの最小2乗推定量の性質5 wiYi wi X i ui wi wi X i wi ui wi wi X i wi ui ˆ 特徴1 0 ˆ 特徴 2 1 wi ui 最小2乗推定量は真の値に誤差の加重和を加えた式になる. 推定量は真の値 を中心に大きな値や小さな値をとる確率変数である. 25 単純回帰モデルの最小2乗推定量の性質6 E ˆ E wi ui w1 E u1 w2 E u 2 wn E u n 【仮定 1】 説明変数 X i は確率変数ではなく, 確率変数 , 固定 固定された値を持つ. 値 持 【仮定 3】 E u i 0 すべての i について 標準的【仮定1,3】が満たされているとき,最小2乗推定量の期待値は真の値に等しい. 推定量は確率変数なので,さまざまな実現値(推定値)をもつが,その平均的な値は真 の値になる(不偏性). の値になる(不偏性) 【仮定1,3】だけが必要.【仮定4,5,6】は必要ない.ui が正規分布である必要もない. 26 単純回帰モデルの最小2乗推定量の性質6 V ˆ V w1Y1 w2Y2 wnYn Yn C Yi , Y j E ui u j 0 Cov 2 wi2 w12V Y1 w22V Y2 wn2V w12 2 w22 2 wn2 2 2 w12 w22 wn2 V Yi E ui2 2 [特徴3] 1 Xi X 2 2 X i X 2 27 単純回帰モデルの最小2乗推定量の性質7 最小2乗推定量 ˆ wiYi uiYi ˆ は理論観測値 {Y1,Y2,…,Yn } を利用して作 られた式なので「統計量」であり 回帰直 られた式なので「統計量」であり,回帰直 線のパラメタ推定に利用されるので,推定 量である. 推定量の計算式に理論観測値の実現値を代 入して得られた値が「推定値」である. 28 【次のテーマ】推定量には最小2乗推定量しかないのか? なぜ,最小2乗法が使われるのか? 他に方法がないからか? おそらく,他にも無数にある. 別の推定ではダメな理由は何か? 最小2乗法でなければいけない理由がある. 最小2乗推定量には他にはない「良い」性質がある. 推定量の「良い」「悪い」の基準は何か. 最小2乗推定量 適当に作った推定量 n 4 のケ のケース ス 1. ˆ w1Y1 w2Y2 w3Y3 w4Y4 ~ (2). X3 X1 X2 X4 Y1 Y2 Y3 Y4 Xi Xi Xi Xi (1)が(2)よりも優れている点は何か? 29
© Copyright 2024 ExpyDoc