複数の時系列データの間の関係を探る −spurious correlationとspurious regression 粕谷英一 ランダムウォークから得られた時系列データ 独立 相関を見ると ランダムウォークから得られた時系列データ 平均0の正規分布 時系列その1 xt=xt-1+N(0,σ^2) ランダムウォークから得られた時系列データ 独立 ランダムウォークから得られた時系列データ 時系列その2 yt=yt-1+N(0,σ^2) 平均0の正規分布 相関係数rの検定 n(時系列の長さ)=20 誤って有意な相関と判定する率(5%水準)=0.4703 n=20 type1error(5%)=0.4703 no trend 2000 相関係数を計算して、検定した p値 1000 [データ生成→検定]を繰り返して p値 のヒストグラム 0 Frequency 3000 4000 独立な2つのランダムウォーク 0.0 0.2 0.4 0.6 0.8 p for r pの値(有意確率) 1.0 ランダム・ウォーク xt=xt-1+N(0,σ^2) random walk -4 -2 -5 0 2 4 variable 0 variable 6 5 8 10 random walk 0 20 40 60 80 100 0 time 20 40 60 80 100 time ランダム・ウォーク:似た値が続きやすい 0 -1 -2 ある値が登場する 確率は、 前の値が何でも、 変わらない variable 1 2 3 i.i.d. normal 正規分布 独立なデータ xt=N(0,σ^2) 経済時系列での研究 2つの独立なランダム・ウォーク Granger & Newbold, 1974 Journal of Econometrics, 2: 111-120. Phillips, 1986 Journal of Econometrics, 33: 311-340. ある時点と次の時点の差(差分、階差)を使う ←より広い意味で、 見せかけの相関 spurious correlation 変な相関全般を指すこと もある 見せかけの回帰 spurious regression 目次 ・2つのランダムウォークの相関:再訪 ・使う方法の説明 順位相関ではだめですか ランダムウォークの動きの大きさ(分散)がちがうと 正規分布でないと ランダムウォークと周期的変数だと ・サンプルサイズが大きくなると ・経済時系列でわかっていること ・回帰の場合 時系列 x データ生成 互いに独立 相関を検定 時系列 y 相関係数r とくに言わなければ、ランダム・ウォーク 10000回行う サンプルサイズ(n) 時系列の長さ 5%水準で有意と判定される回数を数える 互いに独立なプロセスで生成されたデータ →有意な相関という判定:誤り 誤って有意と判定してしまう:第1種の誤り(第1種の過誤) p値 (有意確率)のヒストグラム 甘すぎる うまく行っている 妥当でない 有意水準として宣言した通りの第1種の誤りの率 きびしすぎる (鈍感) n=20 type1error(5%)=0.4703 no trend histgram of p value for r 2000 1500 1000 500 200 Frequency 300 Frequency 2000 0 100 1000 0 0 Frequency 3000 400 500 4000 検定の資格がない resource output type error for r=0 0.0 0.2 0.4 0.6 p for r 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 p (difference) p値 (有意確率) 2つの無相関な正規分布からの独立なデータ →相関係数の検定 0.2 0.4 0.6 p for r 0.8 1.0 独立な2つのランダムウォーク 相関係数rの検定 n(時系列の長さ)=20 誤って有意な相関と判定する率(5%水準)=0.4703 1000 2000 [データ生成→検定]を10000回繰り返して p値 のヒストグラム 甘すぎる 妥当でない 0 Frequency 3000 4000 n=20 type1error(5%)=0.4703 no trend 0.0 0.2 0.4 0.6 0.8 p for r pの値(有意確率) 1.0 相関係数のヒストグラム 正規分布からの 独立なデータ ランダム・ウォーク histgram of correlation coefficient r 500 1000 Frequency 300 200 0 100 0 Frequency 400 500 1500 600 histgram of correlation coefficient r -1.0 -1.0 -0.5 0.0 r 0.5 1.0 +1.0 -0.4 -0.4 相関係数 r -0.2 0.0 r (difference) 0.2 0.4 +0.4 順位相関係数でもほとんど変わらない n(時系列の長さ)=20 4000 n=20 type1error(5%)=0.4173 no trend 相関係数r 1000 2000 3000 4000 n=20 type1error(5%)=0.4703 no trend Frequency 1000 2000 誤って有意な相関と 判定する率(5%水準) =0.4173 0 0 Frequency 3000 順位相関係数τ 0.0 0.2 0.4 0.6 0.8 1.0 0.0 p for tau p値 (有意確率) 0.2 0.4 0.6 p for r 0.8 1.0 分散が異なっても、起こる ランダムウォークの正規分布の分散 yは、xの25倍 4000 2000 0 Frequency 6000 sd=1and5 n=100 type1error=0.7610 0.0 0.2 0.4 0.6 0.8 p value for r p値 (有意確率) 1.0 正規分布でなくとも、起こる:一様分布の場合 n(時系列の長さ)=100 両方(x,y)とも一様分布 正規分布と一様分布 type1error=0.7695 unif vs normal 6000 2000 4000 Frequency 4000 2000 0 0 Frequency 6000 8000 type1error=0.7593 unif vs unif 0.0 0.2 0.4 0.6 0.8 1.0 0.0 p value for r pの値(有意確率) 0.2 0.4 0.6 p value for r 0.8 1.0 片方がランダム・ウォーク 片方が正規分布からの独立なデータ n(時系列の長さ)=100 300 200 100 0 Frequency 400 500 type1error=0.0497 RW vs iid 0.0 0.2 0.4 0.6 0.8 1.0 p value for r pの値(有意確率) このときは、問題なし 片方が周期的変数、もう片方がランダムウォーク ここではサインカーブを使った sine curve 4cycles sine curve 2cycles sine curve 1 cycle 20 40 60 80 100 1.0 -0.5 -1.0 -1.0 0 0.0 variable 0.5 0.5 -0.5 0.0 variable 0.5 0.0 -0.5 -1.0 variable 1周期 1.0 2周期 1.0 4周期 0 20 40 60 80 100 0 20 40 60 time time time 80 100 sine curve 2cycles 1.0 1.0 60 80 100 -0.5 -1.0 0 20 40 time 4周期 0 20 80 100 type1error=0.8541 RW vs sine1cycles 8000 0.6461 第1種の誤りの率 (5%水準) 0.8541 2000 1000 500 0 0 0 60 1周期 6000 5000 0.2764 40 time 第1種の誤りの率 (5%水準) 3000 Frequency 2000 2500 100 type1error=0.6461 RW vs sine2cycles 第1種の誤りの率 (5%水準) 1500 80 2周期 type1error=0.2764 RW vs sine4cycles Frequency 60 time 4000 40 Frequency 20 0.0 variable 0.5 0.5 0.0 variable -1.0 0 1000 sine curve 1 cycle -0.5 0.0 -1.0 -0.5 variable 0.5 1.0 sine curve 4cycles 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 p value for r 0.8 1.0 0.0 p value for r p値 (有意確率) 0.2 0.4 0.6 p value for r 0.8 1.0 片方がサインカーブの1/4周期分 もう片方がランダムウォーク type1error=0.8693 RW vs sine1/4cycle sine curve quarter cycle 0.8 8000 1.0 1/4周期 4000 0.8693 0.0 0 0.2 2000 0.4 variable Frequency 0.6 6000 第1種の誤りの率 (5%水準) 0 20 40 60 time 80 100 0.0 0.2 0.4 0.6 0.8 p value for r p値 (有意確率) 1.0 ランダム・ウォーク xt=xt-1+N(0,σ^2) random walk -4 -2 -5 0 2 4 variable 0 variable 6 5 8 10 random walk 0 20 40 60 80 100 0 time 20 40 60 80 100 time ランダム・ウォーク:似た値が続きやすい 0 -1 -2 ある値が登場する 確率は、 前の値が何でも、 変わらない variable 1 2 3 i.i.d. normal 正規分布 独立なデータ xt=N(0,σ^2) 似た値が続きやすい サンプルサイズの影響 時系列の長さ n=20 n=10000 n=20 type1error(5%)=0.4703 no trend 6000 Frequency 0.9755 2000 1000 2000 0.4703 第1種の誤りの率 (5%水準) 4000 3000 第1種の誤りの率 (5%水準) 0 0 Frequency 8000 4000 10000 n=10000 type1error(5%)=0.9755 no trend 0.0 0.2 0.4 0.6 p for r 0.8 1.0 0.0 0.2 0.4 0.6 p for r p値 (有意確率) 0.8 1.0 1.0 0.8 0.6 0.8 0.2 type1 error rate (5%) 0.05 0.0 5%水準で検 定した時の 第1種の誤り の率 0.4 1.0 0 2000 4000 6000 8000 10000 sample size (n) サンプルサイズ(n) 時系列の長さ n=10000 6000 第1種の誤りの率 (5%水準) 2000 4000 0.9755 0 Frequency 8000 10000 n=10000 type1error(5%)=0.9755 no trend 0.0 0.2 0.4 0.6 0.8 1.0 p for r p値 (有意確率) n=10000 0.9755 n=10000 0.6 0.4 0.0 0.2 type1 error rate 第1種の 誤りの率 0.8 1.0 0.9602 0.9515 0.9688 0.00 0.01 0.1% 1% 0.01% 0.02 0.03 0.04 level of significance 有意水準 0.05 5% サンプル・サイズが大きいと、 (時系列の長さ) さらに悪化する 経済時系列での研究 見せかけの相関 spurious correlation 見せかけの回帰 spurious regression Granger & Newbold, 1974 Journal of Econometrics, 2: 111-120. Phillips, 1986 単位根過程 Journal of Econometrics, 33: 311-340. 経済時系列 定常過程 期待値が一定 時間間隔が同じなら、 自己相関係数の期待値が どこでも一定 非定常過程 xt=θx xt-1+N(0,σ^2) 定常過程 θx の絶対値<1 非定常過程 θx =1 単位根過程 ランダムウォーク 経済時系列 経済時系列 定常過程 例 感じがちがう 非定常過程 単位根過程 θx =0.00 coef=0.95 θx =0.95 θx =0.98 coef=0.98 2 2 2 4 3 i.i.d. normal -2 -6 -2 -4 -4 -1 -2 variable variable 0 variable 0 0 1 定 常 0 20 40 60 80 0 100 20 40 60 80 100 0 40 time time θx =1.00 coef=1.01 80 100 θx =1.01 coef=1.02 θx =1.02 15 -15 variable 10 -4 0 -30 -2 -25 0 5 -20 2 variable 4 6 -10 8 非 定 常 -5 10 0 ランダムウォーク random walk 60 time 時間 正規分布からの 独立なデータ variable 20 0 20 40 60 time 80 100 0 20 40 60 time 時間 80 100 0 20 40 60 time 80 100 経済時系列 2つの単位根過程 たとえば、ランダム・ウォーク 見せかけの相関 spurious correlation 強い相関が出やすい 定常過程 Granger et al (2001) Applied Economics, 33: 899-904. xt=θx xt-1+N(0,σ^2) 定常過程 θx =1 θx の絶対値<1 ランダムウォーク θx=0.98 θx=0.95 type1error=0.674 theta=0.98 6000 7000 type1error=0.6028 theta=0.95 5000 4000 3000 1000 2000 Frequency 1000 3000 誤って有意な相関と 判定する率(5%水準) =0.6028 0.4 0.6 0.8 1.0 0.0 p value for r 0.2 0.4 0.6 0.8 1.0 p value for r θx=0.90 4000 5000 type1error=0.5029 theta=0.90 1000 2000 3000 誤って有意な相関と 判定する率(5%水準) =0.5029 0 0.2 Frequency 0.0 0 0 Frequency 5000 誤って有意な相関と 判定する率(5%水準) =0.6740 0.0 0.2 0.4 0.6 p value for r 0.8 1.0 n=100 回帰 回帰式 yt=α+β xt 回帰モデルとしては yt=α+β xt+εt εtは平均0で分散一定の正規分布にしたがう 時系列データを回帰する(してしまう)とどうなる 回帰 回帰式 yt=α+β xt 回帰モデルとしては yt=α+β xt+εt εtは平均0で分散一定の正規分布にしたがう 正規分布からの独立なデータ(回帰分析が仮定している条件) パラメーターα、βのばらつきは、 サンプルサイズが大きいと、小さくなる 傾きのヒストグラム n=1000 n=100 Distribution of b n=100 RW 200 400 Frequency 400 300 200 100 0 0 0 2 4 -4 傾き b -2 0 b 400 600 n=2000 Distribution of b n=2000 RW 200 -2 0 -4 Frequency Frequency 500 600 600 700 Distribution of b n=1000 RW -4 -2 0 2 b 傾き 4 2 傾き 4 切片 n=1000 n=100 Distribution of a n=1000 RW 200 100 150 Frequency 600 400 0 50 200 0 -20 0 -20 20 40 +20 a -50 0 50 -50 a +50 Distribution of a n=2000 RW 50 100 150 200 n=2000 -100 +100 0 -40 Frequency Frequency 800 250 300 1000 Distribution of a n=100 RW -150 -100 -50 0 50 100 150 0.5 0.4 0.3 0.2 0.0 0.1 var(b) 傾きの分散 500 1000 1500 2000 2000 200 100 0 var(a) 切片の分散 300 400 500 sample size (n) 500 1000 1500 sample size (n) サンプル・サイズ 2000 2000 時系列の長さ 2つのランダムウォーク(互いに独立) 回帰すると、変な結果 見せかけの回帰 spurious regression 検定:第1種の誤りが過大 サンプル・サイズが大きくなるとさらに悪化 係数の推定値 傾き:サンプル・サイズが増えても、ばらつきが減らない 切片:サンプル・サイズが増えると、ばらつきが増える まとめ 時系列 今回は ランダムウォークごとき 似たデータが続けて出やすい 時系列データをそのまま使うと、 そこは、相関も回帰も、常識的な働きをしない 魔界 付.こんな場合には x ランダム・ウォーク y 独立な正規乱数 各時点の資源量+新たに得た量 閾値を超えたら、放出して次時点の資源量はゼロになる 閾値以下なら、放出せず、 次時点の資源量は各時点の資源量+新たに得た量 y 放出された量 x ランダム・ウォーク 各時点で、新たに資源を受け取る 独立な正規乱数 手持ちの資源量が閾値を超えたら、全部、放出する 放出すると次時点の資源量はゼロになる 手持ちの資源量が閾値以下なら、放出せず、 次時点の資源量は各時点の資源量+新たに得た量 y 放出された量 例 15 10 0 5 output (resource) 10 5 0 y output (resource) 放 出 量 resource output time series 15 resource output time series 0 20 40 60 time 時間 80 100 0 20 40 60 80 100 time 時間 左右のグラフとも、同一の例(グラフの描き方がちがうだけ) xとyの間の相関係数を 検定した、pの値の分布 xとyの間の相関係数の分布 resource output type error for r=0 1000 0 500 500 1000 Frequency 非常に鈍感 0 Frequency 1500 1500 2000 resource output correlation 0.0 0 0.2 0.4 0.6 0.8 p for r pの値(有意確率) 1.0 -1.0 1 -1.0 -0.5 0.0 r r 0.5 1.0 +1.0
© Copyright 2024 ExpyDoc