+1.0

複数の時系列データの間の関係を探る
−spurious correlationとspurious regression
粕谷英一
ランダムウォークから得られた時系列データ
独立
相関を見ると
ランダムウォークから得られた時系列データ
平均0の正規分布
時系列その1
xt=xt-1+N(0,σ^2)
ランダムウォークから得られた時系列データ
独立
ランダムウォークから得られた時系列データ
時系列その2
yt=yt-1+N(0,σ^2)
平均0の正規分布
相関係数rの検定
n(時系列の長さ)=20
誤って有意な相関と判定する率(5%水準)=0.4703
n=20 type1error(5%)=0.4703 no trend
2000
相関係数を計算して、検定した p値
1000
[データ生成→検定]を繰り返して
p値 のヒストグラム
0
Frequency
3000
4000
独立な2つのランダムウォーク
0.0
0.2
0.4
0.6
0.8
p for r
pの値(有意確率)
1.0
ランダム・ウォーク
xt=xt-1+N(0,σ^2)
random walk
-4
-2
-5
0
2
4
variable
0
variable
6
5
8
10
random walk
0
20
40
60
80
100
0
time
20
40
60
80
100
time
ランダム・ウォーク:似た値が続きやすい
0
-1
-2
ある値が登場する
確率は、
前の値が何でも、
変わらない
variable
1
2
3
i.i.d. normal
正規分布 独立なデータ
xt=N(0,σ^2)
経済時系列での研究
2つの独立なランダム・ウォーク
Granger & Newbold, 1974
Journal of Econometrics, 2: 111-120.
Phillips, 1986
Journal of Econometrics, 33: 311-340.
ある時点と次の時点の差(差分、階差)を使う
←より広い意味で、
見せかけの相関
spurious correlation 変な相関全般を指すこと
もある
見せかけの回帰
spurious regression
目次
・2つのランダムウォークの相関:再訪
・使う方法の説明
順位相関ではだめですか
ランダムウォークの動きの大きさ(分散)がちがうと
正規分布でないと
ランダムウォークと周期的変数だと
・サンプルサイズが大きくなると
・経済時系列でわかっていること
・回帰の場合
時系列 x
データ生成
互いに独立
相関を検定
時系列 y
相関係数r
とくに言わなければ、ランダム・ウォーク
10000回行う
サンプルサイズ(n) 時系列の長さ
5%水準で有意と判定される回数を数える
互いに独立なプロセスで生成されたデータ
→有意な相関という判定:誤り
誤って有意と判定してしまう:第1種の誤り(第1種の過誤)
p値 (有意確率)のヒストグラム
甘すぎる
うまく行っている
妥当でない
有意水準として宣言した通りの第1種の誤りの率
きびしすぎる
(鈍感)
n=20 type1error(5%)=0.4703 no trend
histgram of p value for r
2000
1500
1000
500
200
Frequency
300
Frequency
2000
0
100
1000
0
0
Frequency
3000
400
500
4000
検定の資格がない
resource output type error for r=0
0.0
0.2
0.4
0.6
p for r
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
p (difference)
p値 (有意確率)
2つの無相関な正規分布からの独立なデータ
→相関係数の検定
0.2
0.4
0.6
p for r
0.8
1.0
独立な2つのランダムウォーク
相関係数rの検定
n(時系列の長さ)=20
誤って有意な相関と判定する率(5%水準)=0.4703
1000
2000
[データ生成→検定]を10000回繰り返して
p値 のヒストグラム
甘すぎる
妥当でない
0
Frequency
3000
4000
n=20 type1error(5%)=0.4703 no trend
0.0
0.2
0.4
0.6
0.8
p for r
pの値(有意確率)
1.0
相関係数のヒストグラム
正規分布からの
独立なデータ
ランダム・ウォーク
histgram of correlation coefficient r
500
1000
Frequency
300
200
0
100
0
Frequency
400
500
1500
600
histgram of correlation coefficient r
-1.0
-1.0
-0.5
0.0
r
0.5
1.0
+1.0
-0.4
-0.4
相関係数 r
-0.2
0.0
r (difference)
0.2
0.4
+0.4
順位相関係数でもほとんど変わらない
n(時系列の長さ)=20
4000
n=20 type1error(5%)=0.4173 no trend
相関係数r
1000
2000
3000
4000
n=20 type1error(5%)=0.4703 no trend
Frequency
1000
2000
誤って有意な相関と
判定する率(5%水準)
=0.4173
0
0
Frequency
3000
順位相関係数τ
0.0
0.2
0.4
0.6
0.8
1.0
0.0
p for tau
p値 (有意確率)
0.2
0.4
0.6
p for r
0.8
1.0
分散が異なっても、起こる
ランダムウォークの正規分布の分散
yは、xの25倍
4000
2000
0
Frequency
6000
sd=1and5 n=100 type1error=0.7610
0.0
0.2
0.4
0.6
0.8
p value for r
p値 (有意確率)
1.0
正規分布でなくとも、起こる:一様分布の場合
n(時系列の長さ)=100
両方(x,y)とも一様分布
正規分布と一様分布
type1error=0.7695 unif vs normal
6000
2000
4000
Frequency
4000
2000
0
0
Frequency
6000
8000
type1error=0.7593 unif vs unif
0.0
0.2
0.4
0.6
0.8
1.0
0.0
p value for r
pの値(有意確率)
0.2
0.4
0.6
p value for r
0.8
1.0
片方がランダム・ウォーク
片方が正規分布からの独立なデータ
n(時系列の長さ)=100
300
200
100
0
Frequency
400
500
type1error=0.0497 RW vs iid
0.0
0.2
0.4
0.6
0.8
1.0
p value for r
pの値(有意確率)
このときは、問題なし
片方が周期的変数、もう片方がランダムウォーク
ここではサインカーブを使った
sine curve 4cycles
sine curve 2cycles
sine curve 1 cycle
20
40
60
80
100
1.0
-0.5
-1.0
-1.0
0
0.0
variable
0.5
0.5
-0.5
0.0
variable
0.5
0.0
-0.5
-1.0
variable
1周期
1.0
2周期
1.0
4周期
0
20
40
60
80
100
0
20
40
60
time
time
time
80
100
sine curve 2cycles
1.0
1.0
60
80
100
-0.5
-1.0
0
20
40
time
4周期
0
20
80
100
type1error=0.8541 RW vs sine1cycles
8000
0.6461
第1種の誤りの率
(5%水準)
0.8541
2000
1000
500
0
0
0
60
1周期
6000
5000
0.2764
40
time
第1種の誤りの率
(5%水準)
3000
Frequency
2000
2500
100
type1error=0.6461 RW vs sine2cycles
第1種の誤りの率
(5%水準)
1500
80
2周期
type1error=0.2764 RW vs sine4cycles
Frequency
60
time
4000
40
Frequency
20
0.0
variable
0.5
0.5
0.0
variable
-1.0
0
1000
sine curve 1 cycle
-0.5
0.0
-1.0
-0.5
variable
0.5
1.0
sine curve 4cycles
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
p value for r
0.8
1.0
0.0
p value for r
p値 (有意確率)
0.2
0.4
0.6
p value for r
0.8
1.0
片方がサインカーブの1/4周期分
もう片方がランダムウォーク
type1error=0.8693 RW vs sine1/4cycle
sine curve quarter cycle
0.8
8000
1.0
1/4周期
4000
0.8693
0.0
0
0.2
2000
0.4
variable
Frequency
0.6
6000
第1種の誤りの率
(5%水準)
0
20
40
60
time
80
100
0.0
0.2
0.4
0.6
0.8
p value for r
p値 (有意確率)
1.0
ランダム・ウォーク
xt=xt-1+N(0,σ^2)
random walk
-4
-2
-5
0
2
4
variable
0
variable
6
5
8
10
random walk
0
20
40
60
80
100
0
time
20
40
60
80
100
time
ランダム・ウォーク:似た値が続きやすい
0
-1
-2
ある値が登場する
確率は、
前の値が何でも、
変わらない
variable
1
2
3
i.i.d. normal
正規分布 独立なデータ
xt=N(0,σ^2)
似た値が続きやすい
サンプルサイズの影響
時系列の長さ
n=20
n=10000
n=20 type1error(5%)=0.4703 no trend
6000
Frequency
0.9755
2000
1000
2000
0.4703
第1種の誤りの率
(5%水準)
4000
3000
第1種の誤りの率
(5%水準)
0
0
Frequency
8000
4000
10000
n=10000 type1error(5%)=0.9755 no trend
0.0
0.2
0.4
0.6
p for r
0.8
1.0
0.0
0.2
0.4
0.6
p for r
p値 (有意確率)
0.8
1.0
1.0
0.8
0.6
0.8
0.2
type1 error rate (5%)
0.05
0.0
5%水準で検
定した時の
第1種の誤り
の率
0.4
1.0
0
2000
4000
6000
8000
10000
sample size (n)
サンプルサイズ(n)
時系列の長さ
n=10000
6000
第1種の誤りの率
(5%水準)
2000
4000
0.9755
0
Frequency
8000
10000
n=10000 type1error(5%)=0.9755 no trend
0.0
0.2
0.4
0.6
0.8
1.0
p for r
p値 (有意確率)
n=10000
0.9755
n=10000
0.6
0.4
0.0
0.2
type1 error rate
第1種の
誤りの率
0.8
1.0
0.9602
0.9515
0.9688
0.00
0.01
0.1% 1%
0.01%
0.02
0.03
0.04
level of significance
有意水準
0.05
5%
サンプル・サイズが大きいと、
(時系列の長さ)
さらに悪化する
経済時系列での研究
見せかけの相関
spurious correlation
見せかけの回帰
spurious regression
Granger & Newbold, 1974
Journal of Econometrics, 2: 111-120.
Phillips, 1986
単位根過程
Journal of Econometrics, 33: 311-340.
経済時系列
定常過程
期待値が一定
時間間隔が同じなら、
自己相関係数の期待値が
どこでも一定
非定常過程
xt=θx xt-1+N(0,σ^2)
定常過程
θx の絶対値<1
非定常過程
θx =1
単位根過程
ランダムウォーク
経済時系列
経済時系列
定常過程
例
感じがちがう
非定常過程
単位根過程
θx =0.00
coef=0.95
θx =0.95
θx =0.98
coef=0.98
2
2
2
4
3
i.i.d. normal
-2
-6
-2
-4
-4
-1
-2
variable
variable
0
variable
0
0
1
定
常
0
20
40
60
80
0
100
20
40
60
80
100
0
40
time
time
θx =1.00
coef=1.01
80
100
θx =1.01
coef=1.02
θx =1.02
15
-15
variable
10
-4
0
-30
-2
-25
0
5
-20
2
variable
4
6
-10
8
非
定
常
-5
10
0
ランダムウォーク
random walk
60
time
時間
正規分布からの
独立なデータ
variable
20
0
20
40
60
time
80
100
0
20
40
60
time
時間
80
100
0
20
40
60
time
80
100
経済時系列
2つの単位根過程
たとえば、ランダム・ウォーク
見せかけの相関
spurious correlation
強い相関が出やすい
定常過程
Granger et al (2001) Applied Economics, 33: 899-904.
xt=θx xt-1+N(0,σ^2)
定常過程
θx =1
θx の絶対値<1
ランダムウォーク
θx=0.98
θx=0.95
type1error=0.674 theta=0.98
6000
7000
type1error=0.6028 theta=0.95
5000
4000
3000
1000
2000
Frequency
1000
3000
誤って有意な相関と
判定する率(5%水準)
=0.6028
0.4
0.6
0.8
1.0
0.0
p value for r
0.2
0.4
0.6
0.8
1.0
p value for r
θx=0.90
4000
5000
type1error=0.5029 theta=0.90
1000
2000
3000
誤って有意な相関と
判定する率(5%水準)
=0.5029
0
0.2
Frequency
0.0
0
0
Frequency
5000
誤って有意な相関と
判定する率(5%水準)
=0.6740
0.0
0.2
0.4
0.6
p value for r
0.8
1.0
n=100
回帰
回帰式
yt=α+β xt
回帰モデルとしては
yt=α+β xt+εt
εtは平均0で分散一定の正規分布にしたがう
時系列データを回帰する(してしまう)とどうなる
回帰
回帰式
yt=α+β xt
回帰モデルとしては
yt=α+β xt+εt
εtは平均0で分散一定の正規分布にしたがう
正規分布からの独立なデータ(回帰分析が仮定している条件)
パラメーターα、βのばらつきは、
サンプルサイズが大きいと、小さくなる
傾きのヒストグラム
n=1000
n=100
Distribution of b n=100 RW
200
400
Frequency
400
300
200
100
0
0
0
2
4
-4
傾き
b
-2
0
b
400
600
n=2000
Distribution of b n=2000 RW
200
-2
0
-4
Frequency
Frequency
500
600
600
700
Distribution of b n=1000 RW
-4
-2
0
2
b
傾き
4
2
傾き
4
切片
n=1000
n=100
Distribution of a n=1000 RW
200
100
150
Frequency
600
400
0
50
200
0
-20
0
-20
20
40
+20
a
-50
0
50
-50
a
+50
Distribution of a n=2000 RW
50
100
150
200
n=2000
-100
+100
0
-40
Frequency
Frequency
800
250
300
1000
Distribution of a n=100 RW
-150
-100
-50
0
50
100
150
0.5
0.4
0.3
0.2
0.0
0.1
var(b)
傾きの分散
500
1000
1500
2000
2000
200
100
0
var(a)
切片の分散
300
400
500
sample size (n)
500
1000
1500
sample size (n)
サンプル・サイズ
2000
2000
時系列の長さ
2つのランダムウォーク(互いに独立)
回帰すると、変な結果
見せかけの回帰
spurious regression
検定:第1種の誤りが過大
サンプル・サイズが大きくなるとさらに悪化
係数の推定値
傾き:サンプル・サイズが増えても、ばらつきが減らない
切片:サンプル・サイズが増えると、ばらつきが増える
まとめ
時系列
今回は ランダムウォークごとき
似たデータが続けて出やすい
時系列データをそのまま使うと、
そこは、相関も回帰も、常識的な働きをしない
魔界
付.こんな場合には
x ランダム・ウォーク
y 独立な正規乱数
各時点の資源量+新たに得た量
閾値を超えたら、放出して次時点の資源量はゼロになる
閾値以下なら、放出せず、
次時点の資源量は各時点の資源量+新たに得た量
y 放出された量
x ランダム・ウォーク
各時点で、新たに資源を受け取る
独立な正規乱数
手持ちの資源量が閾値を超えたら、全部、放出する
放出すると次時点の資源量はゼロになる
手持ちの資源量が閾値以下なら、放出せず、
次時点の資源量は各時点の資源量+新たに得た量
y 放出された量
例
15
10
0
5
output (resource)
10
5
0
y
output (resource)
放
出
量
resource output time series
15
resource output time series
0
20
40
60
time
時間
80
100
0
20
40
60
80
100
time
時間
左右のグラフとも、同一の例(グラフの描き方がちがうだけ)
xとyの間の相関係数を
検定した、pの値の分布
xとyの間の相関係数の分布
resource output type error for r=0
1000
0
500
500
1000
Frequency
非常に鈍感
0
Frequency
1500
1500
2000
resource output correlation
0.0
0
0.2
0.4
0.6
0.8
p for r
pの値(有意確率)
1.0
-1.0
1
-1.0
-0.5
0.0
r
r
0.5
1.0
+1.0