+1.0

複数の時系列データの間の関係を探る
−spurious correlationとspurious regression
粕谷英一
ランダムウォークから得られた時系列データ
独立
相関を見ると
ランダムウォークから得られた時系列データ
平均0の正規分布
時系列その１
xt=xt-1+N(0,σ^2)
ランダムウォークから得られた時系列データ
独立
ランダムウォークから得られた時系列データ
時系列その２
yt=yt-1+N(0,σ^2)
平均0の正規分布
相関係数ｒの検定
n（時系列の長さ）=20
誤って有意な相関と判定する率（5%水準）=0.4703
n=20 type1error(5%)=0.4703 no trend
2000
相関係数を計算して、検定した p値
1000
［データ生成→検定］を繰り返して
p値のヒストグラム
0
Frequency
3000
4000
独立な２つのランダムウォーク
0.0
0.2
0.4
0.6
0.8
p for r
pの値（有意確率）
1.0
ランダム・ウォーク
xt=xt-1+N(0,σ^2)
random walk
-4
-2
-5
0
2
4
variable
0
variable
6
5
8
10
random walk
0
20
40
60
80
100
0
time
20
40
60
80
100
time
ランダム・ウォーク：似た値が続きやすい
0
-1
-2
ある値が登場する
確率は、
前の値が何でも、
変わらない
variable
1
2
3
i.i.d. normal
正規分布独立なデータ
xt=N(0,σ^2)
経済時系列での研究
２つの独立なランダム・ウォーク
Granger & Newbold, 1974
Journal of Econometrics, 2: 111-120.
Phillips, 1986
Journal of Econometrics, 33: 311-340.
ある時点と次の時点の差（差分、階差）を使う
←より広い意味で、
見せかけの相関
spurious correlation 変な相関全般を指すこと
もある
見せかけの回帰
spurious regression
目次
・２つのランダムウォークの相関：再訪
・使う方法の説明
順位相関ではだめですか
ランダムウォークの動きの大きさ（分散）がちがうと
正規分布でないと
ランダムウォークと周期的変数だと
・サンプルサイズが大きくなると
・経済時系列でわかっていること
・回帰の場合
時系列 x
データ生成
互いに独立
相関を検定
時系列 y
相関係数r
とくに言わなければ、ランダム・ウォーク
10000回行う
サンプルサイズ（n）時系列の長さ
5%水準で有意と判定される回数を数える
互いに独立なプロセスで生成されたデータ
→有意な相関という判定：誤り
誤って有意と判定してしまう：第１種の誤り（第１種の過誤）
p値（有意確率）のヒストグラム
甘すぎる
うまく行っている
妥当でない
有意水準として宣言した通りの第１種の誤りの率
きびしすぎる
（鈍感）
n=20 type1error(5%)=0.4703 no trend
histgram of p value for r
2000
1500
1000
500
200
Frequency
300
Frequency
2000
0
100
1000
0
0
Frequency
3000
400
500
4000
検定の資格がない
resource output type error for r=0
0.0
0.2
0.4
0.6
p for r
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
p (difference)
p値（有意確率）
２つの無相関な正規分布からの独立なデータ
→相関係数の検定
0.2
0.4
0.6
p for r
0.8
1.0
独立な２つのランダムウォーク
相関係数ｒの検定
n（時系列の長さ）=20
誤って有意な相関と判定する率（5%水準）=0.4703
1000
2000
［データ生成→検定］を10000回繰り返して
p値のヒストグラム
甘すぎる
妥当でない
0
Frequency
3000
4000
n=20 type1error(5%)=0.4703 no trend
0.0
0.2
0.4
0.6
0.8
p for r
pの値（有意確率）
1.0
相関係数のヒストグラム
正規分布からの
独立なデータ
ランダム・ウォーク
histgram of correlation coefficient r
500
1000
Frequency
300
200
0
100
0
Frequency
400
500
1500
600
histgram of correlation coefficient r
-1.0
-1.0
-0.5
0.0
r
0.5
1.0
+1.0
-0.4
-0.4
相関係数 r
-0.2
0.0
r (difference)
0.2
0.4
+0.4
順位相関係数でもほとんど変わらない
n（時系列の長さ）=20
4000
n=20 type1error(5%)=0.4173 no trend
相関係数r
1000
2000
3000
4000
n=20 type1error(5%)=0.4703 no trend
Frequency
1000
2000
誤って有意な相関と
判定する率（5%水準）
=0.4173
0
0
Frequency
3000
順位相関係数τ
0.0
0.2
0.4
0.6
0.8
1.0
0.0
p for tau
p値（有意確率）
0.2
0.4
0.6
p for r
0.8
1.0
分散が異なっても、起こる
ランダムウォークの正規分布の分散
yは、xの25倍
4000
2000
0
Frequency
6000
sd=1and5 n=100 type1error=0.7610
0.0
0.2
0.4
0.6
0.8
p value for r
p値（有意確率）
1.0
正規分布でなくとも、起こる：一様分布の場合
n（時系列の長さ）=100
両方（x,y）とも一様分布
正規分布と一様分布
type1error=0.7695 unif vs normal
6000
2000
4000
Frequency
4000
2000
0
0
Frequency
6000
8000
type1error=0.7593 unif vs unif
0.0
0.2
0.4
0.6
0.8
1.0
0.0
p value for r
pの値（有意確率）
0.2
0.4
0.6
p value for r
0.8
1.0
片方がランダム・ウォーク
片方が正規分布からの独立なデータ
n（時系列の長さ）=100
300
200
100
0
Frequency
400
500
type1error=0.0497 RW vs iid
0.0
0.2
0.4
0.6
0.8
1.0
p value for r
pの値（有意確率）
このときは、問題なし
片方が周期的変数、もう片方がランダムウォーク
ここではサインカーブを使った
sine curve 4cycles
sine curve 2cycles
sine curve 1 cycle
20
40
60
80
100
1.0
-0.5
-1.0
-1.0
0
0.0
variable
0.5
0.5
-0.5
0.0
variable
0.5
0.0
-0.5
-1.0
variable
1周期
1.0
2周期
1.0
4周期
0
20
40
60
80
100
0
20
40
60
time
time
time
80
100
sine curve 2cycles
1.0
1.0
60
80
100
-0.5
-1.0
0
20
40
time
4周期
0
20
80
100
type1error=0.8541 RW vs sine1cycles
8000
0.6461
第１種の誤りの率
（５％水準）
0.8541
2000
1000
500
0
0
0
60
1周期
6000
5000
0.2764
40
time
第１種の誤りの率
（５％水準）
3000
Frequency
2000
2500
100
type1error=0.6461 RW vs sine2cycles
第１種の誤りの率
（５％水準）
1500
80
2周期
type1error=0.2764 RW vs sine4cycles
Frequency
60
time
4000
40
Frequency
20
0.0
variable
0.5
0.5
0.0
variable
-1.0
0
1000
sine curve 1 cycle
-0.5
0.0
-1.0
-0.5
variable
0.5
1.0
sine curve 4cycles
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
p value for r
0.8
1.0
0.0
p value for r
p値（有意確率）
0.2
0.4
0.6
p value for r
0.8
1.0
片方がサインカーブの1/4周期分
もう片方がランダムウォーク
type1error=0.8693 RW vs sine1/4cycle
sine curve quarter cycle
0.8
8000
1.0
1/4周期
4000
0.8693
0.0
0
0.2
2000
0.4
variable
Frequency
0.6
6000
第１種の誤りの率
（５％水準）
0
20
40
60
time
80
100
0.0
0.2
0.4
0.6
0.8
p value for r
p値（有意確率）
1.0
ランダム・ウォーク
xt=xt-1+N(0,σ^2)
random walk
-4
-2
-5
0
2
4
variable
0
variable
6
5
8
10
random walk
0
20
40
60
80
100
0
time
20
40
60
80
100
time
ランダム・ウォーク：似た値が続きやすい
0
-1
-2
ある値が登場する
確率は、
前の値が何でも、
変わらない
variable
1
2
3
i.i.d. normal
正規分布独立なデータ
xt=N(0,σ^2)
似た値が続きやすい
サンプルサイズの影響
時系列の長さ
n=20
n=10000
n=20 type1error(5%)=0.4703 no trend
6000
Frequency
0.9755
2000
1000
2000
0.4703
第１種の誤りの率
（５％水準）
4000
3000
第１種の誤りの率
（５％水準）
0
0
Frequency
8000
4000
10000
n=10000 type1error(5%)=0.9755 no trend
0.0
0.2
0.4
0.6
p for r
0.8
1.0
0.0
0.2
0.4
0.6
p for r
p値（有意確率）
0.8
1.0
1.0
0.8
0.6
0.8
0.2
type1 error rate (5%)
0.05
0.0
5%水準で検
定した時の
第1種の誤り
の率
0.4
1.0
0
2000
4000
6000
8000
10000
sample size (n)
サンプルサイズ(n)
時系列の長さ
n=10000
6000
第１種の誤りの率
（５％水準）
2000
4000
0.9755
0
Frequency
8000
10000
n=10000 type1error(5%)=0.9755 no trend
0.0
0.2
0.4
0.6
0.8
1.0
p for r
p値（有意確率）
n=10000
0.9755
n=10000
0.6
0.4
0.0
0.2
type1 error rate
第1種の
誤りの率
0.8
1.0
0.9602
0.9515
0.9688
0.00
0.01
0.1% 1%
0.01%
0.02
0.03
0.04
level of significance
有意水準
0.05
5%
サンプル・サイズが大きいと、
（時系列の長さ）
さらに悪化する
経済時系列での研究
見せかけの相関
spurious correlation
見せかけの回帰
spurious regression
Granger & Newbold, 1974
Journal of Econometrics, 2: 111-120.
Phillips, 1986
単位根過程
Journal of Econometrics, 33: 311-340.
経済時系列
定常過程
期待値が一定
時間間隔が同じなら、
自己相関係数の期待値が
どこでも一定
非定常過程
xt=θx xt-1+N(0,σ^2)
定常過程
θx の絶対値＜1
非定常過程
θx ＝1
単位根過程
ランダムウォーク
経済時系列
経済時系列
定常過程
例
感じがちがう
非定常過程
単位根過程
θx ＝0.00
coef=0.95
θx ＝0.95
θx ＝0.98
coef=0.98
2
2
2
4
3
i.i.d. normal
-2
-6
-2
-4
-4
-1
-2
variable
variable
0
variable
0
0
1
定
常
0
20
40
60
80
0
100
20
40
60
80
100
0
40
time
time
θx ＝1.00
coef=1.01
80
100
θx ＝1.01
coef=1.02
θx ＝1.02
15
-15
variable
10
-4
0
-30
-2
-25
0
5
-20
2
variable
4
6
-10
8
非
定
常
-5
10
0
ランダムウォーク
random walk
60
time
時間
正規分布からの
独立なデータ
variable
20
0
20
40
60
time
80
100
0
20
40
60
time
時間
80
100
0
20
40
60
time
80
100
経済時系列
２つの単位根過程
たとえば、ランダム・ウォーク
見せかけの相関
spurious correlation
強い相関が出やすい
定常過程
Granger et al (2001) Applied Economics, 33: 899-904.
xt=θx xt-1+N(0,σ^2)
定常過程
θx ＝1
θx の絶対値＜1
ランダムウォーク
θx=0.98
θx=0.95
type1error=0.674 theta=0.98
6000
7000
type1error=0.6028 theta=0.95
5000
4000
3000
1000
2000
Frequency
1000
3000
誤って有意な相関と
判定する率（5%水準）
=0.6028
0.4
0.6
0.8
1.0
0.0
p value for r
0.2
0.4
0.6
0.8
1.0
p value for r
θx=0.90
4000
5000
type1error=0.5029 theta=0.90
1000
2000
3000
誤って有意な相関と
判定する率（5%水準）
=0.5029
0
0.2
Frequency
0.0
0
0
Frequency
5000
誤って有意な相関と
判定する率（5%水準）
=0.6740
0.0
0.2
0.4
0.6
p value for r
0.8
1.0
n=100
回帰
回帰式
yt=α+β xt
回帰モデルとしては
yt=α+β xt+εt
εtは平均0で分散一定の正規分布にしたがう
時系列データを回帰する（してしまう）とどうなる
回帰
回帰式
yt=α+β xt
回帰モデルとしては
yt=α+β xt+εt
εtは平均0で分散一定の正規分布にしたがう
正規分布からの独立なデータ（回帰分析が仮定している条件）
パラメーターα、βのばらつきは、
サンプルサイズが大きいと、小さくなる
傾きのヒストグラム
n=1000
n=100
Distribution of b n=100 RW
200
400
Frequency
400
300
200
100
0
0
0
2
4
-4
傾き
b
-2
0
b
400
600
n=2000
Distribution of b n=2000 RW
200
-2
0
-4
Frequency
Frequency
500
600
600
700
Distribution of b n=1000 RW
-4
-2
0
2
b
傾き
4
2
傾き
4
切片
n=1000
n=100
Distribution of a n=1000 RW
200
100
150
Frequency
600
400
0
50
200
0
-20
0
-20
20
40
+20
a
-50
0
50
-50
a
+50
Distribution of a n=2000 RW
50
100
150
200
n=2000
-100
+100
0
-40
Frequency
Frequency
800
250
300
1000
Distribution of a n=100 RW
-150
-100
-50
0
50
100
150
0.5
0.4
0.3
0.2
0.0
0.1
var(b)
傾きの分散
500
1000
1500
2000
2000
200
100
0
var(a)
切片の分散
300
400
500
sample size (n)
500
1000
1500
sample size (n)
サンプル・サイズ
2000
2000
時系列の長さ
２つのランダムウォーク（互いに独立）
回帰すると、変な結果
見せかけの回帰
spurious regression
検定：第1種の誤りが過大
サンプル・サイズが大きくなるとさらに悪化
係数の推定値
傾き：サンプル・サイズが増えても、ばらつきが減らない
切片：サンプル・サイズが増えると、ばらつきが増える
まとめ
時系列
今回はランダムウォークごとき
似たデータが続けて出やすい
時系列データをそのまま使うと、
そこは、相関も回帰も、常識的な働きをしない
魔界
付．こんな場合には
x ランダム・ウォーク
y 独立な正規乱数
各時点の資源量＋新たに得た量
閾値を超えたら、放出して次時点の資源量はゼロになる
閾値以下なら、放出せず、
次時点の資源量は各時点の資源量＋新たに得た量
ｙ放出された量
x ランダム・ウォーク
各時点で、新たに資源を受け取る
独立な正規乱数
手持ちの資源量が閾値を超えたら、全部、放出する
放出すると次時点の資源量はゼロになる
手持ちの資源量が閾値以下なら、放出せず、
次時点の資源量は各時点の資源量＋新たに得た量
ｙ放出された量
例
15
10
0
5
output (resource)
10
5
0
y
output (resource)
放
出
量
resource output time series
15
resource output time series
0
20
40
60
time
時間
80
100
0
20
40
60
80
100
time
時間
左右のグラフとも、同一の例（グラフの描き方がちがうだけ）
ｘとyの間の相関係数を
検定した、pの値の分布
ｘとyの間の相関係数の分布
resource output type error for r=0
1000
0
500
500
1000
Frequency
非常に鈍感
0
Frequency
1500
1500
2000
resource output correlation
0.0
0
0.2
0.4
0.6
0.8
p for r
pの値（有意確率）
1.0
-1.0
1
-1.0
-0.5
0.0
r
r
0.5
1.0
+1.0

Download Report