時系列データの収集と分析

時系列データの収集と分析
経済情報処理基礎
2015 年 1 月 6 日（火）
時系列データとは，「時間の流れに沿って観測されるようなデータ」であり，株価や為替レート，GDP
を始めとする経済データから，日々の気温・雨量などの気象情報・毎月の交通事故発生件数や心電図な
どのデータまで様々な分野で扱われている．とくに経済に関連するものは「経済時系列データ」と呼ば
れる．ここでは，まず，インターネットの普及により比較的に身近なものとなった経済時系列データを
収集するいくつかの方法を紹介する．次に，入手したデータの一部を用いて，2 つのデータ間の関係を見
出す方法の 1 つである「回帰分析（とくに単回帰分析）」を Excel の「データ分析」というツールを利用
して実行する方法を解説し，時系列データ間に潜む関係を探ることの初歩を学ぶ．併せて，今回の分析
に必要となるデータ整理・変換方法も説明する．この講義の目的は，次の 2 つにまとめられる．
1.
自分で身近にある時系列データを収集する．
2.
回帰分析を使ってデータ間の関係を探る．
※ 次の URL にアクセスし，経済情報処理基礎の HP から講義で用いる Excel ファイル「data-sheet.xlsx」
をダウンロードして保存：http://www.e.okayama-u.ac.jp/lectures/excel2013/index.html
保存したファイルを開き，Excel を立ち上げておく．
1．データの収集と変換
1．1
経済データの主な入手先例
近年では数多くのデータが様々な機関のウェブサイトで公表されており，インターネットを経由すれ
ば容易に手に入れることができる．ここでは，今回の講義で扱う下記の 2 つを紹介するに留めておく．
e-Stat 政府統計の総合窓口（各府省の公開統計データのポータルサイト）：

http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
人口・世帯などの国勢統計から，GDP・消費・所得(国民経済計算：SNA)・労働・賃金や消費者物
価など政府が公表している様々な統計データ全般が Excel・CSV 形式で入手できる．
Yahoo! ファイナンス： http://finance.yahoo.co.jp/

株価・為替レートなどの日次・週次・月次データ．株価・為替レートは他にもあるが入手しやすい．
以降では，実際にこれらのウェブサイトにアクセスしてデータを入手してみよう．
1．2
e-Stat の利用
e-Stat を上手く利用すれば数多くの経済データを入手することができるが，ここでは利用例として日
本の人口変動を取り上げ，実際のデータから傾向を見てみる．1899 年∼2012 年までの人口統計デー
タ(114 年間の年次データ)を収集し，人口の推移を棒グラフとして表してみよう．
-1-
時系列データの収集と分析
□ 例題 1：人口の推移グラフ
【作業手順】
[1] e-Stat の HP に移動するために次の URL にアクセス（あるいは，アドレスバーに直接打入力して
も構いません）
：http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do 下記ページが表示される．
[2] 上記にある「主要な統計から探す」⇒ 人口・世帯「人口動態調査」を順次クリック．
[3] 人口動態統計の上から 13 番目の「人口」の「2013 年」をクリックする．
[4] 「1 年次・性別人口」の
マークをクリックすると，
となるので，「保存(S)」の右にある▼をクリックすると表れる「名前を付けて保存」を選択し，
任意のフォルダに「pop.csv」と名前を付けて保存する．
-2-
経済情報処理基礎
[5] 保存したファイル「pop.csv」を開き，1899 年∼2013 年までの人口推移の棒グラフを作成．
① 1899∼2013 年の「総数」(B8−B122 のセル)を反転させて選択
⇒ 右クリックで「コピー」．
「data_sheet.xlsx」の「例題 1」シートにある「人口」の欄(C5 セル)に貼り付け．
② 「人口」を反転し選択(ラベル名も含む) ⇒ 「挿入」タブの「2−D 縦棒」で棒グラフを作成．
③ 横軸ラベルの編集：グラフを選択し，「グラフツール」の「デザイン」から「データの選択」
をクリックすると，下記「データソースの選択」ボックスが表れるので右側「編集」を押す．
下記「軸ラベル」のボックスが表れるので「軸ラベルの範囲」を A 列の「1899~2013」の範
囲(B5∼B119 のセル)として「OK」を押すと，軸ラベルが「1899~2013」になる．
-3-
時系列データの収集と分析
④ タイトルや目盛りを見やすいように適宜調整．次のような棒グラフとなったら完成．
日本の人口増加が鈍化して行っていることが見て取れる．
1990 年ごろより
人口増加が停滞．
1．3
株価・為替レートデータの収集
GDP や消費データと並んで頻繁に利用される経済時系列データとして，株価や為替レートのデータが
り，とくにファイナンスデータとも呼ばれる．ここでは，このようなデータの手軽な入手先である，
「Yahoo!ファイナンス」を利用して 2009 年 4 月~2013 年 3 月の期間の「日経平均株価」と「ドル円
為替レート」のデータ（直近 4 年度の月次データ）を収集してみよう．
□ 例題 2：日経平均株価とドル円為替レートの収集
【作業手順】
[1] 次の URL にアクセス：http://finance.yahoo.co.jp/（Yahoo!のトップから「ファイナンス」をク
リックでもよい）．上段にある「コードまた企業名を入力」の欄に「日経平均株価」と入力し「株
価検索」ボタンをクリック．
[2] 下記の日経平均株の価格が表れたら左から 3 番目の「時系列」を選択する．
-4-
経済情報処理基礎
[3] 直近の日時時系列データが表示されるので，下段の方にスクロールさせ，データの期間と間隔を
選ぶ次のボックスを見つけ，●を「デイリー」から「月間」に移し，
「2009 年 4 月」と「2013 年
3 月」を選択し，表示ボタンを押す．
[4] 表示された株価データを，マウスの左ボタンを押しながら下方までスクロールさせて 2009 年 4
月までを反転させて選択し，マウスを右クリックし「コピー」
（「日付・始値・安値・高値・終値」
のラベルも含める）．
「data-sheet」の「例題 2 作業」のシートに移動し，B3 セルに貼り付ける．
※ 張り付けたときに上手くデータがセルの列に分かれない場合は，先頭の列を選択後，「データ」
タブの「区切り位置」をクリックし，「スペースによって…」に●を変更して調整する．
[5] データの並べ替え：新しい年月順に並んでいるので，古い年月順に並び替えよう．
① データ範囲全体(B3∼F51 セル)を選択，
「編集」タブの「並べ替えとフィルター」をクリック．
② 「昇順」をクリックで古い年月順に並び替える．
データ範囲全体を選択してか
ら「並べ替えとフィルター」
-5-
時系列データの収集と分析
[6] 「終値」の価格(F4∼F51 セル)を，
「例題 2」シートの「日経平均株価」(D5 セル)に張り付ける．
[7] ドル円為替レートは，Yahoo!ファイナンスのトップにある「検索ランキング」(※この欄は動くの
で注意)に表示される「米国ドル」をクリックすると，ドル円為替レートの価格が表示される．
＊右下にある「マーケット」ボックスの「アメリカドル／日本円」をクリックでもよい．
[8] 以降は日経平均株価と同様の作業．
「例題 3 作業」シートの I3 セルにコピーしたデータを貼り付
け，並び替えた終値を「例題 3」のシートの「ドル円為替レート」（C5 セル）に張り付ける．
[9] 各時系列データの折れ線グラフを「挿入」タブの「2−D 折れ線」で作成し，時間の経過による
変動を見てみる．※ 例題 1 の[4]で扱った「軸ラベル」の編集を使って，横軸を年月に変換．
-6-
経済情報処理基礎
1．4
株価・為替レートデータの変換
例題 2 で描いた折れ線グラフを見ると，時間の経過とともにデータがふらつきながら動いているのが
見て取れる．このような現象は「ランダム・ウォーク」と呼ばれ，次節の回帰分析を行う上で扱いに
くいことが知られている．そのため，株価・為替レートの価格データを次の「変化率」（「対数変化
率」あるいは「収益率」とも呼ばれる）に変換しよう．
変化率(収益率)： log( ) − log(
)
は，添え字の i 時点で観測されたデータを表し，log は自然対数を表す．
＊変化率(収益率)に変換するとデータ数が 1 つ減ることに注意．
．．．．．．．
⇒ 今回のデータ期間であれば，2009 年 5 月∼2013 年 3 月の変化率データ．
□ 例題 3：株価・為替レートの変化率
1.3 で収集した 2 つの価格データを変化率(収益率)データに変換し，散布図を作成してみよう．
【作業手順】
[1] 「LN 関数」を使ってデータを自然対数変換し，次のように 1 期前との差分を作る．
LN(セル番号)−LN(セル番号−1)
まず，ドル円為替レートの 2009 年 5 月の変化率を計算．2009 年 5 月のデータに対数を取った値
から 2009 年 4 月のデータに対数を取った値を引く(関数名は大文字・小文字どちらでもよい)．
[2] 次にオートフィル機能を使って計算を縦方向にコピーすると，2013 年 3 月までの変化率を得る．
「E6」セルの右下にカーソルを持って行って「＋」に変わ
ったら，2013 年 3 月までドラッグして計算をコピーする．
-7-
時系列データの収集と分析
[3] 同様に日経平均株価の変化率も求める（F5 のセルに「= LN(D6)−LN(D5)」を入力してコピー）．
年月
2009年4月
2009年5月
2009年6月
2009年7月
2009年8月
ドル円為替レート
98.5599
95.29
96.3199
94.66
93.01
日経平均株価
8,828.26
9,522.50
9,958.44
10,356.83
10,492.53
ドル円為替レート変化率日経平均株価変化率
-0.033739612
0.07569948
0.01075007
0.044763013
-0.017383419
0.039225773
-0.01758451
0.01301737
[4] 為替レート変化率を横軸・株価変化率を縦軸にした散布図を描く(適宜「グラフツール」で調整)．
※ 散布図を描く際には選択データの 1 列目が横軸（X 軸），2 列目が縦軸（Y 軸）になるので注意．
 右上がりの比例関係．
 直線をあてはめれそう．
[5] 散布図に直線をあてはめてみよう(近似直線を引く)．グラフを選択し，右上端に「＋」マークが
現れたらクリック．このとき，「グラフ要素」の項目が出てくるので，「近似曲線」(最下段の項
目)にチェックを入れると，散布図に点線で(近似)直線が引かれる．
[6] (近似)直線にカーソルを持って行き，右クリックすると「近似曲線の書式設定」が最下段に出て
くるのでクリック．右側にボックスが現れ，下方にスクロールして行くと，「グラフに数式を表
示する」があるのでチェックを入れる．点線の近くに(近似)直線を表す数式が表示される．
直線を表す数式が表示．
-8-
経済情報処理基礎
2．回帰分析
例題 3 の散布図にあてはめられた直線を眺めてみると 2 つのデータ間には右上がりとなるような近似
的な線形(直線)関係があると予想できる．回帰分析とは，このような線形関係を見出し，一方が他方を
決定し説明する関係（因果関係）と見なして，一方が他方に影響を与える要因となっているかを分析
する方法である．ここでは，2 つの変数(データ)間の関係を対象とする回帰分析のみ取り上げる．
2.1
回帰モデルと最小 2 乗法
 2 変数の線形関係
n 組のデータ( , ),
= 1, ⋯ , が与えられるときに，変数とに線形関係を想定しよう：
=
+
 変数が変数を
．⇔ 変数が変数に

：被説明変数(従属変数) ⇒

：説明変数(独立変数) ⇒

, ：を定数項(切片)，を回帰係数(傾き)と呼ぶ． , は未知．
．
＝
．

0（が正の値）⇒ 変数が増えると変数が増える関係．

0（が負の値）⇒ 変数が増えると変数が減る関係．

＊
＝
．
= 0 ⇒ 変数と変数には
．
は「傾き」なので，の 1 単位変化に対するの変化も表す．回帰分析の関心対象の 1 つ．
 回帰モデル
散布図にいかにうまく直線： =
+
を引こうとも，すべてのデータ点を通ることはまずない．
⇒ データには必ず何らかの誤差・変数の値は
 回帰モデル：
が加わって決まると考える．
とする．
=
+
+
,
= 1, ⋯ , .
 目的：誤差全体が最も小さくなるよう , を決める＝
直線を求める．
※ データから未知の , (パラメータ)を定めることをとくに「推定」と言う．
図 1：散布図と線形関係(直線)・誤差のイメージ.
+
−( +
-9-
：知りたい直線
) ：誤差
時系列データの収集と分析
 最小 2 乗法
 誤差は正負どちらの値も取りうる ⇒
 全体の誤差を測りたい
は正の値しか取らない．
⇒ n 個の誤差 2 乗について
．
上記 2 点から，次を最小化するように , を定めるのが最小 2 乗法の考え方：
)
−( +
( −
=
⇒ 定められた , を「 , 」と表記し，「
⇒
, から定まる直線を「
−
)
」と呼ぶ．
」と呼び，「 =
+
」と表記．
（※ 回帰直線を求めることを「回帰モデルを推定する」とも言う．）
＊ Excel の「データ分析」に用意されている「回帰分析」を使えば最小 2 乗推定値 , や，以降で説明
する「決定係数」
・
「t 値」も計算して出力してくれる．次の例題で「回帰分析」の実行方法を解説し，
実際に回帰直線を求めてみよう．
□ 例題 4‐1：株価と為替レートの回帰直線
ここでは，ドル円為替レートが株価を決める(因果)関係を考え，為替レートが株価の動きを説明する
要因なのかどうか回帰分析で調べよう．このような関係を下図のように回帰モデルとして表現．
図 2： (因果)関係の予想と回帰モデル．
日経平均株価( )
回帰モデル：
ドル円為替レート( )
=
+
+
,
= 1, ⋯ , .
⇒ 日本経済は輸出に依存していると考え，企業の平均株価である日経平均は為替レートに左右し
て決まるとした線形関係(回帰モデル)．※矢印の向きが関係の方向(原因と結果)を表す．
【「回帰分析」の使い方】
例題 3 で作成したそれぞれの変化率のデータを用いて回帰直線を求めよう．
[1] 「データ」タブの「データ分析」を選択し1 ，表れるダイアログの「回帰分析」をクリック．
1
「データ分析」がない場合：「ファイル」タブ ⇒「オプション」⇒「アドイン」⇒「設定」
（ダイアログの下の方）と
クリックして行くと，「アドイン」のダイアログが表れるので「分析ツール」に☑を入れる。
- 10 -
経済情報処理基礎
[2] 回帰分析に用いるデータの範囲を入力する．
① 「入力 Y 範囲」に被説明変数である「日経平均株価変化率」のデータ範囲「F5∼F52」
．．．．．．．．．
のセルを入力（データ名を含む範囲）．
② 「入力 X 範囲」に説明変数である「ドル円為替レート変化率」のデータ範囲「E5∼E52」
．．．．．．．．．
を入力（データ名を含む範囲）．
③ 先頭行をデータ名としているので「ラベル」にチェックを入れ(他はそのままでよい)，
「OK」
をクリックする．
図 3：回帰分析ボックスへの入力例．
データの入力範囲にラベル(データ名)が含まれてお
り，「ラベル」にチェックが入っていることを確認．
[3] 作業しているシートの左隣に自動的に新規シートが作成され，以下の出力結果が得られる．
決定係数（2.2 節参照）
係数に対する「t 値」
（2.2 節参照）
「係数」の値が最小 2 乗推定値 ,
変数名が見切れている
ので幅を適切に調整
- 11 -
時系列データの収集と分析
⇒ 「回帰分析」の出力結果より = 0.00841,
回帰直線：
= 1.228416であり，下記回帰直線が得られる．
= 0.00841 + 1.228416
＊散布図の「近似曲線」で引かれる(近似)直線は，最小 2 乗法によって定まるこの回帰直線である．
2.2
回帰直線の評価
最小 2 乗法で回帰直線が定まれば，即座に被説明変数が説明変数によって決まり，説明されている，
と言えるわけではない．回帰直線を評価し，2 つの変数(データ)間に想定したような線形関係があるの
かを吟味して回帰分析となる．評価するための主な指標の 2 つが決定係数と t 値．
 決定係数
回帰直線がよくあてはまれば線形関係にあり，被説明変数全体の変動を上手く説明できる．
⇒ 被説明変数の変動を回帰直線がどの程度説明できるのかを測る指標が「決定係数：
＊決定係数(
」．
)：出力結果の「重決定Ｒ2」が決定係数の値．0 から 1 の間の値を取る．
 1 に近いほど回帰直線の
＝変数の変動を上手く
 100×[決定係数(重決定 R2)]を回帰直線で
．
と解釈できる．
 t値
仮説検定に基づいて，が説明変数として役に立つのか，影響を与える変数なのかを調べるための
指標．出力結果の「t」の欄に計算されている．
※ 通常は，説明変数の係数に対して評価し，切片(定数項) は関心の対象にならない．
＊ t 値の判断基準：一般的には絶対値で 2 より大きいか小さいかで判断．
| |
2：説明変数は
，被説明変数に影響を
| |
2：説明変数は
，被説明変数に影響を
．
．
□ 例題 4‐2：株価と為替レートの回帰直線の評価
例題 4‐1 の出力結果から決定係数と最小 2 乗推定値の t 値を見てみよう．
 定係数(重決定 R2) = 0.395696．
⇒ 日経平均株価(変化率)の変動の

を定められた回帰直線で説明．
の t 値：t = 5.428248．
⇒ 絶対値で 2 より大きく，は
，の変動の説明に
．
 為替レートは株価に影響を与えており，その変動を決める要因の 1 つと考えることができ，株価
変動の 4 割程度は為替レートによって説明されている．
※
= 1.228416の値については，「傾き」であることから，為替レート変化率が 1%増えると，株
価変化率が 1.228416%上昇すると解釈できる．
- 12 -
経済情報処理基礎
2.3【付録】最小 2 乗法の精度：モンテカルロ・シミュレーション
最小 2 乗法によって直線を定める , を求めたが，それらの真の値を知ることはできないので，実際に
どの程度の精度で得られているのか分からない．ここでは，真の値を与えた仮想的なモデルで人工的
なデータを作成し，最小 2 乗法のパフォーマンスを検証してみよう．「例題 5」のシートに移動する．
□ 例題 5：シミュレーションによる最小 2 乗法の検証
【仮想モデル】 = 1.0,
= 0.5,
= 100とした回帰モデル：
= 1.0 + 0.5
+
,
= 1, ⋯ ,100．
⇒ 線形関係： = 1.0 + 0.5 に誤差が付加してデータが観測されている設定．
⇒
は 1∼100 までの値を順番に取るデータとし，誤差として「正規乱数」を使う．
【作業手順】
[1] 誤差となる「正規乱数」を Excel の「データ分析」で生成し，人工的にのデータを作成．
① 「データ分析」の「乱数発生」を選択．
② 「変数の数」に「1」，「乱数の数」に「100」(データ数と同じ)と入力し，「分布」は「離散」
となっているので，下矢印をクリックして「正規」に変更する．「出力オプション」は「出力
先」に●を移して「B5」と入力し，そのほかはそのままで「OK」を押す．
※ 作成される乱数は例題と同じにはならないので注意．
③ D5 セルに「= 1.0 + 0.5*C5+B5」と入力し，
と
のデータを用いて
= 1.0 + 0.5
+
らを計算．オートフィル機能で D104 セルまでコピーして 100 個ののデータを生成．
- 13 -
か
時系列データの収集と分析
[2] 「回帰分析」で入力 Y 範囲を作成したデータの範囲(D4∼D104)とし，入力 X 範囲を (1∼100)
の範囲(C4∼C104)として最小 2 乗推定値 , を求める．
[3] [2]で得られた最小 2 乗推定値 , と真の値 = 1.0,
= 0.5にどの程度の差があるか見てみよう．下
記は出力結果の一部抜粋・真の値に近いが多少ずれた最小 2 乗推定値が得られている．
切片
説明変数(X)
係数標準誤差
t
1.226537 0.202062 6.070113
0.496918 0.003474 143.0488
※ データ数(標本サイズ)を = 100以外にも 10 や 500 等にして値の変化を調べてみる．
↑「決定係数」や「標準誤差」・「t 値」の変化も見てみるとよい．
3．課題
(1) Yahoo!ファイナンスから，あなたが関係があると予想する 2 つの時系列データ(企業株価や為替レ
．．．．．．．．．．．．．．．．
ート)を収集し，それぞれの折れ線グラフを作成しなさい．期間は 2011 年 1 月∼2014 年 12 月で
月次データとすること．また，以降の回帰分析で一方を被説明変数とし，他方を説明変数とす
ることを踏まえて，なぜその 2 つを選んだのか理由も述べること．
(2) (1)の時系列データを変化率(収益率)に変換し，被説明変数となるデータを縦軸，説明変数とな
るデータを横軸に取った散布図を描きなさい．
(3) (2)で作成した 2 つの変化率データを用いて，一方を被説明変数とし，他方を説明変数とした回
帰直線を「データ分析」の「回帰分析」を使って求めなさい．出力結果も添付すること．
(4) (3)の出力結果の決定係数と t 値から回帰直線の評価を行いなさい．
※ 課題レポート作成時の注意

少なくともどちらかのデータは企業の株価とし，株価検索を利用して目的の企業を探す．

問題(1)の折れ線グラフにはタイトルを入れ，どのデータを用いたか分かるようにする．

グラフや「回帰分析」の出力結果は見やすいように貼り付けること．
- 14 -

Download Report