Keiryo Lecture 3

STATA入門 3
計量経済分析
概要
•
データのインポートの続き
•
データの整理
Data Dictionary付きのInfile
•
テキストエディターで次のファイルを作成:
Data Dictionary付きのInfile
方法の違い
•
2つのインポート方法:
1. infile highway arate speed access using highway1.txt
2. infile using highway1
•
主に2つの違いがある:
1. 後者の方はコマンドが短い。
2. 後者の方には「highway1」の最後に「.dct」を入れな
くていい。
STATAのディーフォルト拡張子
コマンド
STATAの解釈
infile varlist using highway1
infile varlist using highway1.raw
infile using highway1
infile using highway1.dct
infile varlist using myfile.xyz
infile varlist using myfile.xyz
infile using medicate.xyz
infile using medicate.xyz
STATAのディーフォルト拡張子
•
varlist(変数)を指定する場合は、データが入って
いるファイルも指定する。
•
varlistを指定しない場合は、dictionaryが入っている
ファイルを指定する。
•
Dictionaryの中には変数名とデータファイル名が
入っている。
STATAのディーフォルト拡張子
•
もう一つの便利なところ:dictionaryの中に変数ラベルを
入れることができる。
Infileの柔軟性
•
一つの観測のデータが数行にある場合:
Infileの柔軟性
•
2つ以上の観測のデータが一行にある場合:
•
Dictionaryが使えない。
•
Dictionaryのルールは次のよう:
1.
Data Dictionaryを使わない場合は、行はどこに終わるか気にしなくていい。
2.
Data Dictionaryを使う場合は、全ての観測が新しい行で始まらないとだめ。一つの観測のデータ
は数行を使っても構わないが、一行に最大一つの観測のデータ。
Infileの柔軟性
•
欠測値の場合:
•
6行目に来るとSTATAが困るので、dictionaryなしで読み込めな
い。
Infileの柔軟性
•
でも、dictionaryを使えば読み込める。
•
このdictionaryでは、どのデータでも一行目には3つの変数があるのでSTATAは
対応できる。
•
2つの数字しかない行は、3つ目の数字は欠測値だとSTATAが判断する。
Infileと列変数
•
列変数がある場合は、変数名の前に「str#」を付けないといけない。
Infileと列変数
•
Data Dictionaryを使わなければ次のファイルが読み込めない:
•
高速道路番号は「US 10」、「FM 5」などだが、dictionaryを使
わなければSTATAは「US」と「10」、又は「FM」と「5」を別
の変数として扱う。
Infileと列変数
•
次のData Dictionaryを使えば読み込める:
•
だが、読み込める前にデータを少し調整しなければならない。
•
上記のdictionaryではhiwayを「str6」と指定するので、「5」と「2.86」の間に
もう一つの空白を入れないと「5 2」と「.86」というふうにデータが分けられ
る。
Infileと日付
•
STATAには特別な日付がある。
•
STATAが使う日付は1960年1月1日からの日数。
•
例:1995年1月13日は「12,796」。
•
便利なところ:2つの日付の間の日数が分かる。
•
不便なところ:読みづらい。
Infileと日付
STATA日付
•
「date」というコマンドを利用して日付をSTATAの日付に
変える。
InfileとInsheetの違い
一行目は変数名
一行に一つの観測のデータ
データの間にはタブ又はカンマがある
➡
ならInsheetを使う。
Infix
•
データの長さが決まっているテキストファイルを読
み込む。
PWT(Penn World Table)
データ入力
データ入力
データ入力
データ入力
0
5.0e-06
Density
1.0e-05 1.5e-05
2.0e-05
2.5e-05
ヒストグラム
データ入力
0
500000
1000000
pop
1500000
ラベル
ラベル
ノートと保存
RenameとRecode
•
「Rename」というコマンドは変数名を変える。
•
「Recode」というコマンドは変数の中身を変える。
•
例:1950年を1940年に変える。
RenameとRecode
•
「Recode」は欠測値に便利。例えば、欠測値は「.」ではない
時。
•
同時にいくつかの変数をrecodeも可能。
•
例:
•
ただ、列変数の場合は、「replace」というコマンドを使わな
ければならない。
EncodeとDecode
•
STATAは列変数を統計分析に使えない。
•
列変数を統計分析に使いたい場合、まず「encode」というコ
マンドを利用する。
•
Encodeは列変数にアルファベット順に数字をつける。
EncodeとDecode
•
もう一つの例:num2strとstr2num
KeepとDrop
•
データセットに使いたくない変数か観測があるかも
しれない。
•
必要ないデータをデータセットから取り消すために、
「keep」や「drop」を使う。
論理演算子
==
等しい
~=
不等号
>
より大
>=
より大きいか又は等しい
<
より小
<=
より小さいか又は等しい
KeepとDrop
•
データセットに使いたくない変数か観測があるかも
しれない。
•
必要ないデータをデータセットから取り消すために、
「keep」や「drop」を使う。各国の一番最初の観
測のみを落とさない
Sort
•
データを並べ替える。
Sort
•
国を降順に、年を昇順に並べ替える。
By
は
と同じ結果が出る。