国際連合論(第1回)

国際連合論(第1回)
計量分析入門
久保田徳仁
政治学の雑誌でよく見かける表
数字が出てくる2つのパターン
• モデル化(ゲーム理論、意思決定論など)
→複雑な世界を単純化して示すための手段
→理屈に矛盾がないことを示す(内部整合
性)=数理分析
• 実証(統計分析)
→理論が現実とあっているかを証明する手段
(外部整合性)=計量分析
ここで扱うのは後者の計量分析
実証研究
• 目的:ある理論が空想の産物ではなく、実態
をきちんと表現していることを証明する。
• 理論の例:民主的平和(民主主義国同士は
戦争をしない)
• さまざまな方法:事例分析、計量分析、比較
事例分析(Structured Focused Comparison:
SFC法)
なぜ計量分析?
• 事例研究、比較事例研究には大きな欠点が
ある
– 事例選択が恣意的になりやすい(理論に合致す
るものばかりを選ぶ傾向がある)
– 現実はさまざまな要素が作用しているので、どの
要素が重要なのかは1,2の事例を見ただけでは
判別できない。
例)戦後日本とアメリカの間に戦争が起きていない
ことを例に挙げて民主的平和論が証明されたと
いえるか?
計量研究の利点
• 数量化することでできるだけ多くの事例を扱
えるようにする(事例選択の恣意性を排除す
る)
• 各事例に作用していると思われる要素すべて
をモデルに入れて効果のあるものを判定する
ことができる(変数のコントロール)
変数
• 考慮されるものは、数ではないものも含めて
すべて「変数(variable)」と呼ばれる
• 従属変数(被説明変数:dependent
variable):理論において「結果」と考えられる
現象 例)戦争の発生
• 独立変数(説明変数:independent
variable):理論において「原因」と考えられる
現象 例)民主主義の成熟度、GDP、対立の
歴史・・・
• 通常従属変数はひとつ、独立変数は複数
基本の発想(例)
• 世界各国のすべて
の2国間関係を調べ
たときそれぞれの国
が経験した戦争の頻
度は民主主義の進
展と負の比例の関係
にあるか?
戦
争
の
頻
度
民主主義の成熟度
データ化
• どういうデータがあればよいか?
• 戦争の頻度(回)
• 民主主義の成熟度(恣意的ではない方法で
数値化)
– PolityIVというデータバンクではー10~+10とい
う指標で各国の民主主義を評価している
– 2国間なので小さいほう(民主主義が未熟なほう)
のデータを使う(これは恣意的に)
データの例(仮想の事例)
事例 国
1
2
3
4
5
6
A国ーB国
B国ーC国
C国ーA国
D国ーA国
D国ーB国
D国ーC国
戦争の頻度
民主主義の成熟
度
10
2
0
5
0
3
5
2
5
4
0
5
図にしてみると・・・
民主主義の成熟度と戦争の頻度(例)
6
戦争の頻度
5
4
3
2
1
0
0
5
10
民主主義の成熟度
15
どうやら2つの変数の間には相関関係
がありそう
民主主義の成熟度と戦争の頻度(例)
6
戦争の頻度
5
y = -0.24x + 4.3
4
3
2
1
0
0
5
10
民主主義の成熟度
15
数式化(単回帰)
• 数式化すると・・・
戦争の頻度=
ー0.24×(民主主義の成熟度)+4.3
• ではこの「-0.24」や「4.3」はどうやって出た
のか?
• →最小二乗法(コンピュータが計算してくれる
ので心配しなくてよい)
最小二乗法(念のため)
• 基本の数式が
Y=βX+α
• しかしすべての現象には誤差がある
Y=βX+α+ε
• 誤差が一番少なくなるようにβとαを決める
• 誤差ε=Y-βX-α
• 誤差は正負の両方に生じるので2乗して符号をそろえる
ε2=(Y-βX-α)2
• YとXの値を事例1から6まですべて当てはめて合計
Σε2=Σ(Y-βX-α)2 =(2-β10-α)2+(5-β0-α)2+…
これをαとβでそれぞれ偏微分して0とおいた答えが-0.24と4.3
「影響がある」とはどういうことか?
民主主義と戦争の頻度
民主主義の成熟度と戦争の頻度(例)
6
6
5
y = -0.24x + 4.3
4
戦争の頻度
戦争の頻度
5
3
2
1
y = -0.12x + 4.3
4
3
2
1
0
0
0
5
10
民主主義の成熟度
15
0
5
10
15
民主主義の成熟度
20
• 民主主義の指標を2倍してみたら係数が半分になっ
た(-0.12)。でも関係の強さは同じ。単位の問題。
25
影響があるとはどういうことか?(t値)
• 指標の単位に影響されないようにするために開発された数
•
•
•
•
•
•
値が「標準誤差(S.E.)」。
ばらつきが大きければS.E.も2倍になる
例1の民主主義の標準誤差は0.11
例2の民主主義の標準誤差は0.06
これらの値に対して係数の絶対値が大きければその変数は
従属変数と強い相関関係があるということになる。
-0.24/0.11=-0.12/0.06 つまり関係の強さは同じで負の
効果がある
係数を標準誤差で割った値(t値)は単位に依存しないため
影響力の強さを比較することができる
関係の強さと係数、標準誤差
民主主義と戦争の頻度
6
8
7
6
5
4
3
2
1
0
5
y = 0.06x + 4.3
戦争の頻度
戦争の頻度
民主主義と戦争の頻度
y = -0.12x + 4.3
4
3
2
1
0
0
5
10
民主主義の成熟度
係数=0.06
標準誤差=0.2
T値=0.28
15
0
5
10
15
民主主義の成熟度
係数=-0.12
標準誤差=0.11
T値=-2.02
右側のほうがはっきりと関係を示している
左側はランダムに点を打ってもそんな形になりそう
20
25
でたらめと言い切れるか?(検定)
• T値の絶対値が小さいとき「影響がない=でたらめにサンプ
ルをとってもそのような結果になる」と疑われる
• T値の絶対値が大きいと、さすがに「でたらめ」とはいいがた
い
• でたらめに点を打ったときのT値が出る確率はコンピュータ
が計算してくれる:P値
(サンプルの数によるが、±2.5を超えると奇跡に近い)
• 通常確率が5%以下になるともはや奇跡としかいえなくなる
ので、やはりでたらめではなく、独立変数は従属変数に影響
があると認めざるを得ない。(独立変数は有意水準5%で有
意)
• こうした方法を統計的検定と呼ぶ。
検定
8
7
6
5
4
3
2
1
0
民主主義と戦争の頻度
6
y = 0.06x + 4.3
5
戦争の頻度
戦争の頻度
民主主義と戦争の頻度
0
5
10
民主主義の成熟度
係数=0.06
標準誤差=0.2
T値=0.28
P値=0.7
15
y = -0.12x + 4.3
4
3
2
1
0
0
5
10
15
民主主義の成熟度
係数=-0.12
標準誤差=0.11
T値=-2.02
P値=0.1
右の例がランダムに起きる確率は10%(5%以下ではないので微妙)
左の例はランダムにやっても70%の確率でおきるので有意ではない
20
25
表にすると・・・
例1(有意ではな 例2(微妙に有
い)
意)
4.3**
4.3***
切片
(0.59)
(1.06)
-0.24†
0.06
民主主義の成熟
度
(0.21)
(0.11)
N(事例の数)
6
6
• † P<0.1 *P<0.05 **P<0.01 ***P<0.001 ()内は標準誤差
要は係数の符号と星の数を見ればよい
変数のコントロール
• でも経済的な豊かさ
も戦争の頻度と関係
しているのでは?
• →経済的な豊かさを
「コントロール」する
戦
争
の
頻
度
豊
か
さ
民主主義の成熟度
例)豊かさも民主主義も重要
コントロール(続き)
戦
争
の
頻
度
戦
争
の
頻
度
豊
か
さ
豊
か
さ
民主主義の成熟度
例)豊かさをコントロールすると
民主主義は無関係
民主主義の成熟度
例)豊かさをコントロールすると
民主主義は逆効果
複数の変数を考慮することをモデル
に表すと・・・(重回帰分析)
• ヒント:先の図では三次元の面のグラフを求めた
• 答え:
• (戦争の頻度)=β1×(民主主義の成熟度)
•
•
•
•
+β2×(豊かさ)+α
このように係数×変数を数式に入れるだけでよい。
3個以上の独立変数を入れることもできる
あとは標準誤差もT値もP値もコンピュータが計算し
てくれる
ただし、ここでのβやT値はほかの変数が一定だった
とき(コントロール済み)の値
民主主義が1上がるとβ1だけ戦争の頻度が変化し、
豊かさが1上がるとβ2だけ戦争の頻度が変化する
重回帰分析に必要なデータ
事例 国
1
2
3
4
5
6
A国ーB国
B国ーC国
C国ーA国
D国ーA国
D国ーB国
D国ーC国
民主主義 豊かさ
戦争の頻
の成熟度
度
10
3
2
0
8
5
0
10
3
5
3
2
5
1
4
0
10
5
数じゃない変数だったら?
• 「アジアの国」や「独裁国家の国」といった数
字で表せない場合は・・・
• ダミー変数を作る(アジアの国=1、それ以外
の国=0)
• 独立変数がダミー変数である場合は普通に
回帰分析を行うことができる。
• 係数はその条件を満たす場合とそうでない場
合の差を表している。
ダミー変数
事 国
例
1
2
3
4
5
6
A国ーB国
B国ーC国
C国ーA国
D国ーA国
D国ーB国
D国ーC国
民主主 豊かさ アジア 戦争の頻度
義の成
熟度
10
3
1
2
0
8
0
5
0
10
1
3
5
3
1
2
5
1
0
4
0
10
0
5
独立変数に条件がつく場合
• 例)アジアの国だけは民主主義の成熟度に比例し
て戦争が起きる(という仮説)
• アジアの国(1or0)というダミー変数がある。
• 民主主義の成熟度という変数もある。
• これをかけると・・・
アジアの国×民主主義の成熟度
という変数ができる(これを相互作用項:interaction
termと呼ぶ)。この係数の有意性検定をすればよい。
• このとき、「アジアの国」という変数も、「民主主義の
成熟度」という変数もモデルに入れておくこと。
相互作用項
事国
例
1
2
3
4
5
6
A国ーB国
B国ーC国
C国ーA国
D国ーA国
D国ーB国
D国ーC国
民主主 豊か ア アジア 戦争
義の成 さ
ジ ×民主 の頻
熟度
ア 主義
度
10
10
3
1
2
0
0
8
0
5
0
0 10
1
3
5
5
3
1
2
0
5
1
0
4
0
0 10
0
5
重回帰分析の結果
独立変数
• サンプルが少ないので
•
•
まともな分析ではない
が・・・
Nが小さいとPが十分小
さくならない。(なぜで
しょう?)
†P<0.1, *P<0.05,
**P<0.01,
***P<0.001
係数(標準誤差)
切片
3.97*
(0.52)
民主主義の成熟
度
-0.01
(0.10)
豊かさ
0.11
(0.05)
アジア
-2.14*
(0.21)
アジア×民主主
義
-0.00
(0.07)
N
6
重回帰分析で気をつけなければなら
ないこと
• 変数が多くなると、コンピュータが係数やP値を推定
•
•
するのにたくさんのデータが必要になる。
30以上の独立変数を扱うためには1000や2000の
データを集める必要がある。
独立変数同士が相関関係を持ってしまうと(豊かさ
と民主主義の成熟度)どちらの効果かコンピュータ
も判断できなくなる(多重共線性問題:マルチコ:
Multicolinearity)→むやみに変数を入れない
従属変数が特殊なとき
• 従属変数がダミー変数(戦争した/しない 等)
– 最小二乗法では扱うことができない(条件が満た
されない)
– →ロジットモデル、プロビットモデルなどが使わ
れる。直線の変わりにS字曲線が当てはめられる
(係数は単純な読み方ができない)
– でも表の見方は同じ。係数の正負と星の数。
• 時系列(や比較事例と時系列のミックス)を扱
う場合
– さまざまなモデルが用いられる(覚えなくてよい)
では最初の表から何がわかるか?
計量分析の難点・問題点
• データを集めるのが大変(1000の事例をどう
やって集めるか)。
– 時間で区切って毎年観察する。200カ国×10年
=2000
– インターネット上のデータセットを利用する
COW、ICOW、Polity
– データを生成してくれるソフトもある(EUGENE)
– どうしてもデータがない場合「欠損値」が生じるが、
(アフガニスタンのGDPなど)これはソフトで補完
する
計量研究の難点・問題点2
• データ化する際に恣意的になりやすい(この
国の民主主義の成熟度は本当に「5」なの
か?)
– データを公開し多くの人に批評してもらう
– PolityやCOWは、批判があるものの数十年間使
われ続けている。
計量研究の問題点3
• 統計モデルにどの変数を入れるかでP値が大
きく変わってくる。
– さまざまな妥当なモデルを作って、それでも有意
であることを示す必要がある。