国際連合論(第1回) 計量分析入門 久保田徳仁 政治学の雑誌でよく見かける表 数字が出てくる2つのパターン • モデル化(ゲーム理論、意思決定論など) →複雑な世界を単純化して示すための手段 →理屈に矛盾がないことを示す(内部整合 性)=数理分析 • 実証(統計分析) →理論が現実とあっているかを証明する手段 (外部整合性)=計量分析 ここで扱うのは後者の計量分析 実証研究 • 目的:ある理論が空想の産物ではなく、実態 をきちんと表現していることを証明する。 • 理論の例:民主的平和(民主主義国同士は 戦争をしない) • さまざまな方法:事例分析、計量分析、比較 事例分析(Structured Focused Comparison: SFC法) なぜ計量分析? • 事例研究、比較事例研究には大きな欠点が ある – 事例選択が恣意的になりやすい(理論に合致す るものばかりを選ぶ傾向がある) – 現実はさまざまな要素が作用しているので、どの 要素が重要なのかは1,2の事例を見ただけでは 判別できない。 例)戦後日本とアメリカの間に戦争が起きていない ことを例に挙げて民主的平和論が証明されたと いえるか? 計量研究の利点 • 数量化することでできるだけ多くの事例を扱 えるようにする(事例選択の恣意性を排除す る) • 各事例に作用していると思われる要素すべて をモデルに入れて効果のあるものを判定する ことができる(変数のコントロール) 変数 • 考慮されるものは、数ではないものも含めて すべて「変数(variable)」と呼ばれる • 従属変数(被説明変数:dependent variable):理論において「結果」と考えられる 現象 例)戦争の発生 • 独立変数(説明変数:independent variable):理論において「原因」と考えられる 現象 例)民主主義の成熟度、GDP、対立の 歴史・・・ • 通常従属変数はひとつ、独立変数は複数 基本の発想(例) • 世界各国のすべて の2国間関係を調べ たときそれぞれの国 が経験した戦争の頻 度は民主主義の進 展と負の比例の関係 にあるか? 戦 争 の 頻 度 民主主義の成熟度 データ化 • どういうデータがあればよいか? • 戦争の頻度(回) • 民主主義の成熟度(恣意的ではない方法で 数値化) – PolityIVというデータバンクではー10~+10とい う指標で各国の民主主義を評価している – 2国間なので小さいほう(民主主義が未熟なほう) のデータを使う(これは恣意的に) データの例(仮想の事例) 事例 国 1 2 3 4 5 6 A国ーB国 B国ーC国 C国ーA国 D国ーA国 D国ーB国 D国ーC国 戦争の頻度 民主主義の成熟 度 10 2 0 5 0 3 5 2 5 4 0 5 図にしてみると・・・ 民主主義の成熟度と戦争の頻度(例) 6 戦争の頻度 5 4 3 2 1 0 0 5 10 民主主義の成熟度 15 どうやら2つの変数の間には相関関係 がありそう 民主主義の成熟度と戦争の頻度(例) 6 戦争の頻度 5 y = -0.24x + 4.3 4 3 2 1 0 0 5 10 民主主義の成熟度 15 数式化(単回帰) • 数式化すると・・・ 戦争の頻度= ー0.24×(民主主義の成熟度)+4.3 • ではこの「-0.24」や「4.3」はどうやって出た のか? • →最小二乗法(コンピュータが計算してくれる ので心配しなくてよい) 最小二乗法(念のため) • 基本の数式が Y=βX+α • しかしすべての現象には誤差がある Y=βX+α+ε • 誤差が一番少なくなるようにβとαを決める • 誤差ε=Y-βX-α • 誤差は正負の両方に生じるので2乗して符号をそろえる ε2=(Y-βX-α)2 • YとXの値を事例1から6まですべて当てはめて合計 Σε2=Σ(Y-βX-α)2 =(2-β10-α)2+(5-β0-α)2+… これをαとβでそれぞれ偏微分して0とおいた答えが-0.24と4.3 「影響がある」とはどういうことか? 民主主義と戦争の頻度 民主主義の成熟度と戦争の頻度(例) 6 6 5 y = -0.24x + 4.3 4 戦争の頻度 戦争の頻度 5 3 2 1 y = -0.12x + 4.3 4 3 2 1 0 0 0 5 10 民主主義の成熟度 15 0 5 10 15 民主主義の成熟度 20 • 民主主義の指標を2倍してみたら係数が半分になっ た(-0.12)。でも関係の強さは同じ。単位の問題。 25 影響があるとはどういうことか?(t値) • 指標の単位に影響されないようにするために開発された数 • • • • • • 値が「標準誤差(S.E.)」。 ばらつきが大きければS.E.も2倍になる 例1の民主主義の標準誤差は0.11 例2の民主主義の標準誤差は0.06 これらの値に対して係数の絶対値が大きければその変数は 従属変数と強い相関関係があるということになる。 -0.24/0.11=-0.12/0.06 つまり関係の強さは同じで負の 効果がある 係数を標準誤差で割った値(t値)は単位に依存しないため 影響力の強さを比較することができる 関係の強さと係数、標準誤差 民主主義と戦争の頻度 6 8 7 6 5 4 3 2 1 0 5 y = 0.06x + 4.3 戦争の頻度 戦争の頻度 民主主義と戦争の頻度 y = -0.12x + 4.3 4 3 2 1 0 0 5 10 民主主義の成熟度 係数=0.06 標準誤差=0.2 T値=0.28 15 0 5 10 15 民主主義の成熟度 係数=-0.12 標準誤差=0.11 T値=-2.02 右側のほうがはっきりと関係を示している 左側はランダムに点を打ってもそんな形になりそう 20 25 でたらめと言い切れるか?(検定) • T値の絶対値が小さいとき「影響がない=でたらめにサンプ ルをとってもそのような結果になる」と疑われる • T値の絶対値が大きいと、さすがに「でたらめ」とはいいがた い • でたらめに点を打ったときのT値が出る確率はコンピュータ が計算してくれる:P値 (サンプルの数によるが、±2.5を超えると奇跡に近い) • 通常確率が5%以下になるともはや奇跡としかいえなくなる ので、やはりでたらめではなく、独立変数は従属変数に影響 があると認めざるを得ない。(独立変数は有意水準5%で有 意) • こうした方法を統計的検定と呼ぶ。 検定 8 7 6 5 4 3 2 1 0 民主主義と戦争の頻度 6 y = 0.06x + 4.3 5 戦争の頻度 戦争の頻度 民主主義と戦争の頻度 0 5 10 民主主義の成熟度 係数=0.06 標準誤差=0.2 T値=0.28 P値=0.7 15 y = -0.12x + 4.3 4 3 2 1 0 0 5 10 15 民主主義の成熟度 係数=-0.12 標準誤差=0.11 T値=-2.02 P値=0.1 右の例がランダムに起きる確率は10%(5%以下ではないので微妙) 左の例はランダムにやっても70%の確率でおきるので有意ではない 20 25 表にすると・・・ 例1(有意ではな 例2(微妙に有 い) 意) 4.3** 4.3*** 切片 (0.59) (1.06) -0.24† 0.06 民主主義の成熟 度 (0.21) (0.11) N(事例の数) 6 6 • † P<0.1 *P<0.05 **P<0.01 ***P<0.001 ()内は標準誤差 要は係数の符号と星の数を見ればよい 変数のコントロール • でも経済的な豊かさ も戦争の頻度と関係 しているのでは? • →経済的な豊かさを 「コントロール」する 戦 争 の 頻 度 豊 か さ 民主主義の成熟度 例)豊かさも民主主義も重要 コントロール(続き) 戦 争 の 頻 度 戦 争 の 頻 度 豊 か さ 豊 か さ 民主主義の成熟度 例)豊かさをコントロールすると 民主主義は無関係 民主主義の成熟度 例)豊かさをコントロールすると 民主主義は逆効果 複数の変数を考慮することをモデル に表すと・・・(重回帰分析) • ヒント:先の図では三次元の面のグラフを求めた • 答え: • (戦争の頻度)=β1×(民主主義の成熟度) • • • • +β2×(豊かさ)+α このように係数×変数を数式に入れるだけでよい。 3個以上の独立変数を入れることもできる あとは標準誤差もT値もP値もコンピュータが計算し てくれる ただし、ここでのβやT値はほかの変数が一定だった とき(コントロール済み)の値 民主主義が1上がるとβ1だけ戦争の頻度が変化し、 豊かさが1上がるとβ2だけ戦争の頻度が変化する 重回帰分析に必要なデータ 事例 国 1 2 3 4 5 6 A国ーB国 B国ーC国 C国ーA国 D国ーA国 D国ーB国 D国ーC国 民主主義 豊かさ 戦争の頻 の成熟度 度 10 3 2 0 8 5 0 10 3 5 3 2 5 1 4 0 10 5 数じゃない変数だったら? • 「アジアの国」や「独裁国家の国」といった数 字で表せない場合は・・・ • ダミー変数を作る(アジアの国=1、それ以外 の国=0) • 独立変数がダミー変数である場合は普通に 回帰分析を行うことができる。 • 係数はその条件を満たす場合とそうでない場 合の差を表している。 ダミー変数 事 国 例 1 2 3 4 5 6 A国ーB国 B国ーC国 C国ーA国 D国ーA国 D国ーB国 D国ーC国 民主主 豊かさ アジア 戦争の頻度 義の成 熟度 10 3 1 2 0 8 0 5 0 10 1 3 5 3 1 2 5 1 0 4 0 10 0 5 独立変数に条件がつく場合 • 例)アジアの国だけは民主主義の成熟度に比例し て戦争が起きる(という仮説) • アジアの国(1or0)というダミー変数がある。 • 民主主義の成熟度という変数もある。 • これをかけると・・・ アジアの国×民主主義の成熟度 という変数ができる(これを相互作用項:interaction termと呼ぶ)。この係数の有意性検定をすればよい。 • このとき、「アジアの国」という変数も、「民主主義の 成熟度」という変数もモデルに入れておくこと。 相互作用項 事国 例 1 2 3 4 5 6 A国ーB国 B国ーC国 C国ーA国 D国ーA国 D国ーB国 D国ーC国 民主主 豊か ア アジア 戦争 義の成 さ ジ ×民主 の頻 熟度 ア 主義 度 10 10 3 1 2 0 0 8 0 5 0 0 10 1 3 5 5 3 1 2 0 5 1 0 4 0 0 10 0 5 重回帰分析の結果 独立変数 • サンプルが少ないので • • まともな分析ではない が・・・ Nが小さいとPが十分小 さくならない。(なぜで しょう?) †P<0.1, *P<0.05, **P<0.01, ***P<0.001 係数(標準誤差) 切片 3.97* (0.52) 民主主義の成熟 度 -0.01 (0.10) 豊かさ 0.11 (0.05) アジア -2.14* (0.21) アジア×民主主 義 -0.00 (0.07) N 6 重回帰分析で気をつけなければなら ないこと • 変数が多くなると、コンピュータが係数やP値を推定 • • するのにたくさんのデータが必要になる。 30以上の独立変数を扱うためには1000や2000の データを集める必要がある。 独立変数同士が相関関係を持ってしまうと(豊かさ と民主主義の成熟度)どちらの効果かコンピュータ も判断できなくなる(多重共線性問題:マルチコ: Multicolinearity)→むやみに変数を入れない 従属変数が特殊なとき • 従属変数がダミー変数(戦争した/しない 等) – 最小二乗法では扱うことができない(条件が満た されない) – →ロジットモデル、プロビットモデルなどが使わ れる。直線の変わりにS字曲線が当てはめられる (係数は単純な読み方ができない) – でも表の見方は同じ。係数の正負と星の数。 • 時系列(や比較事例と時系列のミックス)を扱 う場合 – さまざまなモデルが用いられる(覚えなくてよい) では最初の表から何がわかるか? 計量分析の難点・問題点 • データを集めるのが大変(1000の事例をどう やって集めるか)。 – 時間で区切って毎年観察する。200カ国×10年 =2000 – インターネット上のデータセットを利用する COW、ICOW、Polity – データを生成してくれるソフトもある(EUGENE) – どうしてもデータがない場合「欠損値」が生じるが、 (アフガニスタンのGDPなど)これはソフトで補完 する 計量研究の難点・問題点2 • データ化する際に恣意的になりやすい(この 国の民主主義の成熟度は本当に「5」なの か?) – データを公開し多くの人に批評してもらう – PolityやCOWは、批判があるものの数十年間使 われ続けている。 計量研究の問題点3 • 統計モデルにどの変数を入れるかでP値が大 きく変わってくる。 – さまざまな妥当なモデルを作って、それでも有意 であることを示す必要がある。
© Copyright 2024 ExpyDoc