質的データの分析手法 ---プロビットモデル・ロジットモデルの概要--立教大学 経営学部 山口和範 内容 2値型の目的変数の分析 判別分析 ロジステック回帰モデル 多群の判別 ロジットモデル プロビットモデル 2 目的変数 「予測」をしたい変数 「結果」としてとらえる変数 「従属変数」ともいう 要因から影響されている変数 「目的変数」に影響を与える変数を 「説明変数」とか「独立変数」とよぶ 3 データ形式 回帰分析と同じデータ形式: 1つの目的変数 複数の説明変数 Y X1 ... Xp 1 y1 x11 xp1 2 y2 x12 xp2 yN x1N xpN ... N 目的変数 説明変数 4 (線形)判別分析とは 目的 ■説明変数から得られる情報を基に各観測個体がどのグループに属する かを予測(判別)する ■グループの判別に役に立つ変数がどれかを知る 注意:回帰分析のときと同様に要因分析としての使用については、十分な検討が必要。 出力とその検討事項 ■ 説明変数についての係数 • 線形判別を行うスコアを算出する際に各変数に与えられる重み • 他の変数の値が一定であるとして、その変数の値の大小が所属グループの違い に与える影響を知ることができる ■ 誤判別率 • 作成した判別ルールでまちがって判別してしまう割合。 • あくまで、判別ルールを作成したデータでの誤判別率であることに注意。 ■ 事後確率 • 各個体がどのグループに属するかを示す指標。確率的な取り扱いが可能。 関連手法・類似手法 ■ ■ ■ ■ 回帰分析 ロジステック回帰分析 決定木 ニューラルネットワーク 5 判別分析の仕組み(説明変数が1つの場合) 2つのグループを分けるように 説明変数のある値で区切る グループと考える グループと考える x 境界 事後確率の算出方法(ベイズの定理) Pr(X|●) Pr(●|X)= Pr(X|●)+Pr(X|▲) 分布の仮定として正規分布を用いている。正規分布の仮定が気になるようであれば ロジスティック回帰分析を用いる方がよい(さほど大差はないと思うが...)。 6 2群の散布図 7 線形判別分析の仕組み(説明変数が2つ) 2つのグループを分けるように 説明変数の平面(変数が2つなので) をある直線で区切る 事後確率の算出方法 多変量正規分布を仮定 して、事後確率を算出す る。 注意:ダミー変数を用い ているような場合には、 正規分布の仮定は適切 でないので、ロジスティッ ク回帰分析が用いられる ことが多い 説明変数の数が多い場合でも原理は同じ。説明変数 が構成する空間を(超)平面で区切るだけである 8 線形判別関数 zi 1x1i 2 x2i p x pi 係数は観測されている2群のデータを 最もよく判別するように決める 「最もよく判別する」の意味 平方和でいえば、 群間平方和を大きく 群内平方和を小さく 9 3つの平方和(回帰の場合) 総平方和 回帰による平方和 残差平方和 ST ( yi y)2 SR ( yˆi y)2 SE ( yi yˆi )2 10 3つの平方和(回帰の場合) ・・・ Yの変動(モデルなし) 総平方和 回帰による平方和 残差平方和 ・・・ モデルをあてはめた 後の変動 11 3つの平方和(判別の場合) 総平方和 2 nk ST ( zi (k ) z )2 k 1 i 1 群間平方和 2 nk 2 S B ( z ( k ) z ) 2 nk ( z ( k ) z ) 2 群内平方和 k 1 i 1 2 nk SW ( zi k 1 (k ) z (k ) 2 ) k 1 i 1 12 3つの平方和(判別の場合) 第 k 群のi番目のZ 総平方和 2 nk ST ( zi 群間平方和 z )2 (k ) k 1 i 1 全体での平均 2 nk 2 S B ( z ( k ) z ) 2 nk ( z ( k ) z ) 2 群内平方和 k 1 i 1 2 nk SW ( zi k 1 (k ) z (k ) )2 第 k 群の個体数 k 1 i 1 第 k 群の平均 13 3つの平方和の関係 回帰の場合 判別の場合 総平方和=回帰による平方和 + 残差平方和 総平方和 =群間平方和 + 群内平方和 ST SB SW 相関比(回帰分析の決定係数と同じようなもの) 2 S B / ST 1 SW / ST この値が1に近いほど、よりはっきりと分かれていることを示す 14 線形判別 Z 15 境界の設定 2群の平均値の中間点 誤判別の個数を最小にする点 事前確率の導入(各群の大きさを考慮) 16 誤判別率の解釈 あくまで現データにおける誤判別の割合 実際の判別における誤判別率ではない もっと悪いであろう 実際の誤判別率を推定するためには、 別の標本を用意する 17 線形判別における前提 2群の共分散行列が同じである 散らばりの大きさや相関が2群でおなじ 正規分布 18 共分散行列が異質の場合 線形判別関数は適切でない 2次判別関数を利用 共分散を考慮した中心(平均)からの距離が近い群 に判別する マハラノビス距離 19 2変量正規分布の等高線 20 マハラノビス距離 同じ等高線上では同じ距離 確率の意味での距離 21 線形判別の意味 22 2次判別の意味 23 ロジスティック回帰分析 目的は判別分析とほぼ同じ 正応答確率などを積極的に推定したい場合など に便利(確率の算出において、説明変数の分布 の仮定が不必要) 正応答確率の対数オッズ比に対する線形モデル 24 ロジスティック回帰分析 p(Y 1) exp( 0 1 x1 p x p ) 1 exp( 0 1 x1 p x p ) p(Y 1) log 0 1 x1 p x p 1 p(Y 1) 回帰係数の推定には、最尤推定法(MLE)が用いられる 25 確率から対数オッズへ 名称 記号 範囲 確率 p [0 , 1] オッズ p/(1-p) [0 , ∞] (オッズ比) 対数オッズ [0 , ∞] log{p/(1-p)} [-∞ , ∞] 26 オッズとは? Odds p 1 p 例:イギリスのBookmaker Japan to win 2006 World Cup : 150 to 1 :雨が降るか? even ( 1 to 1 ) [五分五分] 27 ロジスティック回帰分析 モデルの適合度の比較 尤度比検定 回帰係数の検定やチェック Wald 検定 ( t 検定と同じようなもの) • 漸近的な性質を利用 オッズ比に直して解釈することもある(exp()) 28 分析の前に 回帰分析の前には散布図などで、連関の様子を 見た 判別分析やロジスティック回帰分析の場合は、 層別グラフによるチェックが有効! グループ別の分布をチェックしておこう 29 多グループの判別 正準判別分析(正準相関分析) 目的変数が複数ある回帰分析 多項ロジット(プロビット)モデル 30 ブランド選択モデル:効用最大化原理 C 個の選択肢 Uc :ブランド c の効用 X :選択されるブランド X c U c U c' (c c' ) 31 ブランド選択モデル X c U c U c' (c c' ) の下で、Pr ( X = c) をモデル化したい 顕在変数 X 潜在変数 U 32 効用のモデル U c Vc ec 確定的な 部分 確率的な 部分 • Vc だけで選択が確定するのではない • 確率変数ecの分布により確率 Pr(X = c) が決まる 33 プロビットモデル ecの分布に正規分布を仮定 U c Vc ec C=2の場合 U1 ~ N (V1 , 2 ) U 2 ~ N (V2 , 2 ) U1 U 2 ~ N (V1 V2 ,2 2 ) 0 V1-V2 34 一般の場合の確率の計算 C 個のブランドの中からブランド j が選ばれる C-1個の確率変数について Z c U j U c (c j ) Z c ~ N (V j Vc ,2 2 ) Zc>0となる確率を求める (Orthant Probability) 35 プロビットモデル 潜在変数(効用)の分布として、正規分布を仮定 推定のための計算が面倒(多重積分の計算が 含まれる) C-1次の多重積分 36 ロジットモデル ecの分布に標準Gumbel分布を仮定 U c Vc ec 標準Gumbel分布 確率密度関数: x e x f ( x) e e Pr(X c) exp(Vc ) C exp(V ) j 1 j 37 C=2だと、 exp(V1 ) Pr(X 1) p1 exp(V1 ) exp(V2 ) p2 1 p1 対数オッズ比 p1 log V1 V2 1 p1 ロジスティック回帰モデルと同じモデル 38 ロジットモデル 共変量 Z Uc (Z ) Vc (Z ) ec Pr(X c | Z ) exp(Vc ( Z )) C exp(V (Z )) j 1 j Vc (Z ) c 1Zc1 p Zcp 39 分析事例(古川他(2003)より引用) 6種類のオレンジジュース • • • • • • 地域ブランド シトラス・ヒルズ ミニッツ・メイド プライベートブランド トロピカーナ・レギュラー トロピカーナ・プレミアム 説明変数 • ブランドロイヤルティ、新聞広告、 • 通常価格、値引き 40 分析モデルと推定結果 時点tでの、消費者nのブランドjに対する効用 (t ) nj V j L T 係数 t値 (t ) 1 nj 3.7059 27.7376 (t ) 2 nj 0.7196 5.7751 P 4 D (t ) 3 nj -2.5912 -8.3200 (t ) nj 2.0623 6.6340 ブランド力 係数 t値 地域ブランド 0に固定 シトラス・ヒルズ 0.8499 6.1641 ミニッツ・メイド 0.9254 5.3610 プライベートブランド -0.1171 -0.5294 トロピカーナ・レギュラー 0.3255 2.0835 トロピカーナ・プレミアム 0.9656 3.8201 41 モデルの評価、説明変数の選択 回帰モデルとほぼ同じ 決定係数 調整済み決定係数 AICなどの情報量規準 判別分析とみなしての誤判別率 42
© Copyright 2024 ExpyDoc