1 対数線形モデルによる 分割表データの分析 行動計量学研究分野B4 町田 透 [email protected] 2 Agenda • χ2検定の限界 • 対数線形モデルの導入 – p×q 分割表の分析 (10/16) – 多次元分割表への拡張 (10/23) • シンプソンのパラドックス • SASによる分析例 – PROC CATMOD 3 2 1.χ 検定とその限界について - Chi-square test for Contingency tables • χ2検定の復習 – χ2検定とは – p×q 分割表による具体例 • χ2検定の限界 4 Q. 「χ2検定」って何ですか? A. カテゴリカルな変数間の関連の有無を検討 するための手法(心理学者) – 「性別」と「色の好み」との関連etc – 分割表の分析手法としては“定番” – FREQプロシージャ & CHISQオプション(SAS) A. χ2統計量を検定統計量として用いる検定の 一般的な呼称(統計学者) 5 p×q 分割表による具体例 • 就職への関心についての調査(大学生) – 性格の自己評価×就職への関心 – χ2 = 6.37, df = 2, p < .05 ⇒(5%水準で)関連あり 就職への関心 合計 強い 一応 あまりない 外向的 31 35 7 73 内向的 合計 19 42 15 76 50 77 22 149 性格 6 χ2検定は有意だが・・・ • χ2検定で有意⇒変数間は独立ではない • p×q 分割表 – どのセルが有意性に“貢献”したのか不明 • 残差分析により対処可能 • 多次元分割表(3変数以上) – どの変数間に関連があるのか不明 • H0:「3変数A,B,Cはすべて互いに独立」 ⇒ “H1 : H0 is NOT true.” では情報として不十分 7 χ2検定の限界 • χ2検定は “overall” な検定 – 得られる情報は分割表の全体的な傾向のみ • セルや変数の増加に伴い無力化 where? A where? where? B related? C 8 χ2検定のモデルを再考 • χ2検定⇒“積”のモデルを仮定 for all i and j vs. H1 : pij pi p j for som ei and j H 0 : pij pi p j • 独立からの“偏り”をモデル化 H1 : pij pi p j H1 : pij pi p j qij A,Bが独立でない ことによって 生じる効果 9 We developed another model. • 対数をとると“積”が“和”になり,分散分析 と類似したアプローチが可能に ⇒“対数”線形モデル!! pij pi p j qij log pij log pi log p j log qij i, j セルへの効果 変数 Aの効果 変数 Bの効果 10 2.対数線形モデルの紹介 - Log-Linear Models for Contingency tables • 2変数-対数線形モデルの導入 • p×q 分割表の再分析 • SASによる分析例―PROC CATMOD 11 2次元分割表の 一般形 1 mij npij A • 期待度数 mij を Fij と表す こともある 1 A B j q B j q 合 計 1 n11 n1 j n1q n1 i ni1 nij niq ni p 合 計 合 計 n p1 n pj n pq n1 n j nq n p N n B j q 合 計 1 1 m11 m1 j m1q m1 1 p11 p1 j p1q p1 i mi1 mij miq mi i pi1 pij piq pi p pq pq p p p 1 p 合 計 m p1 m pj m pq m1 m j mq m p m np A p 合 計 p p1 p1 p pj p j 12 対数線形モデルとは • 各セル度数の“対数値”がいくつかの要因 効果に分解されると仮定したモデル – モデル式は分散分析と“酷似” – 質的データの分散分析 – カテゴリカルデータの分析には“必須” ※文献によっては,各セルの“確率”の対数値に 線形モデルを当てはめていることもある • (大局的には)アプローチによる差はない 13 2変数-対数線形モデルの導入 • 2変数の独立性を仮定したモデル logmij i j pij pi p j mij npij i, j セルの期待度数(理論値) 全平均効果 Aの第 i カテゴリの「主効果」 i Bの第 j カテゴリの「主効果」 j 14 独立でない場合のモデル log mij i j ij p ij pi p j qij (i, j) セルの 組み合わせ による効果 i, j セルにおけるAとBの「交互作用」 ij • 2次元分割表で考えられる全ての効果を含む ⇒(2変数の)「飽和モデル」(saturated model) 15 「主効果」を“直感的に”理解 nij 「就職への関心」の主効果 100 80 60 40 20 0 強い 一応 あまりない • Aの主効果が存在 ⇒Aのカテゴリによって セル度数が異なる • Bは考慮に入れない (Aのみで集計) 16 「主効果」をより正確に理解 「就職への関心」の主効果 5 4 3 2 1 p q log nij pq i 1 j 1 1 0 強い 一応 あまりない • Aの主効果が存在 ⇒Aのカテゴリによって 対数セル度数の平均 が異なる – Bのカテゴリは考慮に 入れない 1 q i log mij q j 1 1 p j log mij p i 1 17 「交互作用」を“直感的に”理解 nij 「性格」と「就職への関心」の 交互作用 50 40 30 20 10 0 強い 一応 外向的 あまりない 内向的 • 交互作用A×Bが存在 ⇒Bのカテゴリによって, Aの主効果が異なる ⇒Aのカテゴリによって, Bの主効果が異なる 18 lognij 「交互作用」をより正確に理解 「性格」と「就職への関心」の 交互作用 5 4 3 2 • 交互作用A×Bが存在 ⇒Bのカテゴリによって,A のカテゴリ間における 対数セル度数の変動 の様子が異なる – LLMでは対数セル度数 のプロットが有効 1 0 強い 一応 外向的 あまりない 内向的 ij logmij i j 19 LLMにおける「交互作用」の意味 • 交互作用A×Bが存在 – AのカテゴリによってBの効果が異なる – 「性格」によって「就職への関心」が異なる • AとBの間に関連性が存在 – Aのカテゴリを知ることで,Bの度数の変動が説明可能 – 「性格」についての“情報”が,「就職への関心」を知る ための“手がかり”となる 20 関西出身・・・ たこ焼き器あ り!! 関西出身・・・? たこ焼き器あり ・・・?? たこ焼き器 居住 地域 あり なし 関西 20 0 関西以外 0 20 A,Bの関連が(極端に)強い場合 たこ焼き器 居住 地域 あり なし 関西 10 10 関西以外 10 10 A,Bが完全に独立の場合 21 DATA loglin2; SASプログラム 2-1 DO person = 1 TO 2; DO concern = 1 TO 3; (DATAステップ) INPUT num @@; OUTPUT; END; END; /* DOとENDの個数は必ず同じ */ CARDS; 31 35 7 person = 1は(性格が)外向的,2は内向的 19 42 15 concern = 1は(就職への関心が)強い, ; 2は一応,3はあまりない RUN; (Continued on PROC step) 22 度数ゼロのセルを含む場合 • log 0 ⇒明らかにまずい • ゼロに近い正の数に置き換える … INPUT num @@; IF num = 0 THEN num = 0.5; /* num = 0 のときは 0.5 に置き換える */ OUTPUT; … • (可能な限りは)サンプル数の増加が無難 (Continued from DATA step) PROC PRINT DATA = loglin2; RUN; /* 変数の割り当てをCheck */ 23 SASプログラム 2-1 (PROCステップ) PROC CATMOD DATA = loglin2; WEIGHT num; /* numが度数であることを明示 */ MODEL person * concern = _RESPONSE_; /* _RESPONSE_により対数線形モデルを指定 */ LOGLIN person | concern; /* モデルに投入する要因効果を指定 */ /* A | B = A B A*B */ RUN; 24 各変数の主効果・交互作用について有意性を検討 MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------PERSON 1 0.60 0.4398 CONCERN 2 27.77 0.0000 PERSON*CONCERN 2 6.18 0.0455 LIKELIHOOD RATIO 0 . . 飽和モデル(すべての変数を含めたモデル)では, LIKELIHOOD RATIOは無視してよい 25 「飽和モデル」以外のモデルとは? • 交互作用や主効果を“0”とおいたもの – 「飽和モデル」に対し,「不飽和モデル」という log mij i j ij log mij i j log mij i log mij j log mij i 1,, p ; j 1,, q ij 0 j 0, ij 0 i 0, ij 0 i 0, j 0, ij 0 26 モデルのルール • 階層の原則 (Hierarchy Principal) – モデルが高次の交互作用を含むときは,その なかの変数による低次の効果も“必ず”含む – ij を含める ⇒ i , j も“必ず”含める log mij i ij j がない! log mij j ij i がない! 27 不飽和モデルの検討方法 Source DF Chi-Square Prob -------------------------------------------------LIKELIHOOD RATIO 2 6.46 0.0395 • 尤度比カイ2乗統計量G2 は 小さいほど良い – モデルの当てはまりの“悪さ” 2変数間に 独立性を仮定 ⇔ p が大きいほど良い – モデルが正しいときに,観測されたデータが発 生する可能性(0.10以上が望ましい) 28 不飽和モデルの適合度 モデル [PC] [P][C] [P] [C] df - 2 4 3 G2 - 6.46 38.83 6.52 p - 0.0395 < 0.0001 0.0888 • 「階層の原則」に従い,高次の項から順に 0 とおいてみる – 不飽和モデルはどれも適合が悪い 29 出力結果の続き(飽和モデル) ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard ChiEffect Parameter Estimate Error Square Prob ---------------------------------------------------------------PERSON 1 -0.0758 0.0981 0.60 0.4398 CONCERN 2 0.1350 0.1293 1.09 0.2964 3 0.5923 0.1183 25.06 0.0000 PERSON*CONCERN 4 0.3206 0.1293 6.15 0.0131 5 -0.0153 0.1183 0.02 0.8968 • パラメータの推定値と標準誤差,χ2値と p値が出力 – χ2値は標準効果(=推定値/標準誤差)を2乗したもの – 出力結果は不十分 ⇒ 残りのパラメータは? 30 Birchの制約式(2変数) • 各効果におけるパラメー タの総和は“0” 0 – CATMODプロシージャ では,パラメータは辞書 順に出力 0 0 0 • 番号の小さい順 • アルファベット順 – 最後の項は出力されない p q i 1i k 1 k 0 p q ij j 1 ij 0 i 1 df A:性格 推定値 標準誤差 1 -0.076 α2 0.076 0.098 2 0.60 27.77*** • 残りのパラメータは β1 0.135 0.129 1.09 β2 0.592 0.118 25.06*** β3 -0.727 A×B 2 31 分析結果 (まとめ) 0.60 α1 B:関心 χ2値 6.18* (αβ)11 0.321 0.129 6.15* (αβ)12 -0.015 0.118 0.02 (αβ)13 -0.306 (αβ)21 -0.321 (αβ)22 0.015 (αβ)23 0.306 3 1 2 3 1 2 13 11 12 のようにして求める * p .05 * * * p .001 就職への関心 性格 合計 • ( • 合計 強い(1) 一応(2) あまりない (3) 外向的 (1) 31 (0.321*) 35 (-0.015) 7 (-0.306†) 73 (-0.076) 内向的 (2) 19 (-0.321*) 42 (0.015) 15 (0.306†) 76 (0.076) 50 (0.135) 77 (0.592***) 22 (-0.727***) 149 †p .10, * p .05, *** p .001 )内はパラメータの推定値 部分のセルは未検定(=n.s.とは限らない) – (SASでは)変数を辞書順に読み込むため – Birchの制約式 or 数値の割り当て方を変更し再び“RUN” (例)① 外向的→2,内向的→1,② 強い→3,あまりない→1, ③ ①+② 33 主効果の推定値の解釈 • 一様性からのセル度数の偏りを反映 – 属性間や条件間の度数の違いを表す +⇒more frequency -⇒less frequency 実際のセル度数 主効果の推定値 0.8 80 0.6 0.4 60 0.2 0 -0.2 -0.4 -0.6 -0.8 40 強い 一応 あまりない 20 0 強い 一応 あまりない 34 交互作用の推定値の解釈 • 独立モデルからのセル度数の偏りを反映 – 実際のセル度数の大小を表すとは限らない +⇒positive association -⇒negative association 交互作用の推定値 実際のセル度数 独立のもとでの期待度数 0.4 0.3 0.2 0.1 0 -0.1 強い 一応 あまりない -0.2 50 50 40 40 30 30 20 20 -0.3 10 -0.4 0 外向的 内向的 外向的 内向的 強い 一応 あまりない 10 0 外向的 内向的 強い 一応 あまりない 35 カテゴリ別にセル度数を比較 就職への関心 (αβ)ijの推定値 性格 強い 一応 あまりない 外向的 0.321* -0.015 -0.306† 内向的 -0.321* 0.015 0.306† 就職への関心(外向的) 就職への関心(内向的) 50 50 40 40 30 30 20 20 10 10 0 0 強い 一応 あまりない 実際のセル度数 独立のもとでの期待度数 強い 一応 あまりない 実際のセル度数 独立のもとでの期待度数 36 How to Interpret • 飽和モデル採用の場合 – 2変数間に関連あり ⇒ 交互作用を解釈 – 主効果の解釈にはあまり関心がない • 属性間・条件間の度数の違いを表すのみ – パラメータの有意性と符号をCheck • 不飽和モデル採用の場合 – 採用したモデルを解釈 37 【参考】 実際のセル度数の比較 Case① 複数標本×複数カテゴリの回答 – 各標本について一様性の検定 ⇒ 1変数LLM • ANOVAでの「単純主効果の分散分析」に対応 • ただし標本間における度数の比較は無意味 Case② それ以外の場合 – 比較への興味・比較を行う意味による • χ2検定,LLM ⇒ 変数間の関連に主眼 • 特定の行(列)に着目する意味を考慮 38 2変数LLMのまとめ • p×q 分割表にLLMを用いるメリット – 独立からの“偏り”をモデリング ⇒独立性から関連性に導いたセルを同定可能 • 「χ2検定+残差分析」とほぼ同様の分析結果 – 独立性以外のさまざまなモデルを検証可能 • SAS vs. SPSS – 対数線形モデル ⇒ SAS – χ2検定+残差分析 ⇒ SPSS 39 FAQ about LLM > χ2検定で,残差分析をして,「どこが有意であることに > 貢献したか?」ということをみるという手法の弱点は, > どのようなものなのでしょうか? 「χ2検定 ⇒ 残差分析」という流れには, 特に問題はないと思います. ただ,対数線形モデルを用いると,2次元分割表で セルの数が増えたとき(2×3以上の場合)だけでなく, 変数の数が増えたとき(3変数以上の場合)にも 柔軟に対応できる,というのが強みですね. 40 3.多次元分割表への拡張 - The analysis of Multidimensional tables • シンプソンのパラドックス • 3変数-対数線形モデルの導入 • 3次元分割表の分析 41 教科書的な例 平成14年度大学院入試問題から • 携帯電話の有無×男女別姓への意見 – χ2 = 53.02, df = 1, p < .001 ⇒ 高度に有意 – 携帯電話をもつと男女別姓に賛成? 携帯電話 合計 あり なし 男女別姓 賛成 反対 82 28 28 82 110 110 合計 110 110 220 42 Not so !! • 年齢により層別し再分析 – χ2検定はどちらも非有意 – That’s strange !! 若年層 中高年層 男女別姓 携帯 電話 合計 賛成 反対 あり 80 20 100 なし 8 2 10 88 22 110 合計 男女別姓 χ2 = 0.00, df = 1, p = 1.00 携帯 電話 合計 賛成 反対 あり 2 8 10 なし 20 80 100 22 88 110 合計 χ2 = 0.00, df = 1, p = 1.00 43 C=1 A 1 2 B 1 80 8 2 20 2 合計 ・・・??? 100 10 88 22 110 合計 ⇒AとBは“関連なし” C = 1, 2 A C=2 A 1 2 B 1 2 20 2 8 80 合計 10 100 22 88 110 合計 ⇒AとBは“関連なし” 1 2 B 1 82 2 28 28 110 82 110 合計 ⇒AとBは“関連あり” 合計 110 110 220 若年層 44 Graphical Display 100 80 60 40 携帯あり 20 0 若年層+中高年層 携帯なし 別姓賛成 別姓反対 100 中高年層 80 60 40 100 20 80 0 60 40 携帯あり 20 0 携帯なし 別姓賛成 別姓反対 携帯あり 携帯なし 別姓賛成 別姓反対 45 正しい解釈 ①年齢による意見の違い – 若年層は男女別姓に肯定的 ⇒ 80%が賛成 – 中高年層は否定的 ⇒ 80%が反対 ②年齢による携帯所有率の違い – 若年層は携帯所有率が高い ⇒ 約91% が所有 – 中高年層は低い ⇒ 約91%が所有せず 「携帯あり(なし)⇒別姓賛成(反対)」 という傾向は,「年齢層」という第三変数によって 見かけ上表れたものに過ぎない!! 46 Simpson’s Paradox • 多次元分割表で,変数をむやみに“つぶ す” (collapse)のは危険!! – 層別にみると“関連なし”⇔全体では“関連あ り” – 層別にみると“関連あり”⇔全体では“関連な し” ・・・??? • 多次元分割表は,あくまで多次元のままで 分析するのが基本!! ⇒対数線形モデルによるアプローチが有効 47 従来の対処方法 どちらも第三変数の関わりを検証できない • 「χ2検定+残差分析」 の繰り返し • p×q×r 分割表 ⇒ pq×r 分割表 – C1とC2で結果を比較 C=2 C=1 B1 B2 A1 + - A2 - + C=2 B1 B2 A1 - + A2 + - B1 B2 C = 1 A1B1 A1 A2 ○ ● B2 ▲ ■△ ★ □ ☆ A2 A1B1 A1B2 A2B1 A2B2 C1 ○ △ □ ☆ C2 ● ▲ ■ ★ 48 調査データの分析例 大学生の時間的展望 • 目標があれば未来は明るいか? – 将来の見通し×未来イメージ(SD法) – 将来目標への欲求の強さを考慮 将来目標 への欲求 強い 弱い 合計 未来イメージ 将来の 見通し 明るい 暗い あり 146 42 188 なし 34 11 45 あり 34 40 74 なし 56 64 120 270 157 427 合計 49 目標への 欲求(強群) 未来イメージ 合計 明るい 暗い 将来の あり 見通し なし 146 42 188 34 11 45 合計 180 53 233 ⇒χ2 = 0.09, df = 1, p = 0.76 目標への 欲求(弱群) 未来イメージ Simpson’s Paradox !! 目標への欲求 未来イメージ (強群+弱群) 明るい 暗い 将来の 見通し 合計 明るい 暗い 将来の あり 見通し なし 34 40 74 56 64 120 合計 90 104 194 ⇒χ2 = 0.01, df = 1, p = 0.92 合計 合計 あり 180 82 262 なし 90 75 165 270 127 427 ⇒χ2 = 8.73, df = 1, p < .01 50 3変数-対数線形モデルの導入 • 3変数の飽和モデル logmijk i j k 期待 度数 全平均 効果 (i, j, k) セルの 組み合わせ による効果 主効果 ij jk ik ijk 1次交互作用 ijk i, j, k セルにおける A, B, C の「 2次交互作用」 51 「2次交互作用」とは • (1次)交互作用 – Bのカテゴリによって,Aの主効果が異なる • 一方のカテゴリによる他方の主効果の違い • 2次交互作用⇒“違い方の違い” – Cのカテゴリによって,交互作用A×Bの効果 が異なる • ある変数のカテゴリによる,他の2変数からなる交 互作用の様相の違い – 対数セル度数 lognijk が対象 52 セル度数 nijk のプロット 目標への欲求(弱群) 目標への欲求(強群) 150 150 100 100 50 50 0 0 明るい 暗い 未来イメージ 見通しあり 見通しなし 明るい 暗い 未来イメージ 見通しあり 見通しなし 53 対数セル度数 lognijk のプロット • a c b d に着目⇒層別に比較 – 2次交互作用はなさそう? 目標への欲求(強群) 6 4 2 目標への欲求(弱群) 6 a c b d 4 2 d’ b’ c’ a’ a c b d a c b d 0 0 明るい 暗い 未来イメージ 見通しあり 見通しなし 明るい 暗い 未来イメージ 見通しあり 見通しなし 54 DATA future; SASプログラム 3-1 DO want = 1 TO 2; (DATAステップ) DO aim = 1 TO 2; DO image = 1 TO 2; INPUT num @@; OUTPUT; END; END; END; CARDS; 146 42 34 11 want = 1は将来目標への欲求が強い,2は弱い 34 40 56 64 aim = 1は将来の見通しあり,2はなし ; image = 1は未来イメージが明るい,2は暗い RUN; (Continued on PROC step) 55 (Continued from DATA step) SASプログラム 3-1 (PROCステップ) PROC CATMOD DATA = future; WEIGHT num; /* numが度数であることを明示 */ MODEL want * aim * image = _RESPONSE_; LOGLIN want | aim | image; /* A | B | C = {A | B} | C =A B A*B C A*C B*C A*B*C */ RUN; 56 要因効果の検討(飽和モデル) MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------WANT 1 2.38 0.1229 AIM 1 13.99 0.0002 WANT*AIM 1 59.38 0.0000 IMAGE 1 18.08 0.0000 WANT*IMAGE 1 29.86 0.0000 AIM*IMAGE 1 0.03 0.8563 WANT*AIM*IMAGE 1 0.09 0.7644 LIKELIHOOD RATIO 0 . . 57 よいモデルの条件 ①G2が十分小さい⇔ p > .10 ②パラメータが少ない⇔自由度が大きい – 簡単なモデルにより記述可能 ⇒より複雑なモデルを採用する必要はない – “Principal of Parsimony” • ①+②を吟味⇒“AIC”によるモデル評価 58 情報量規準AICの利用 AIC G 2df 2 • モデルのよさの相対的な判断基準 – AICは小さいほどよい – AICの値に絶対的な基準はない • 2つを比較してはじめて意味をもつ • よいモデルの条件⇒AICが小さい(①+②) – パラメータの追加による“ペナルティ”を付加 DF Chi–Sq. Prob(LRのみ) モデル WANT AIM IMAGE W×A A×I W×I W×A×I 探索的にモデルを選択 [WAI] [WA][AI][WI] 1 1 1 1 2.38 13.99*** 18.08*** 59.38*** 1 1 1 1 2.64 16.85*** 24.46*** 66.52*** 1 1 1 0.03 29.86*** 0.09 1 1 0.01 33.36*** 0 Likelihood Ratio - AIC - 1 0.09 0.7651 -1.91↓ 59 [WA][WI] 1 1 1 1 2.76† 18.13*** 25.74*** 74.11*** 2 0 41.40*** 0 2 0.10 0.9513 -3.90↓ 60 モデル評価のまとめ モデル [WAI] [WA][AI][WI] [WA][WI] df - 1 2 G2 - 0.09 0.10 p - 0.77 0.95 AIC - -1.91 -3.90 • [WA][AI][WI] vs. [WA][WI] – どちらも適合は十分によい (see p-value) – AICによると[WA][WI]の方がベター 61 The final model 将来の 見通し ? 未来 イメージ • 将来の見通しの有無と 未来イメージは無関係 – 第三変数の影響による 見かけ上の関連 将来の 見通し • 目標・計画をもちたいと いう欲求 未来 イメージ 目標への 欲求 – 条件つき独立モデル G 0.10, df 2, p 0.95 2 RESPONSE PROFILES Response WANT AIM IMAGE -------------------------1 1 1 1 2 1 1 2 3 1 2 1 4 1 2 2 5 2 1 1 出力結果 ([WA][WI]) 62 Response WANT AIM IMAGE -------------------------6 2 1 2 7 2 2 1 8 2 2 2 ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard ChiEffect Parameter Estimate Error Square Prob ---------------------------------------------------------------WANT 1 -0.0989 0.0596 2.76 0.0967 AIM 2 0.2366 0.0556 18.13 0.0000 WANT*AIM 3 0.4783 0.0556 74.11 0.0000 IMAGE 4 0.2695 0.0531 25.74 0.0000 WANT*IMAGE 5 0.3418 0.0531 41.40 0.0000 A 0 C 0 0 C 0 A A B 0 0 C 0 ※2変数の場合 と同様,パラ メー タの最後の項は B p q r 出力されない i 1 i j 1 k 1 k 0 0 Birchの制約式 (3変数) B 0 j p q j 1 ij ij i 1 r k 1 ij 0 q p j 1 jk i 1 jk r k 1 jk 0 p q i 1 j 1 ik ik r 0 ik p k 1 q i 1 ijk j 1 ijk r 0 k 1 ijk RESPONSE PROFILES Response WANT AIM IMAGE -------------------------1 1 1 1 2 1 1 2 3 1 2 1 4 1 2 2 … … … … • PRED = FREQ オプション 64 – MODELステートメントで指定 – 観測度数,期待度数,残差を算出 • モデルの当てはまりをCheck – Function NumberはResponseに対応 MAXIMUM-LIKELIHOOD PREDICTED VALUES FOR RESPONSE FUNCTIONS AND FREQUENCIES -------Observed------- -------Predicted-----Function Standard Standard Sample Number Function Error Function Error Residual -------------------------------------------------------------------------F1 146 9.80202149 145.236051 9.45813167 0.76394854 F2 42 6.15376734 42.7639485 5.6657935 -0.7639485 F3 34 5.59399142 34.7639485 5.05506267 -0.7639485 F4 11 3.27362607 10.2360515 1.90007772 0.7639485 F5 34 5.59399142 34.3298969 4.49294853 -0.3298969 F6 40 6.02104039 39.6701031 4.95996877 0.32989689 F7 56 6.97536649 55.6701031 6.08508417 0.3298969 F8 64 7.37614358 64.3298969 6.57676534 -0.3298969 65 実験データの分析例 • 街頭募金活動への参加意志を調査 – 災害のVTRは募金活動への参加を促すか? 募金活動への参加意志 性別 男性 女性 不参加 一時的 参加 全面的 参加 合計 VTR視聴群 16 21 9 46 統制群 31 11 4 46 VTR視聴群 7 32 12 51 統制群 29 16 3 48 83 80 28 191 VTRの有無 合計 66 セル度数 nijk のプロット VTR×参加意志(男性) VTR×参加意志(女性) 40 40 30 30 20 20 10 10 0 0 不参加 一時的参加 全面的参加 VTR視聴群 統制群 不参加 一時的参加 全面的参加 VTR視聴群 統制群 67 対数セル度数 lognijk のプロット • 2次交互作用の存在は微妙? VTR×参加意志(女性) VTR×参加意志(男性) 4 4 3 3 2 2 1 1 0 0 不参加 一時的参加 全面的参加 VTR視聴群 統制群 不参加 一時的参加 全面的参加 VTR視聴群 統制群 68 DATA fund; DO vtr = “y”, “n”; SASプログラム DO gender = “m”, “f”; (DATAステップ DO concern = 1 TO 3; & PROCステッ INPUT num @@; プ) OUTPUT; END; END; END; CARDS; vtr = y はVTR視聴群,n は統制群 16 21 9 gender = m は男性,f は女性 7 32 12 concern = 1 は不参加,2 は一時的参加, 31 11 4 3 は全面的参加 29 16 3 ; PROC CATMOD DATA = fund; RUN; WEIGHT num; MODEL vtr * gender * concern = _RESPONSE_; LOGLIN vtr | gender | concern; RUN; 69 要因効果の検討(飽和モデル) MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------VTR 1 1.65 0.1990 GENDER 1 0.01 0.9314 VTR*GENDER 1 0.01 0.9029 CONCERN 2 21.88 0.0000 VTR*CONCERN 2 29.78 0.0000 GENDER*CONCERN 2 5.66 0.0591 VTR*GENDER*CONCERN 2 2.19 0.3350 LIKELIHOOD RATIO 0 . . 70 探索的にモデルを選択(1/2) モデル VTR GENDER CONCERN [VGC] 1 1.65 1 0.01 2 21.28*** V×G G×C V×C 1 2 2 0.01 5.66† 29.78*** V×G×C 2 2.19 Likelihood Ratio - AIC - [VG][GC][VC] 1 2.24 1 0.42 2 22.45*** 1 2 2 0.42 4.84† 29.75*** 0 2 2.24 0.3269 -1.76 DF Chi–Sq. Prob(LRのみ) p > .10 †p < .10 *p < .05 **p < .01 ***p<.001 71 探索的にモデルを選択(2/2) モデル VTR GENDER CONCERN V×G G×C V×C V×G×C Likelihood Ratio AIC [VC][GC] 1 1 2 2.16 0.32 22.58*** 0 2 2 4.51 29.67*** 0 3 2.66 0.4467 -3.34↓ [VC][G] 1 1 2 2 5 2.16 0.26 23.25*** 0 0 29.67*** 0 7.23 0.2039 -2.77↑ [VC] 1 2.16 2 0 23.25*** 0 2 0 29.67*** 0 6 7.49 0.2780 -4.51↓ 72 モデル評価のまとめ モデル [VGC] [VG][GC][VC] [VC][GC] [VC][G] [VC] df G2 p AIC - 2 3 - 2.24 2.66 - 0.33 0.45 - -1.76 -3.34 5 6 7.23 7.49 0.20 0.28 -2.77 -4.51 • どのモデルも適合はよい (see p-value) • AICによると[VC]がベスト • Genderと関連する交互作用なし ⇒Genderの層を“つぶして”考察してよい VTR×参加意志(男性) 73 4 3 性別の層を合併 2 1 VTR×参加意志(性別の層を合併) 5 0 不参加 一時的参加 全面的参加 VTR視聴群 4 統制群 3 VTR×参加意志(女性) 4 2 1 3 0 不参加 2 一時的参加 全面的参加 VTR視聴群 1 0 不参加 一時的参加 全面的参加 VTR視聴群 統制群 統制群 RESPONSE PROFILES Response VTR GENDER CONCERN -----------------------------1 n f 1 2 n f 2 3 n f 3 4 n m 1 5 n m 2 6 n m 3 出力結果([VC]) 74 Response VTR GENDER CONCERN -----------------------------7 y f 1 8 y f 2 9 y f 3 10 y m 1 11 y m 2 12 y m 3 ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard ChiEffect Parameter Estimate Error Square Prob ---------------------------------------------------------------VTR 1 -0.1357 0.0923 2.16 0.1414 CONCERN 2 0.3672 0.1163 9.97 0.0016 3 0.3853 0.1148 11.27 0.0008 VTR*CONCERN 4 0.6151 0.1163 27.97 0.0000 5 -0.2015 0.1148 3.08 0.0791 募金活動への参加意志 一時的 参加(2) 全面的 参加(3) 合計 23 VTR視聴群(y) (0.6151***) 53 (0.2015†) 21 (0.4136**) 97 (-0.1357) 60 (0.6151***) 27 (-0.2015†) 7 (-0.4136**) 94 (0.1357) 不参加(1) VTR 統制群(n) 合計 • 28 83 80 191 ((0.3672**) †(0.3853***) p .10, ** p0.7525***) .01, *** p .001 部分のセルは未検定(= n.s.とは限らない) – (SASでは)文字型変数をアルファベット順に読み込むため – Birchの制約式 or 記号の割り当て方を変更し再び“RUN” (例)① y → 1, n → 2,② 不参加→3,全面的→1,③ ①+② 76 The final model 参加意志 VTR 性別 G 7.23, df 5 p 0.20 2 • VTRの視聴が募金活 動への参加意志に (有意に)影響 – VTR視聴群 • 「不参加」が負で有意 • 「全面的」が正で有意 – 統制群では逆の傾向 – 性別の効果はなし 77 3変数LLMのまとめ • 多次元分割表は,あくまで多次元のままで 分析するのが基本 – Simpson’s Paradox – 2次元に帰着できないケースは多々存在 • 多次元分割表にLLMを用いるメリット – 変数間の関連が特定可能 • 第三変数の関わりを分析 – 多くのモデルを統一的な手法により検証可能 78 3次元分割表に適用可能なモデル • 飽和モデル • 条件つき独立性 – [ABC] • 2次交互作用 = 0 – [AB][AC][BC] A B C – [AC][BC] etc – C を与えたもとで A, B は独立 A B C 79 3次元分割表に適用可能なモデル • 同時独立性 • 完全独立性 – [A][BC] etc – A (or B) を“つぶす”と, B (or A), C は独立 A – [A][B][C] A B B C C 「階層の原則」に従っても “19種類”存在 80 3変数LLMによる分析の手順 飽和モデル の適用 (αβγ)ijk = 0 とおく 階層の原 則 適合せず (p≦0.10) 適合(p>0.10) 他の非有意な 変数を 0 とおく 飽和モデル の採用 分析終了 採用した モデルの解釈 理論的根拠も重要 適合度の吟味 (G2, p , AIC) 適切なモデル の採用 81 4.まとめ - Summary • χ2検定の限界 • 対数線形モデルによるアプローチ • SASプログラム―PROC CATMOD 82 χ2検定から対数線形モデルへ • χ2検定の限界 – セルや変数の増加に伴う無力化 • 有意性に“貢献”したセルをつきとめられない • 変数間の関連を特定できない • 対数線形モデルによるアプローチ – セルや変数が増加するほど威力を発揮 • 「χ2検定+残差分析」を包括 • 変数間の関連が特定可能 – SASではCATMODプロシージャを使用 83 SASプログラム PROC CATMOD DATA = dataname; WEIGHT num; MODEL A*B*C = _RESPONSE_ / PRED = FREQ; LOGLIN A | B | C; RUN; • 分割表からの分析にはWEIGHTステートメントを使用 • _RESPONSE_により対数線形モデルを指定 – 必要に応じて PRED = FREQ オプションを併用 • LOGLINステートメントでモデルを指定 – “ | ”や“@n”によりプログラムの簡略化が可能 84 References • B.S.Everitt 1992 The Analysis of Contingency Tables Second Edition CHAPMAN & HALL / CRC • 廣津千尋 1982 離散データ解析 教育出版 • 海保博之 1986 心理・教育データの解析法10講 ■応用編■ 福村出版 • 松田紀之 1988 質的情報の多変量解析 朝倉書店 • Ronald Christensen 1997 Log-Linear Models and Logistic Regression Second Edition Springer • SAS インスティチュートジャパン 1993 SAS / STAT ソフトウェア:ユーザーズ ガイド Version 6 First Edition • 田中敏,山際勇一郎 1992 ユーザーのための教育・心理統計と実験計画法 教育出版 • 東京大学教養学部統計学教室 1991 統計学入門 東京大学出版会 • 東京大学教養学部統計学教室 1992 自然科学の統計学 東京大学出版会 • 都筑学 1999 大学生の時間的展望-構造モデルの心理学的検討- 中央 大学出版部 85 Appendix 1変数の傾向分析 - The analysis of p×1 Contingency tables • 1変数-対数線形モデルの導入 • p×1分割表の分析 – 一様性の検定 86 p×1分割表の具体例 相談相手 人数 期待 度数 母親 32 28 学校の友達 47 28 父親 25 28 学校の先生 18 28 兄弟・姉妹 24 28 仲の良い異性 22 28 合計 168 168 • 困ったときや悩みごと の相談相手を調査 – 対象:中高生168人 • 人数の偏りは“偶然” か?“必然”か? ⇒「一様性の検定」 28 = 168 / 6 87 1変数-対数線形モデルの導入 log mi i log mi pi const. qi pi const. mi 第 i カテゴリの期待度数 第 i カテゴリに 全平均効果 度数の偏りを 生じさせる効果 i A の第 i カテゴリの「主効果」 88 DATA loglin1; DO who = 1 TO 6; SASプログラム INPUT num @@; OUTPUT; who = 1は母親, END; 2は学校の友達, CARDS; 3は父親, 32 47 25 18 24 22 4は学校の先生, ; 5は兄弟・姉妹 RUN; 6は仲の良い異性 PROC CATMOD DATA = loglin1; WEIGHT num; MODEL who = _RESPONSE_; LOGLIN who; RUN; MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE 89 Source DF Chi-Square Prob -------------------------------------------------WHO 5 18.40 0.0025 LIKELIHOOD RATIO 0 . . 主効果(度数の偏り)は有意⇒各セルの検討を行う ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard ChiEffect Parameter Estimate Error Square Prob ---------------------------------------------------------------WHO 1 0.1834 0.1654 1.23 0.2677 2 0.5678 0.1439 15.56 0.0001 3 -0.0635 0.1822 0.12 0.7275 4 -0.3920 0.2087 3.53 0.0604 5 -0.1043 0.1852 0.32 0.5733 相談相手 人数 母親 32 (0.183) 学校の友達 47 (0.568***) 父親 25 (-0.064) 学校の先生 18 (-0.392†) 兄弟・姉妹 24 (-0.104) 仲の良い異性 22 (-0.191) 合計 168 90 分析結果(まとめ) • パラメータの有意性と 符号を手がかりに解釈 +⇒more frequency -⇒less frequency †p .10, *** p .001 • 中高生の相談相手 Birchの制約式より算出 – 学校の友達が最も多く 選ばれる傾向にある 1 2 p 0 p 1 p1
© Copyright 2024 ExpyDoc