1 6章 データ数不揃いの場合の分析 アンバランス型(不釣合い型)の計画 ss2やss3 って何? 2 ことば • • • • A1 A2 データ数が揃っていない計画 セルサイズが揃っていない計画 アンバランス型計画 A1 3.0 不釣合い型計画 B1 9,9,11,11 10,6 B2 5 4,6 デ ー タ 合計 平均 4.0 7 3.5 A2 2.0 4.0 4.0 4.0 5.0 A3 5.0 5.0 5.0 5.5 6.0 6.0 19 32.5 3.8 5.4 A4 5.0 6.0 11 5.5 3 分散分析・実験計画法は • 基本的に「実験データ」の分析方法 – セルサイズが揃っていることが前提 • 実験であるからセルサイズを整えることは可能な はず • 何らかの事情で少数個のデータが欠けることは許 される • セルサイズがそうとうバラバラ – 「調査データ」の分析に多い – 分析は可能であるが.... 4 問題点とプロシージャ • 1要因の場合 – 解釈が難しくなる • 2要因以上の場合 – 各要因の平方和が確定しない – 「平方和の分解」が成り立たない – 解釈が難しくなる • PROC GLM (general linear model) – 「PROC ANOVA」 はだめ WARNING: PROC ANOVA has determined that the number of observations in each cell is not equal. PROC GLM may be more appropriate. 5 1要因の場合:例1 デ ー タ B1 2.0 2.2 2.5 2.8 3.0 B2 3.5 3.8 4.0 4.2 4.5 B3 4.0 7.0 6.0 5.0 4.0 3.0 2.0 1.0 合計 12.5 平均 従属変数:2.5 Y1 ソース 修正モデル 切片 B 誤差 総和 修正総和 20 4.0 タイプ III 平方和 14.063a 160.000 14.062 5.760 177.510 19.823 11 被 験 者間 効果 の 検 定 0.0 5.5 B1 自由度 2 1 2 9 12 11 平均平方 7.031 160.000 7.031 .640 B2 F値 10.986 250.000 10.986 B3 有意確率 .004 .000 .004 6 多重比較 • B1とB2には有意差があるが,B2とB3には 有意差はない • しかし,平均差は共に1.5 多 重比 較 従属変数: Y1 Tukey HSD (I) B 1.00 2.00 3.00 (J) B 2.00 3.00 1.00 3.00 1.00 2.00 平均値の 差 (I-J) -1.5000* -3.0000* 1.5000* -1.5000 3.0000* 1.5000 観測された平均に基づく。 *. 平均値の差は . 05 水準で有意です 。 標準誤差 .5060 .6693 .5060 .6693 .6693 .6693 有意確率 .038 .004 .038 .117 .004 .117 95 % 信頼区間 下限 上限 -2.9127 -8.73E -02 -4.8688 -1.1312 8.734E -02 2.9127 -3.3688 .3688 1.1312 4.8688 -.3688 3.3688 7 図で表すと 6.0 * 5.0 * 4.0 3.0 2.0 n1 5 n2 5 n3 2 B2 B3 1.0 0.0 B1 8 1要因の場合:例2 デ ー タ 合計 平均 A1 3.0 4.0 7 3.5 A2 2.0 4.0 4.0 4.0 5.0 A3 5.0 5.0 5.0 5.5 6.0 6.0 19 32.5 3.8 5.4 変動要因 変動 A 11.225 誤差 7.00833 合計 18.2333 A4 5.0 6.0 6.0 5.0 4.0 3.0 2.0 1.0 11 5.5 自由度 3 11 14 0.0 分散 3.74167 0.63712 A1 A2 F-値 5.87277 A3 A4 P-値 F 境界値 0.01205 3.58743 9 多重比較 • A2とA3には有意差がある • しかし,A2,A3を含むより大きな平均差があ 多 重比 較 るA1とA2においては有意差が認められない 従属変数: Y Tukey HSD (I) A 1 2 3 4 (J) A 2 3 4 1 3 4 1 2 4 1 2 3 平均値の 差 (I-J) -.3000 -1.9167 -2.0000 .3000 -1.6167* -1.7000 1.9167 1.6167* -8.33E-02 2.0000 1.7000 8.333E-02 標準誤差 .6678 .6517 .7982 .6678 .4833 .6678 .6517 .4833 .6517 .7982 .6678 .6517 有意確率 .968 .056 .114 .968 .029 .107 .056 .029 .999 .114 .107 .999 95 % 信頼区間 下限 上限 -2.3099 1.7099 -3.8781 4.476E-02 -4.4022 .4022 -1.7099 2.3099 -3.0713 -.1620 -3.7099 .3099 -4.48E-02 3.8781 .1620 3.0713 -2.0448 1.8781 -.4022 4.4022 -.3099 3.7099 -1.8781 2.0448 10 図で表すと * 6.0 5.0 4.0 3.0 2.0 n1 2 n2 5 n3 6 n4 2 A1 A2 A3 A4 1.0 0.0 11 WHY? • セルサイズが異なることがその原因 – セルサイズが小さいと検定の検出力が下がり, 第二種の過誤が大きくなる – 検出力の異なる仮説検定の結果を比較する ことは,あまり意味がない – 有意水準はOK 12 一つの解決策 • セルサイズの調和平均を用いて,バランス 型として分析する – あくまでも近似であり,セルサイズが大きく 異なる場合は有意水準が保たれるか不安 • 各ソフトで独自の工夫がなされているよう である – ソフトで出力が異なる? 13 調和平均を用いた例:SPSS Y サブグループ Tukey HSDa,b,c Ryan-Einot-Gabriel-Welsch d,c 範囲 A 1 2 3 4 有意確率 1 2 3 4 有意確率 N 2 5 6 2 2 5 6 2 1 3.5000 3.8000 5.4167 .059 3.5000 3.8000 .918 2 3.8000 5.4167 5.5000 .102 5.4167 5.5000 .993 等質サブグルーフのグループ゚平均はタイプ III 平方和に 基づき表示されます。 誤差項は平均平方 (誤差) = .637 です 。 a. 調和平均サンプル サイズ = 2 .927 を 使用します。 b. グループのサイズが等しくありません。グループのサイズの調和平均が使用されて います。タイプ I エラー水準は保証されません 。 c. アルファ = .05 d. 限界値はこれらのデータに対して単調ではありません。単調性を 確実にす る ために代入が行われたため、タイプIの誤りは従来よ り小さくなります。 14 調和平均を用いた例: SAS RYAN-EINOT-GABRIEL-WELSCH 多重範囲検定 - 変数 : Y NOTE: この検定法はタイプ I の実験(全体)誤差率を 調整しています. ALPHA= 0.05 df= 11 MSE= 0.637121 WARNING: セルのサイズが等しくありません. セル・サイズの調和平均 = 2.926829 平均の数 2 3 4 臨界範囲 1.706266 1.7820536 1.9857424 同じ文字で結ばれた群間の平均差は有意でありません. REGWQ グループ化 B B B A A A A A 平均 N A 5.5000 2 4 5.4167 6 3 3.8000 5 2 3.5000 2 1 15 まとめ:1要因の場合 • セルサイズが異なっているときは,平均差 と有意性が対応しないことがある – 解釈に困る – セルサイズのばらつきが小さいときはこの 問題は生じない – 平均差と有意性が対応しているときは問題 ないだろう – 調和平均を用いる方法もあるが,セルサイズ が大きく異なるときは問題あり(第一種の過 誤) 16 2要因の場合 • 平方和が確定しない – 各要因の平方和がうまく分離できない – 各要因ごとの平方和がいくつも提案されており, 確定的なものがない • タイプ ⅠⅡⅢの平方和がある • 解釈についての問題もある – 1要因の場合と同様 17 平方和の種類 • タイプⅠ:逐次平方和 – モデルに記述した要因の順に,要因を取り込んでいく ときに,モデルで説明できる平方和の増分 • タイプⅡ:偏平方和(?) – 主効果の評価は他の主効果のみ調整してから行う (交互作用を調整しない ) • タイプⅢ:セル平均に基づく平方和(?) – 主効果の評価は他の要因の全てを調整してから行う (交互作用も調整する) • model x =a b a*b/ss2 model x =a b a*b/ss2 ss3 18 分かっていること • セルサイズが揃っている場合は全ての 平方和は一致する • タイプⅠは,要因の順序に意味がある場合に のみ用いる – 枝分かれ実験,多項式回帰など • タイプⅡとタイプⅢの違いは微妙 – 交互作用の平方和は両者で一致する – 交互作用がないモデルにおいては両者は一致 19 モデルで説明 xijk a j bk eijk xijk a j bk (ab) jk eijk A A Y Y AB B B タイプⅡ平方和 タイプⅢ平方和 20 具体的には • 投入要因に依存する(タイプⅡ,Ⅲ平方和) x=a SAの大きさが異なる x=ab • 要因の投入順序に依存する(タイプⅠの平方 和) SAの大きさが異なる SBの大きさが異なる x = a b a*b x = b a a*b 21 2要因の場合:例 A1 A2 要因効果 B2 5 4,6 B2 5 5 11 10 9 特性値 A1 A2 生データ B1 9,9,11,11 10,6 セル平均 B1 10 8 8 A1 A2 7 6 5 4 B1 B2 変 22 ANOVA結果 交互作用がない場合 モデル x x x x = = = = a b a b b a タイプⅠ A B 13.89 37.56 13.89 27.22 3.56 37.56 タイプⅡor Ⅲ モデルの 誤差 総平方和 平方和 A B 平方和 13.89 13.89 43.00 56.89 37.56 37.56 19.33 56.89 3.56 27.22 41.11 15.78 56.89 3.56 27.22 41.11 15.78 56.89 ANOVA結果 交互作用がある場合 モデル x = a b ab A B A*B SS P-値 SS P-値 SS P-値 Type I 13.89 0.08 27.22 0.03 1.78 0.46 Type II 3.56 0.31 27.22 0.03 1.78 0.46 Type III 1.78 0.46 28.44 0.02 1.78 0.46 モデル x = b a ab A B A*B SS P-値 SS P-値 SS P-値 Type I 3.56 0.31 37.56 0.01 1.78 0.46 Type II 3.56 0.31 27.22 0.03 1.78 0.46 Type III 1.78 0.46 28.44 0.02 1.78 0.46 23 24 バランス型計画 (セル度数が揃っている場合) 1要因 2要因 ST ST SA SB SA SA×B SE SE 25 アンバランス型計画 (セル度数が揃っていない場合) 2要因 2要因 ST ST SA SA SB SA×B SA×B SE バランス型計画 SB SE アンバランス型計画 変 3.56 10.33 A B 27.22 26 解釈: 交互作用が ない場合 15.78 モデル x x x x = = = = a b a b b a タイプⅠ A B 13.89 37.56 13.89 27.22 3.56 37.56 タイプⅡor Ⅲ モデルの 誤差 総平方和 平方和 A B 平方和 13.89 13.89 43.00 56.89 37.56 37.56 19.33 56.89 3.56 27.22 41.11 15.78 56.89 3.56 27.22 41.11 15.78 56.89 解釈:交互作用がある場合(タイプ II) 27 10.33 3.56 27.22 SA SB SA×B 1.78 モデル x = a b ab A B A*B SS P-値 SS P-値 SS P-値 Type I 13.89 0.08 27.22 0.03 1.78 0.46 Type II 3.56 0.31 27.22 0.03 1.78 0.46 Type III 1.78 0.46 28.44 0.02 1.78 0.46 モデル x = b a ab A B A*B SS P-値 SS P-値 SS P-値 Type I 3.56 0.31 37.56 0.01 1.78 0.46 Type II 3.56 0.31 27.22 0.03 1.78 0.46 Type III 1.78 0.46 28.44 0.02 1.78 0.46 解釈:交互作用がある場合(タイプⅢ) 10.33 3.56 1.78 28.44 1.78 -1.22 27.22 SA SB SA SA×B SA×B タイプⅡ SB 1.78 タイプⅢ 1.78 28 分散分析表の出力について Sum of Mean Source DF Squares Square F Value Pr > F Model 3 42.88888889 14.29629630 5.11 0.0555 Error 5 14.00000000 2.80000000 Corrected T 8 56.88888889 --------------------------------------------------------------------Source DF Type I SS Mean Square F Value Pr > F A 1 13.88888889 13.88888889 4.96 0.0764 B 1 27.22222222 27.22222222 9.72 0.0263 A*B 1 1.77777778 1.77777778 0.63 0.4617 --------------------------------------------------------------------Source DF Type II SS Mean Square F Value Pr > F A 1 3.55555556 3.55555556 1.27 0.3110 B 1 27.22222222 27.22222222 9.72 0.0263 A*B 1 1.77777778 1.77777778 0.63 0.4617 --------------------------------------------------------------------Source DF Type III SS Mean Square F Value Pr > F A 1 1.77777778 1.77777778 0.63 0.4617 B 1 28.44444444 28.44444444 10.16 0.0243 A*B 1 1.77777778 1.77777778 0.63 0.4617 29 30 分散分析表について_つづき • モデルと誤差の平方和は(いつも)確定する – アンバランス型のときは,モデルの平方和を,各要因 への分解するときに問題が生じる • ソフトウェアは,確定部分とそうでない部分を分 けて出力する[もちろん,モデルの全体的評価と 局所評価を区別する意味もある] Sum of Mean Source DF Squares Square F Value Pr > F --------------------------------------------------------------------A 1 1.77777778 1.77777778 0.63 0.4617 B 1 28.44444444 28.44444444 10.16 0.0243 A*B 1 1.77777778 1.77777778 0.63 0.4617 Error 5 14.00000000 2.80000000 --------------------------------------------------------------------Corrected T 8 56.88888889 31 まとめ:2要因以上ある場合 • アンバランス型の場合は要因効果を正確 に定義できない – 要因効果が重なっている • 次善策として,ソフトウェアはいくつかの 平方和を用意 32 まとめ:つづき – タイプⅡかタイプⅢの平方和を用いる • タイプⅡ – 主効果を調べるときは交互作用を考えない – 交互作用を調整せずに主効果を評価する • タイプⅢ – 主効果を調べるときも交互作用を含めたモデルを用いる – 交互作用を調整してから主効果を評価する – SAS,SPSSともにデフォルトはタイプⅢである – 「SASによる実験データの解析:東大出版」は タイプⅡを薦めている 33 recommendation • まず,タイプⅡとタイプⅢの両者で検定する – 結果に違いがなければ,どちらを報告してもよい – 結果が異なる場合は強い結論を主張しない • 次スライドのコメントをいれておく 34 釈明!? 分散分析は,本来セルサイズが揃ったバラ ンス型のデータへ適用すべき手法である. 本論文のようにアンバランス型のデータへ 適用すると,ときにmisleadingな結果を導く ことがある.しかし,実験が不可能で調査 データに頼らざるを得ない状況では最善の 分析方法であると考える.より強固な統計 的証拠を得るために今後のfollow-up研究 を待ちたい. 35 データ解析テクニカルブックとの 対応 • 上記テキストには,データ数が揃っていな い場合の分析として,簡便法(以下の量を 用いてバランス型の分析に帰着)が紹介さ れている n: 調和平均 周辺平均:非加重平均 • 基本的にSAS,SPSSによる分析と一致し ない 36 7章 Practical Issue
© Copyright 2024 ExpyDoc