多変量データ分析B 第4回 第2章:モニタリング 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.5.12. SFC5限 第2章 モニタリングⅢ 1/39 第2章 モニタリング 目次 2.4 二変量の関係(2) -共に質的変量の場合ー 2.4.1 2.4.2 2.4.3 2.4.4 クロス集計とモザイク図 独立性と連関性 ピアソンのカイ2乗検定(独立性検定) 質的変量の連結 2.6 多変量の関係 -共に量的変量の場合- 2.6.1 層別散布図 2.6.2 散布図行列と相関係数行列 2.6.3 マハラノビスの距離 第2章 モニタリングⅢ 2/39 質的変量の関係:ポイント 2つの質的変量データ サンプル 性別:x 成績:y 1 男 良 2 女 優 3 男 不可 1)基本特計量は計算できない 比率(頻度)に着目する 性別 男 ・ 女 ・ 計 i 女 良 ・ n11 n12 n21 n22 n1 n2 女 可 アイテム(項目) カテゴリ- 性別 男,女 成績 優,良,可,不可 n13 n14 n1 n23 n24 n2 n3 n4 n n 2)ピアソンχ2統計量 a ・ n 成績 計 優 良 可 不可 b 02 i 1 j 1 期待度数: mij nij mij mij ni n j n 2 行合計 列合計 総合計 3)クラメール関連係数 V 第2章 モニタリングⅢ 02 n min a, b 1 0 V 1 3/39 2.4 二変量の関係(2) 共に質的変量 モザイク図にて,出現比率の違いを観察する クロス集計表にて,数量的に判断する 扱うデータファイルは「車の調査」 (サンプルデータ) 独立性 独立性と量的変量の無相関とは対応する 「独立性がない」は「相関がある」に対応する 第2章 モニタリングⅢ 4/39 2.4.1 クロス集計とモザイク図 1/4 生産国で顧客に特徴があるかを調べるには ˆê•Ï—Ê‚Ì•ª•z «•Ê Šù ¥/–¢ ¥ ’j « –¢ ¥ — « Šù ¥ “x ” … € — « ’j « ‡Œv Œ‡‘ª’lN 2 … € ¶ŽY ‘ “x ” “x ” 138 165 303 0 Š„ ‡ 0.45545 0.54455 1.00000 ƒTƒCƒY ƒ^ƒCƒv •Ä ‘ ‘åŒ^ ƒ [ƒN “ú–{ ’†Œ^ ƒtƒ@ƒ~ ƒŠ [ ƒˆ [ƒ ƒbƒp ¬ Œ^ ƒXƒ| [ƒc “x ” … € Šù ¥ –¢ ¥ ‡Œv Œ‡‘ª’lN 2 … € “x ” 196 107 303 0 Š„ ‡ 0.64686 0.35314 1.00000 … € ƒˆ [ƒ ƒbƒp “ú–{ •Ä ‘ ‡Œv Œ‡‘ª’lN 3 … € “x ” “x ” 40 148 115 303 0 Š„ ‡ 0.13201 0.48845 0.37954 1.00000 … € ¬ Œ^ ’†Œ^ ‘åŒ^ ‡Œv Œ‡‘ª’lN 3 … € “x ” “x ” 137 124 42 303 0 Š„ ‡ 0.45215 0.40924 0.13861 1.00000 … € “x ” ƒXƒ| [ƒc 100 ƒtƒ@ƒ~ ƒŠ [ 155 ƒ [ƒN 48 ‡Œv 303 Œ‡‘ª’lN 0 3 … € Š„ ‡ 0.33003 0.51155 0.15842 1.00000 図2.30 車の調査のヒストグラム ここをクリックすると,他のヒストグラムとリンクして日本車 がどのような顧客に購入されているか分るかも知れない 着眼点は,構成比率のパターンの違い だとすると,他の生産国と比較することが極めて重要 第2章 モニタリングⅢ 5/39 2.4.1 クロス集計とモザイク図 2/4 データ分析でやった車の調査のデータ スポーツ ファミリー ワーク 小計 119 32 196 既婚 45 未婚 小計 55 100 36 155 16 48 107 303 表のデータが無作為に得られたとすると, ①車の種類の比率が母集団の比率 ②未既婚の比率が母集団の比率 問題は車のタイプと未既婚が互いに無関係かどう か? ①関係があるとするとどの程度かわからない ②関係が無いとするほうが簡単 第2章 モニタリングⅢ 6/39 練習問題 1/2 既婚 未婚 スポーツ ファミリー 45 119 55 36 ワーク 32 16 小計 196 107 小計 100 48 303 155 互いに無関係であるときの比率を計算してみよ スポーツ 既婚 ファミリー ワーク 100×196/303^2= 0.2135 未婚 0.1165 小計 0.33 小計 0.65 0.0560 0.51 第2章 モニタリングⅢ 1.000 7/39 練習問題 2/2 この理想状態(帰無仮説)での頻度を計算する スポーツ ファミリー ワーク 小計 196 既婚 未婚 小計 48 303 カイ2乗を計算する a b 02 i 1 j 1 nij mij mij 2 45 64.686 64.686 2 119 100.264 100.264 2 答え: 第2章 モニタリングⅢ 8/39 2.4.1 クロス集計とモザイク図 3/4 2元のモザイク図で調べよう •ªŠ„ •\ ¶ ŽY ‘ ‚ ƃTƒ C ƒY‚Ì•ªŠ„•\ ‚ɑ΂ ·‚é •ª Í ƒ‚ ƒU ƒC ƒN } 4 2 ‘åŒ^ 54 ƒTƒCƒY 0.75 36 17 ’†Œ^ 0.50 53 92 0.25 ¬Œ^ 19 26 0.00 ƒˆ [ƒ ƒbƒp “ú–{ •Ä ‘ ¶ŽY ‘ ŽY ¶ ‘ 1.00 “x ” ¬Œ^ ‘S‘Ì% —ñ% s% ƒˆ [ƒ ƒbƒp 19 6.27 13.87 47.50 “ú–{ 92 30.36 67.15 62.16 •Ä ‘ 26 8.58 18.98 22.61 137 45.21 ƒT ƒCƒY ’†Œ^ ‘åŒ^ 17 5.61 13.71 42.50 54 17.82 43.55 36.49 53 17.49 42.74 46.09 124 40.92 4 1.32 9.52 10.00 2 0.66 4.76 1.35 36 11.88 85.71 31.30 42 13.86 40 13.20 148 48.84 115 37.95 303 図2.31 モザイク図とクロス集計表 帯の太さから,生産国の構成比率が可視化できる 各ブロック(セル)の面積が頻度に対応 第2章 モニタリングⅢ 9/39 2.4.1 クロス集計とモザイク図 4/4 クロス集計表について ŽY ¶ ‘ •ªŠ„ •\ “x ” ¬Œ^ ‘S‘Ì% —ñ% s% ƒˆ [ƒ ƒbƒp 19 6.27 13.87 47.50 “ú–{ 92 30.36 67.15 62.16 •Ä ‘ 26 8.58 18.98 22.61 137 45.21 列和 ƒT ƒCƒY ’†Œ^ ‘åŒ^ 度数 :セルの度数,行/列の周辺度数,合計度数 行和 全体%:セルの度数,行/列の合計度数が合計度数に占める割合 17 5.61 13.71 42.50 54 17.82 43.55 36.49 53 17.49 42.74 46.09 124 40.92 4 1.32 9.52 10.00 2 0.66 4.76 1.35 36 11.88 85.71 31.30 42 13.86 40 列% 13.20 :セルの度数が列の合計度数に占める割合 行% :セルの度数が行の合計度数に占める割合 期待値:二変量が独立との仮定下で計算された各セルの期待度数(E) 148 48.84 (対応する行合計と列合計の積を全体合計で割った値) 偏差 :実際のセル度数(O)から期待値(E)を引いたもの (独立性の仮説から外れた値) 115 2 37.95 セルのカイ 2 乗:(O-E) /E で求めた各セルのカイ 2 乗 (この総和がピアソンのカイ 2 乗) 303 第2章 モニタリングⅢ 10/39 カテゴリの並べ替え JMPではコンピュータのコード値により,グラフのカテゴリの 表示順が決定される 分析者は,分りやすいグラフを作成したいのであればJMP に順序を知らせる必要がある 【操作 2.12:カテゴリの並べ替え】 ①グラフで表示されるカテゴリの順番を変更するために,データテーブルの変 量名をクリックして,”列(C)”メニューの“値のチェック”から“リストチェ ック”をクリックする. ②表示されたウインドウで,“上へ移動”ボタン,“下へ移動”ボタンを使い, カテゴリの表示順番を決める. ③“OK”ボタンをクリックし,モザイク図などを描画する. 図2.32 カテゴリのリストチェック 第2章 モニタリングⅢ 11/39 2.4.2 独立性と関連性 1/2 2つの変量間に関連があること 行カテゴリの構成比率が列のカテゴリによって異なること 相互作用があるということ 独立であること 行カテゴリの構成比率が列のカテゴリによらず変わらないこと ならば,行のカテゴリをまとめてしまえばよい すなわち,列側の構成比率(1変量)でみればよい 第2章 モニタリングⅢ 12/39 2.4.2 独立性と関連性 2/2 JMPの出力 ŒŸ’è —vˆö ƒ‚ƒfƒ‹ Œë · ‘S‘Ì( C³ Ï‚Ý) N ŒŸ’è –Þ“x”ä Pearson Ž©—R“x (-1)*‘Î ”–Þ“x R2 æ(U) 4 36.30962 0.1200 297 266.21700 301 302.52662 303 2倍 ƒJƒC2 æ p’l(Prob>ChiSq) 72.619 <.0001 66.313 <.0001 このp値で判断 図2.32 独立性検定と尤度比検定 JMPの検定は,基本的に対数線形モデルの尤度比検定 (この方法は授業では紹介しない) JMPの検定にはもう1つPearson検定(独立性)がある どちらの検定も大標本用のため,セル内の度数が少ないと 近似が悪くなり警告が発生される 第2章 モニタリングⅢ 13/39 2.4.3 ピアソンのカイ2乗検定 1/3 少し数理的内容 行和,列和,総和を∑(シグマ記号)で表すと ni ni1 ni 2 n j n1 j n2 j n n11 n12 nij nij nij b nib nij j 1 a naj nij i 1 a b nab nij i 1 j 1 シグマ記号が2つ着くが恐れるべからず 意味:行(横)と列(縦)の全部を足して合わせて幾ら 第2章 モニタリングⅢ 14/39 2.4.3 ピアソンのカイ2乗検定 2/3 行と列の関連性は,度数でみるよりも 全体を1とした比率で見たほうが分りよいだろう (モザイク図の思想) 表2.4 クロス集計表の確率 表2.3 クロス集計表 n2j n2b ni b ni + Ai naj nab na+ Aa pa1 n+j n+b n 計 p+1 ni 1 ni 2 … nij n+1 n+2 … p1j … p1b p1+ n2+ A2 p21 p22 p2j p2+ paj … … … … … p2b pa2 … … … … … pab pa+ p+2 … p+j … p+b 1 pi1 度数 pi2 pij pib pi+ … 計 … … na2 p11 p12 … na1 A1 … Aa … 計 … … … Bb B1 … … … Ai n1+ Bj … … n12 n1b … … n21 n1j B2 … A2 … … n12 計 … n11 Bb Bj … A1 … … B2 … B1 比率 第2章 モニタリングⅢ 15/39 仮説検定 帰無仮説:H0 すべての i と j に対して pij=pi+×p+j 対立仮説:H1 ある i と j に対して pij≠pi+×p+j 厳密に考えれば,帰無仮説が生じることはまずない. しかし,先に独立であることを考えて そこから,どれくらい実際のデータが乖離しているかを 測定したのち, その量が確率的に起こりうる可能性か否か 判断する →標本誤差を持つパターンの違い:真の値は誰も分らない 16/39 第2章 モニタリングⅢ 期待度数 mij 1/2 期待度数とは,帰無仮説が厳密に成り立つとき の度数 期待度数は小数点以下の値を持つ(正整数でない) 期待度数があるべき姿 実際の値は色々な都合でばらついている その差異の大きさで判断 手が届く理想か(正しいとする姿:採択) 手が届かない理想か(夢物語なら理想を変えるか:棄却) nの標本がある と き Ai , B j のセルに属する 厳密な個数はmij 第2章 モニタリングⅢ 17/39 期待度数 mij 2/2 n1+ n2j n2b ni b ni + Ai naj nab na+ Aa pa1 n+j n+b n 計 p+1 Ai ni 1 ni 2 … nij n+1 n+2 … p1j … p1b p1+ n2+ A2 p21 p22 p2j p2+ paj … … … … … p2b pa2 … … … … … pab pa+ p+2 … p+j … p+b 1 pi1 pi2 pij pib pi+ … 計 … … na2 p11 p12 … na1 A1 … Aa … 計 … … … Bb B1 … … … Bj … … n12 n1b … … n21 n1j B2 … A2 … … n12 計 … n11 Bb Bj … A1 … … B2 … B1 周辺確率の決定 n j ni 行和/全体,あるいは列和/全体でよい. pi , p j パターンの違いには関係しない n n ni n j ni n j 各セルの確率は周辺確率の積 pij pi p j n n n2 ni n j 期待頻度は mij n pij n 第2章 モニタリングⅢ 18/39 2.4.3 ピアソンのカイ2乗検定 3/3 •ªŠ„ •\ ŒŸ’è ŽY ¶ ‘ ƒT ƒCƒY ’†Œ^ ‘åŒ^ “x ” ¬Œ^ Šú‘Ò’l •Î · ƒZƒ‹‚̃JƒC2 æ ƒˆ [ƒ ƒbƒp 19 17 4 18.0858 16.3696 5.54455 0.91419 0.63036 -1.5446 0.0462 0.0243 0.4303 “ú–{ 92 54 2 66.9175 60.5677 20.5149 25.0825 -6.5677 -18.515 9.4016 0.7122 16.7098 •Ä ‘ 26 53 36 51.9967 47.0627 15.9406 -25.997 5.93729 20.0594 12.9975 0.7490 25.2425 137 124 42 —vˆö ƒ‚ƒfƒ‹ Œë · ‘S‘Ì( C³ Ï‚Ý) N 40 Ž©—R“x (-1)*‘Î ”–Þ“x R2 æ(U) 4 36.30962 0.1200 297 266.21700 301 302.52662 303 ŒŸ’è –Þ“x”ä Pearson 148 ƒJƒC2 æ p’l(Prob>ChiSq) 72.619 <.0001 66.313 <.0001 115 総和 303 図2.34 実度数,期待度数など 残差平方和:実度数 - 期待度数 nij mij i 1 j 1 出現頻度が違うので等分散化する a b 2 0 カイ2乗 i 1 j 1 a n ij mij mij 2 b 2 2 nij mij m i 1 j 1 ij 標準化変量の2乗和 a b 第2章 モニタリングⅢ 19/39 2.4.4 質的変量の連結 JMPの計算式の利用 ƒ‚ƒUƒCƒN } ƒ‚ƒUƒCƒN } 1.00 1.00 ƒ [ ƒN’†Œ ^ ƒ [ ƒN‘åŒ ^ –¢ ¥’j « ƒ^ƒCƒv •ƒTƒCƒY 0.75 ƒtƒ@ƒ~ƒŠ [ ’†Œ^ ƒtƒ@ƒ~ƒŠ [ ‘åŒ^ 0.50 ƒtƒ@ƒ~ƒŠ [ ¬Œ^ Šù ¥/–¢ ¥ • «•Ê ƒ [ ƒN ¬Œ^ 0.75 –¢ ¥— « 0.50 Šù ¥’j « 0.25 ƒˆ [ ƒ ƒbƒp “ú–{ •Ä ‘ ƒ [ ƒN‘åŒ^ ƒ [ ƒN’†Œ^ ƒ [ ƒN ¬Œ^ ƒtƒ@ƒ~ƒŠ [ ’†Œ^ 0.00 ƒtƒ@ƒ~ƒŠ [ ‘åŒ^ ƒXƒ| [ ƒc ¬Œ^ ƒXƒ| [ ƒc’†Œ ^ 0.00 ƒXƒ| [ ƒc‘åŒ ^ ƒXƒ| [ ƒc‘åŒ^ ƒXƒ| [ ƒc ¬Œ^ 0.25 ƒtƒ@ƒ~ƒŠ [ ¬Œ^ Šù ¥— « ƒXƒ| [ ƒc’†Œ^ ƒ^ƒCƒv •ƒTƒCƒY ¶ŽY ‘ 図2.35 生産国とタイプ&サイズのモザイク図 図2.37 練習問題2.2-③のモザイク図 関数群の文字関数からCONCAT関数を使う 第2章 モニタリングⅢ 20/39 2.6 多変量の関係 1/2 1変量の分析:基本統計量 頻度の確認:ヒストグラム,度数表 ・代表値 :平均値 ・ちらばり :平方和→分散(標準偏差) 範囲 ・かたよりなど:歪み,尖り 2変量の関係:変量間の結びつき 変数1 変数2 関連性の指標 量的 量的 (ピアソン)相関係数 多変量の関係:変量間の結びつき ・散布図行列,相関係数行列 ・外れ値分析 第2章 モニタリングⅢ 21/39 2.6 多変量の関係 2/2 モニタリングの着眼点と活用する主なグラフ 調べる目的 ポイント グラフ 1 変 量 ・分布の形の確認 ・欠測値,ゼロ値 ・外れ値 ・正規分布か ・層別の必要はあるか ・外れ値はあるか ・ヒストグラム ・正規分位点プロット ・箱ひげ図 2 変 量 ・2次元分布の確認 ・独立性の検討 ・外れ値 ・散布図 ・モザイク図 ・層別ヒストグラム 多 変 量 ・多次元分布の確認 ・独立性の検討 ・外れ値 ・相関関係や関連性は あるか ・層別の必要はあるか ・外れ値はあるか ・特異な変量はあるか ・相関関係はあるか ・外れ値はないか 第2章 モニタリングⅢ ・散布図行列 ・層別散布図 ・外れ値分析 22/39 2.6.1 層別散布図 g’·( ƒCƒ“ƒ `)‚Æ‘Ì d(ƒ |ƒ“ƒh) ‚Ì“ñ•Ï—Ê‚Ì ŠÖŒW ˆê•Ï —Ê ‚Ì•ª•z «•Ê ”N—î 17 180 M 16 ‘Ì d (ƒ |ƒ“ƒ h) 160 15 140 14 120 100 F 13 80 12 60 50 55 60 65 g’·(ƒ Cƒ“ƒ`) “ñ•Ï—Ê ³‹K‘È ‰~ P=0.95 0 «•Ê= ="F" “ñ•Ï—Ê ³‹K‘È ‰~ P=0.95 0 «•Ê= ="M" ’¼ ü‚Ì‚ ‚ Ä‚Í ‚ß «•Ê= ="F" ’¼ ü‚Ì‚ ‚ Ä‚Í ‚ß «•Ê= ="M" 70 75 性別により直線の傾き に差異があるかどうか が焦点 図2.47 性別で層別した身長と体重の散布図 ・2次元平面で,複数の層別因子(質的変量)の影響を 調べるには,層別散布図が有効 ・あやめ.JMPの種類で層別した散布図を思い起こそう 第2章 モニタリングⅢ 23/39 あやめの問題 1/3 層別 データ全体から幾つかのグループに分類(層別)したとき 分類毎に散布図を作ると“ものの本質”が分かる 層別 無相関 異なるグループを混ぜると 相関が消える 第2章 モニタリングⅢ 強い相関 強い相関 24/39 あやめの問題 2/3 第2章 モニタリングⅢ 25/39 あやめの問題 3/3 ‚ª‚‚Ì’·‚³‚Æ ‚ª‚‚Ì• ‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW 4.5 Setosa領域 4.0 ‚ª‚-‚Ì• 3.5 新しいデータ1 Setosaの95%確率楕円内 Virginica,Versicolorの 95%確率楕円の外 3.0 このデータは,Setosaと 考えるのが妥当であろう 2.5 2.0 それ以外 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 ‚ª‚-‚Ì’·‚³ “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="setosa" Setosa以外だが,Virginicaか Virginicaの可能性が高い “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="versicolor" Versicolorかまでは分からない “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="virginica" 第2章 モニタリングⅢ 26/39 2.6.2 散布図行列と相関係数行列 ‘ ½ •Ï —Ê ‘ ŠŠÖ F ·‚` 1.0000 0.1466 0.1460 0.1364 0.1480 F ·‚` F ·‚a F ·‚b F ·‚c F ·‚d F ·‚a 0.1466 1.0000 0.3734 0.1442 -0.0077 F ·‚b 0.1460 0.3734 1.0000 0.8218 0.6624 F ·‚c 0.1364 0.1442 0.8218 1.0000 0.9576 F ·‚d 0.1480 -0.0077 0.6624 0.9576 1.0000 Ž U • z } s— ñ 15 10 1 22 25 22 25 1 25 22 1 22 1 1 25 22 1 22 1 F ·‚` 5 55 221 50 22 F ·‚a 45 25 25 25 25 40 60 1 1 1 50 1 F ·‚b 25 40 35 60 50 40 30 20 25 25 22 22 1 22 25 50 40 30 20 10 1 22 25 221 1 22 25 5 10 15 22 45 22 25 1 22 55 35 45 1 25 22 F ·‚c 25 50 22 1 25 40 25 22 1 25 55 65 20 30 40 50 60 F ·‚d 10 20 30 40 50 図2.48 色差Aから色差Eの散布図行列など 第2章 モニタリングⅢ 27/39 2.6.3 マハラノビスの距離 1/12 マハラノビス(Mahalanobis インドの天才) インド統計研究所の設立者:偉大な統計学者 マハラノビスの汎距離 1936年にマハラノビスが確率 カイ2乗分布に基ずく距離を提 唱した. 判別分析を解説する際によく出てくるが それが本質ではない. 実際.回帰分析,多の多変量解析でも その概念が広く使われている点に注意!! 第2章 モニタリングⅢ 28/39 2.6.3 マハラノビスの距離 2/12 個体間の距離を考える A 1変量の場合 B C D 普通(ユーグリッド距離と言います)に考えれば AとBの距離 と CとDの距離は同じである A B C D 出現確率が等しいを距離と考えると,分布状況により ユーグリッド距離が等しい = 同じ出現確率 AB=CD Pr A x B Pr C x D AからBの方が確率的に遠い 第2章 モニタリングⅢ 29/39 2.6.3 マハラノビスの距離 3/12 少し数学的ですが…1次元では ある特性は,平均μ,分散σ2の正規分布に従うとする (モデルの世界) ある値,xが得られたときに,それが全体でどのあたり に位置するかは… x u N 0,12 -14 0.45 6 16 26 X (実尺度) 0.4 0.35 x 2 のと き df 1 2 0.3 0.25 0.2 0.0214 0.0014 0.1359 0.0014 0.05 0.3413 0.1 0.3413 0.15 0.1359 Prob. 平均から,どれほど離れてい るかを向きを考えずに評価す るならばu2を求める.u2は自由 度1のカイ2乗分布からの実現値 2 -4 0.0214 0 -6 -5 -4 2 x1 1 x2 2 + のと き df 2 1 2 -3 -2 -1 0 1 2 3 4 5 6 Z(標準化) x 2 第2章 モニタリングⅢ 30/39 2.6.3 マハラノビスの距離 4/12 色差のデータ 印刷機の印刷条件を変えて,同じカラー原稿を印刷 し色の差(基準色からのユーグリッド距離)を測っ てみる. 原稿は,どんなものがやってくるかわからない(お 客さま次第である) アイドル写真の印刷(肖像権があるのでむやみ印 刷できません)から,JMPのグラフの出力まで様々 ここでは,ある印刷機のくせを考えてみよう 第2章 モニタリングⅢ 31/39 2.6.3 マハラノビスの距離 5/12 相関係数r=0の場合 どの向きに対しても点 が存在する確率は同じ O O A B 相関係数r=0の場合 B A ∴OA=OB 存在する確率は違う O B A ∴OA≠OB 第2章 モニタリングⅢ 32/39 2.6.3 マハラノビスの距離 6/12 少し数学的ですが…2次元では ①2つの特性が無相関(独立のとき) u1 x1 1 1 , u2 x2 2 2 から ,2次元で平均から ど れだけ u2 u12 u 22 離れている かは距離の 2乗から u12 u22 で評価でき る . こ の量は自由度 u1 2のカ イ 2乗分布から の実現値 ②では,2つの特性間に無視できない相関があったときは どうするか? 第2章 モニタリングⅢ 33/39 2.6.3 マハラノビスの距離 7/12 2次元で考える 直角三角形の斜辺の距離 三平方の定理から 原点(平均ベクトル)から#1の 距離は 横軸の距離の2乗+縦軸の距 離の2乗の平方根 原点(平均ベクトル)から#22 の距離は 横軸の距離の2乗+縦軸の距 離の2乗の平方根 F ·‚b 単純にユーグリッド距離 65 60 55 50 45 40 35 30 25 20 0 1 22 10 20 30 40 50 60 70 F ·‚c 図2.50 OA2 x#1,1 x1 x#1,2 x2 2 OA 2 OB 2 x#22,1 x1 x#22,2 x2 x#1,1 x1 x#1,2 x2 OB 2 2 マハラノビスの距離 2 2 x#22,1 x1 x#22,2 x2 第2章 モニタリングⅢ 2 2 :面積 :距離 34/39 2.6.3 マハラノビスの距離 8/12 2次元で考える 測定単位に依存しないよう に標準化する 2 2 x x x x OA #1,1 1 #1,2 2 s2 s1 2 2 x#22,1 x1 x#22,2 x2 2 OB s s 1 2 2 F ·‚b 2 x#1,1 x1 x#1,2 x2 2 OA s s 1 2 2 x x x x OB #22,1 1 #22,2 2 s1 s2 65 60 出現確率の等高線 1 55 50 45 40 35 22 30 25 20 0 10 20 30 40 50 60 70 F ·‚c 図2.50 マハラノビスの距離 2 第2章 モニタリングⅢ 35/39 2.6.3 マハラノビスの距離 9/12 出現確率の影響を考慮する 2次元正規分布を考える 相関がある場合は,同じユーグリッ ド距離でも確率楕円の長軸方向に ある点の方が出現確率が小さい u1 x1 x :このような記号を使う s1 u u 2ru1u2 D 1 r2 2 2 1 2 2 F ·‚b 2次元で考える 65 60 55 50 45 40 35 30 25 20 0 1 22 10 20 30 40 50 60 70 F ·‚c 図2.50 マハラノビスの距離 この式で計算された距離をマハラノビスの平方距離という 3次以上の高次の世界では,もっと式が複雑になる 36/39 第2章 モニタリングⅢ 2.6.3 マハラノビスの距離 10/12 等確率長円 重心からの距離Dの 等しい点の軌跡 2変量正規母集団の重心からの距離 x1 1 2 u1 1 2 x2 2 2 u1 2 2 u2 u12 u22 (ユークリッドの平方距離) 母相関ρを持っている B A 標準化変量 u2 Z1 Z2 0 μ2 ・距離は無相関にして計算する ・相関係数を考慮して無相関になる方向を探す 座標を確率楕円の長軸方向 へ回転させると無相関になる z1 u1 u2 / 2 z2 u1 u2 / 分散を1に調整すると 2 z12 z22 z12 z22 D V z1 V z2 1 1 2 μ1 0 u1 1 u 2 u2 2 2 u1u2 2 1 1 第2章 モニタリングⅢ 37/39 2.6.3 マハラノビスの距離 11/12 少し数学的ですが…行列表現の導入 1 Π 1 1 u'Π u u1 , u2 1 2 -1 u1 u u2 1 1 , Π 1 1 2 1 -1 u1 u1 u2 1 u , u2 u 2 1 u u 1 2 1 1 2 1 1 2 2 u u u u u u u 2 u u u 1 1 2 2 1 2 1 1 2 2 2 2 1 1 一般に多次元では D2 u'Π -1u 多変量標準正規分布 f x 1 exp D 2 p 2 |Π| 2 1 D2は自由度pのカイ2乗分布(平均p,分散2p)に従う 問題は,Π の逆行列が存在するかいなか? 第2章 モニタリングⅢ 38/39 2.6.3 マハラノビスの距離 12/12 多変量での評価 JMPでは,外れ値解析にマハラノビスの距離を利用している. 色差のデータでは5次元の世界での距離を計算 ŠO‚ ê’ l• ª Í Mahalanobi s‚ Ì‹——£ 5 22 ‹——£ 4 3 1 2 25 1 0 0 5 10 15 20 25 30 ”Ô s † ‹——£ ƒWƒƒƒbƒN ƒiƒCƒt–@‚ É‚æ ‚é‹——£ 15.0 12.5 10.0 7.5 5.0 2.5 0.0 22 1 0 対象個体(例#22)を 除いた状態で距離をつくり, 除いた対象を予測する. 集団から外れた個体はよ り距離が遠く判定されるこ とが多い 25 5 10 15 20 25 30 ”Ô s † 図2.49 外れ値分析 第2章 モニタリングⅢ 39/39
© Copyright 2024 ExpyDoc