Ch.3 判別分析 (discriminant analysis) 参考文献 柳井晴夫・高木廣文(1986)『多変量解析ハンドブッ ク』現代数学社 柳井・岡太・繁桝・高木・岩崎(2002)『多変量解析実 例ハンドブック』朝倉書店 石村・石村(2007)『入門はじめての多変量解析』東 京図書 大村平(2006)『多変量解析のはなし』日科技連 竹村・谷口(2003)『統計学の基礎Ⅰ』岩波書店 Outline 3-1 判別分析とは 3-1-1 2変量判別分析 3-1-2 多変量判別分析 3-2 判別係数の推定と検定 3-2-1 正規性の検定 3-2-2 等分散性の検定 3-2-3 判別係数の検定 3-2-4 誤判別の確率 3-3 デフォルト・非デフォルトの判別 3-3-1 2変量による判別分析 3-3-2 5変量による判別分析 3.1 判別分析とは? 与えられた複数の個体をそれらが有する変 量に基づいて2つ(あるいはそれ以上)の群の いずれに属するかを判別する多変量解析の 手法の一つである。 多変量解析とは? 統計的多変量解析(statistical multivariate analysis)とは、 複数個の変量によって特徴づけられた多変量データの相関 関係を分析する一連の統計的手法の総称 20 世紀初めから,F.ゴールトン,K.ピアソン, R.A.フィッ シャー,マハラノビス P.C.Mahalanobis らによって生物学 の分野に, C.E.スピアマン,サーストン L.L.Thurstone, H. ホテリングらによって計量心理学などの分野に先駆的に導 入された 最近ではコンピューター利用の急速な発展により, 統計処 理が容易に行えるようになったことによって, 工程解析,市 場分析,品質解析,財務分析, 社会調査,計量診断,薬効 検定などへ広く活用されている。統計的手法の中で多変量 データに関する分析手法のことをいう 多変量解析とは? 回帰分析、分散分析、主成分分析、因子分 析、判別分析、クラスター分析、数量化理論 などの手法がありそれぞれの応用分野で独 自の発展をしている 計算機技術の発展とともに、アルゴリズムの 観点から新しい多変量解析的手法が数多く 提唱されるようになってきており、多変量解析 手法はさらに広がりを見せている 多変量解析とは? 歴史的には,1 変量の正規分布を前提とする 平均や分散に関する推定や検定の理論を多 変量正規分布の場合に拡張する研究が先行 したが, 現在では,n個の対象のおのおのに ついてp種類の変数の値が観察されている形 式を基本とする多変数データを実際的に解析 する種々の手法が開発されている。 多変量解析とは? 工学(パターン認識・電子部品の寿命実験、自動車の揚力特 性の推定、合金設計) 建築学・土木・交通工学 生物学・農学・人類学 医学・歯学 看護学・公衆衛生学 体育学・スポーツ学 経済学・経営学 政治学・社会学 心理学(性格心理学、実験心理学) 言語学・計量文献学 家政学・文化人類学(栄養学・被服学) 多変量解析手法の位置付け 被説明変数1つ ■連続的→重回帰分析 ■カテゴリー的→判別分析 被説明変数複数 ■連続的→多変量分散共分散分析、正準相関分析 ■カテゴリー的→正準相関分析 被説明変数なし ■連続的→因子分析、クラスター分析、多次元尺度法 ■ノンパラメトリックな尺度法 余談ですが… 多変量の3原則(『大統計大マンダラ』からの引 用) なめてはいけない. 知ったかぶりは禁物. すなおに「分かりません」と言うべし. だそうです… 判別分析の手順 一般に判別分析は次の2つのステップを通 じて個体の識別をおこなう 1. すでに所属群が判明している複数個体の データ集合を解析し、判別規則を構成する 2. 所属群が未知の個体のデータに判別規則 を適用し、この個体の所属群を出力する(例 題3.1) 判別分析の例( 医療分野) 医療分野の例 医療における集団検診の結果に対する自動 診断 受診者の年齢や血圧といった複数の検査 データに基づいて、各受診者が特定の疾患 かどうかを判別する 判別分析の例(金融分野) ある企業がどの信用クラスに分類されるかを 企業の財務データから推定する 有価証券報告書にある経常利益率、金利負 担率、流動比率、当座比率などにより、企業 の倒産、非倒産を予測する 判別分析の例 ある紙幣が偽札か否かを、その紙幣のいくつ かの特性値に基づいて判定したい ある植物が既知の種のいずれに属するかを、 その植物の特性値に基づいて決定したい 外国の古戦場で発掘した頭蓋骨が、A人種の ものか、B人種のものかを判別したい K群の判別分析 A氏、B氏、C氏、D氏の4人のなかの誰かが 書いたことは確かである小切手がある。そこに 書かれている筆跡から、誰が書いたかを判別 する式をつくる 神経症はその状態によって、心配性、ヒステ リー、精神病、脅迫観念、個性変化、正常状 態の6つに分かれている。3つの検査結果か らどの状態であるかを判別したい。 第三章では、判別分析の基本的な概念を2 変量の場合と多変量の場合について説明し、 サンプル・データを用いて企業のデフォルト・ 非デフォルトを判別する数値例を紹介する 判別分析は2群の判別のみならず多群の判 別にも適用可能であるが、ここでは2群の判 別についてのみ紹介する Outline 3-1 判別分析とは 3-1-1 2変量判別分析 3-1-2 多変量判別分析 3-2 判別係数の推定と検定 3-2-1 正規性の検定 3-2-2 等分散性の検定 3-2-3 判別係数の検定 3-2-4 誤判別の確率 3-3 デフォルト・非デフォルトの判別 3-3-1 2変量による判別分析 3-3-2 5変量による判別分析 3.1 判別分析とは ある企業に関して、その企業がデフォルト企 業グループと非デフォルトグループのどちら に分類されるかという問題を考える 企業がデフォルトするかしないかを説明する ための共変量(リスク・ファクター)として財務 指標やマーケット・データなどが考えられるが、 この節では共変量が与えられているとして判 別分析の考え方を説明する Outline 3-1 判別分析とは 3-1-1 2変量判別分析 3-1-2 多変量判別分析 3-2 判別係数の推定と検定 3-2-1 正規性の検定 3-2-2 等分散性の検定 3-2-3 判別係数の検定 3-2-4 誤判別の確率 3-3 デフォルト・非デフォルトの判別 3-3-1 2変量による判別分析 3-3-2 5変量による判別分析 3.1.1 2変量判別分析 • 2つの共変量 を考える • 企業群として非デフォルト・グループを第1群、 デフォルト・グループを第2群と呼ぶ • 第k群の共変量 に対する 母平均ベクトル と母共分散行列 を それぞれ 3.1.1 2変量判別分析 , 母相関係数 と書くことができる を用いると、 3.1.1 2変量判別分析 共変量 が2変量正規分布に 従うと仮定する の同時密度関数は で与えられるとする 3.1.1 2変量判別分析 はマハラノビス距離(Mahalanobis generalized distance)と呼ばれ、点xと各群 の重心 との距離を表している マハラノビス距離って? マハラノビス距離は,通常 のユークリッド (Euclidean)距離と異なり,分布を考慮にい れた距離で,マハラノビス距離が小さい方の 部分 母集団の方が x の近傍のような値が得 られる確率が高い(起こりやすい)ことを意味 している.つまり,マハラノビス距離の近い部 分母集団に対象を割り付ける,という判別規 則となる. マハラノビス距離って? 図 1.マハラノビス距離による判別 3.1.1 2変量判別分析 • 判別したい企業の共変量が であると する • 密度関数 はデータ の第k群 における起こり易さ(尤度)を表している • 各群に対する同時密度関数の値の大きさを 比較して大きい方のグループに属すると判別 することにする 3.1.1 2変量判別分析 ⇒第1群に属すると判別 ⇒第2群に属すると判別 この判別方式において、第1群と第2群の判 別の境界は、 を満たす点の集合となる 3.1.1 2変量判別分析 (3.1)式に対数をとり、それらの差を計算すると、 ここで、両群の共分散行列が等しい(等分散性) を仮定する 3.1.1 2変量判別分析 ここで、 および で与えられる は判別係数と呼ばれ、 3.1.1 2変量判別分析 2つの群の共分散行列が同じ場合には、 (3.5)式のように判別の境界は線形式で表さ れる この判別式は線形判別関数と呼ばれ、スコア Zの符号により判別を行うことができる 3.1.1 2変量判別分析 判別方式(3.3)における判別は Z>0 ⇒ Z<0 ⇒ は第1群に属すると判別 は第2群に属すると判別 という判別方式に帰着される 3.1.1 2変量判別分析 (3.8)はマハラノビス距離 を使えば、 は第1群に属すると判別 は第2群に属すると判別 と同値である 3.1.1 2変量判別分析(まとめ) 等分散性(3.4)の仮定の下では判別式(3.5) は線形となり、判別(3.8)はスコアZの符号に より行われる しかし、等分散性が仮定できない場合には、 (3.3)のような非線形的な判別方式を用いな ければならない 非線形判別関数は扱いが困難になるため一 般に用いられることは少ないようである、らし い Outline 3-1 判別分析とは 3-1-1 2変量判別分析 3-1-2 多変量判別分析 3-2 判別係数の推定と検定 3-2-1 正規性の検定 3-2-2 等分散性の検定 3-2-3 判別係数の検定 3-2-4 誤判別の確率 3-3 デフォルト・非デフォルトの判別 3-3-1 2変量による判別分析 3-3-2 5変量による判別分析 3.1.2 多変量判別分析 多変量判別分析も2変量の場合とまったく同 様に考えることができる 第k群の共変量ベクトルを とし、 はm変量正規分布に従うと仮定する 3.1.2 多変量判別分析 各群の母平均ベクトル: 各群の母共分散行列: とすると、 の同時密度関数は で与えられる 3.1.2 多変量判別分析 ここで、 は行列 の行列式で、 はm変量マハラノビス距離であり、また とおいた 3.1.2 多変量判別分析 2変量の場合(3.3)と同様に、判別方式として (3.9)式の大小を比較すればよいが、等分散 性の仮定の下では、(3.5)式と同様の線形判 別関数を得ることができる 3.1.2 多変量判別分析 判別係数 は 3.1.2 多変量判別分析 共変量がm個ある場合でも、2変量の場合と まったく同じ手続きで線形判別関数 を得ることができる 等分散性の仮定の下では、判別方式は は第1群に属すると判断 は第2群に属すると判断 Outline 3-1 判別分析とは 3-1-1 2変量判別分析 3-1-2 多変量判別分析 3-2 判別係数の推定と検定 3-2-1 正規性の検定 3-2-2 等分散性の検定 3-2-3 判別係数の検定 3-2-4 誤判別の確率 3-3 デフォルト・非デフォルトの判別 3-3-1 2変量による判別分析 3-3-2 5変量による判別分析 3.2 判別係数の推定と検定 この節では、与えられた標本データから線形 判別関数(3.11)を得るために必要な推定と検 定について説明する 線形判別関数を用いるためには、共変量に 関する2つの重要な条件を仮定する必要 それは、なにかというと… 3.2 判別係数の推定と検定 ①正規性:企業を説明する共変量が多変量正 規分布に従う ②等分散性:各群における分散共分散構造が 等しい 本節では、標本データがこれらの仮定を満た しているかどうかの検定方法についても紹介 する 3.2 判別係数の推定と検定 非デフォルト企業グループを第1群 デフォルト企業グループを第2群 企業を説明するための共変量はm個 第k群に分類された 番目の企業の共変量ベ クトルを 第k群の標本数を とする 3.2 判別係数の推定と検定 判別分析では各群の母平均ベクトルと共分 散行列を推定する必要がある 平均の不偏推定量は 分散の不偏推定量は 共分散の不偏推定量は 実際の判別分析では、これらの標本統計量 を母数 として代用することで 判別を行う 平均ベクトルを 平均ベクトルを 共分散行列を とおく このとき、判別係数 このとき、判別係数 (3.12)式と(3.13)式で推定される は Outline 3-1 判別分析とは 3-1-1 2変量判別分析 3-1-2 多変量判別分析 3-2 判別係数の推定と検定 3-2-1 正規性の検定 3-2-2 等分散性の検定 3-2-3 判別係数の検定 3-2-4 誤判別の確率 3-3 デフォルト・非デフォルトの判別 3-3-1 2変量による判別分析 3-3-2 5変量による判別分析 3.2.1 正規性の検定 確率変数が正規分布に従うことを確認するた めの簡便法としてQ-Qプロットという方法があ る 3.2.1 正規性の検定 ある確率変数Xの分布関数をF(x)とすると、X の100pパーセント点とは、 を満たす点 のことである もしXが正規分布 に従うとすると で定義される確率変数Yは標準正規分布 に従う 3.2.1 正規性の検定 標準正規分布の分布関数を とおくと が成立する ただし、 は標準正規分布の100pパーセン ト点である 3.2.1 正規性の検定 確率変数Xが正規分布に従う場合にはパー セント点 と をプロット(Q-Qプロット) して直線かどうかを図形的に確かめることで 正規性を確認することができる 小さい順に並べたn個の標本データ に対し て、パーセント点 の推定値は で与えられる [a]はaを超えない最大の整数を表す 3.2.1 正規性の検定 標準正規分布に従う確率変数の3次と4次の モーメントはそれぞれ0と3であるから、確率 変数Xが正規分布N(μ,σ)に従う場合には となる 標本歪度と標本尖度を調べることで、ある程 度正規性の確認を行うことができる 3.2.1 正規性の検定 それぞれ、標本歪度と標本歪度 は標本平均、 は標本分散、 は標本数 十分大きなnに対して、 は正規分布 に従い、 は正規分布 に従うことが知られている これらの推定量に対して統計的検定を行うことで正 規性の検証が可能となる Outline 3-1 判別分析とは 3-1-1 2変量判別分析 3-1-2 多変量判別分析 3-2 判別係数の推定と検定 3-2-1 正規性の検定 3-2-2 等分散性の検定 3-2-3 判別係数の検定 3-2-4 誤判別の確率 3-3 デフォルト・非デフォルトの判別 3-3-1 2変量による判別分析 3-3-2 5変量による判別分析 3.2.2 等分散性の検定 2つの群の等分散性(3.4) に関す る検定方法を考える 2つの群の共分散行列が等しいと仮定できる 場合には線形判別関数 (3.11) を用いることができる そうでない場合には、非線形判別関数を用い なければならない 3.2.2 等分散性の検定 第k群の標本共分散行列 仮説と対立仮説を に対して、帰無 とおく 共分散行列が等しいという仮説 の元で、 統計量 が自由度 のカイ二乗分布に従う ことを利用する カイ2乗分布 標準正規分布N(0,1)に従う互いに独立な確 率変数 の2乗和として定義さ れる確率変数 は自由度mのカイ2乗分布に従う カイ二乗検定 検定統計量 mは共変量の数 自由度 のカイ二乗分布の100αパーセント 点を とおく とする 3.2.2 等分散性の検定 もし統計量 が を満たすならば、帰無仮説 は棄却されない ことになる ただし、統計的仮説検定の立場は、帰無仮説 を棄却する場合には積極的に、棄却しない場 合には消極的に支持するということが原則で あることを思い出そう!! 3.2.2 等分散性の検定 上記の検定をとおして等分散性が棄却できな い場合には、2つの群に対する共分散行列が 等しいと(消極的に)仮定することになる この場合の共分散行列の不偏推定量は で与えられる Outline 3-1 判別分析とは 3-1-1 2変量判別分析 3-1-2 多変量判別分析 3-2 判別係数の推定と検定 3-2-1 正規性の検定 3-2-2 等分散性の検定 3-2-3 判別係数の検定 3-2-4 誤判別の確率 3-3 デフォルト・非デフォルトの判別 3-3-1 2変量による判別分析 3-3-2 5変量による判別分析 3.2.3 判別係数の検定 等分散性 の仮説が棄却できない 場合には、判別関数は線形となり、 で与えられた この項では、推定された判別係数 方法を考える の検定 3.2.3 判別係数の検定 この検定には 2つの群の重心間のマハラノビス距離に関し て、m個の共変量のすべてを用いた距離 検定した1つの係数に対応する共変量を除い た(m-1)個の共変量による距離の統計的性 質 の二つを利用する 3.2.3 判別係数の検定 (3.17)で推定された共分散行列 に対して、 2つの群の重心間のマハラノビス距離を 第i番目の共変量を除いた(m-1)変量を用い たときのマハラノビス距離を とおく 3.2.3 判別係数の検定 帰無仮説と対立仮説を とした場合には で定義される統計量は自由度 のF分布に従うことが知られている 3.2.3 判別係数の検定 自由度 パーセント点 でのF分布の100α に対して、統計量 を満たすならば帰無仮説 は(積極的に)棄 却され、(係数 が0でないので)共変量 は意味をもっていることになる F分布 互いに独立なカイ二乗分布に従う2つの確率 変数SとV(自由度はそれぞれmとn)で定義さ れる は自由度(m,n)のカイ二乗分布に従う Outline 3-1 判別分析とは 3-1-1 2変量判別分析 3-1-2 多変量判別分析 3-2 判別係数の推定と検定 3-2-1 正規性の検定 3-2-2 等分散性の検定 3-2-3 判別係数の検定 3-2-4 誤判別の確率 3-3 デフォルト・非デフォルトの判別 3-3-1 2変量による判別分析 3-3-2 5変量による判別分析 3.2.4 誤判別の確率 推定された線形判別関数による誤判別の確 率を求める ここでは第1群の標本を第2群と判別してしま う誤判別について考える(第2群の標本を第1 群と判別する誤判別についても同様である) 3.2.4 誤判別の確率 線形判別関数 に対して、標本データ が第1群に属するデータであるとする この場合には、標本 の平均は 分散は仮定から 3.2.4 誤判別の確率 線形判別関数 の平均は となり、これはマハラノビス距離の半分の値で ある 3.2.4 誤判別の確率 スコアZの分散は であるので、これはマハラノビス距離 ものである その 3.2.4 誤判別の確率 したがって、標本 が第1群に属するデータ の場合には、スコアZは 正規分布 に従うことになる 第1群の標本データ を第2群と判別するの はZ<0の場合であり、Z~ となる ので、この誤判別の確率は 3.2.4 誤判別の確率 ここで は標準正規分布の分布関数 (3.14)である
© Copyright 2024 ExpyDoc