判別分析

Ch.3 判別分析
(discriminant analysis)
参考文献
 柳井晴夫・高木廣文(1986)『多変量解析ハンドブッ
ク』現代数学社
 柳井・岡太・繁桝・高木・岩崎(2002)『多変量解析実
例ハンドブック』朝倉書店
 石村・石村(2007)『入門はじめての多変量解析』東
京図書
 大村平(2006)『多変量解析のはなし』日科技連
 竹村・谷口(2003)『統計学の基礎Ⅰ』岩波書店
Outline
3-1 判別分析とは
3-1-1 2変量判別分析
3-1-2 多変量判別分析
3-2 判別係数の推定と検定
3-2-1 正規性の検定
3-2-2 等分散性の検定
3-2-3 判別係数の検定
3-2-4 誤判別の確率
3-3 デフォルト・非デフォルトの判別
3-3-1 2変量による判別分析
3-3-2 5変量による判別分析
3.1 判別分析とは?
与えられた複数の個体をそれらが有する変
量に基づいて2つ(あるいはそれ以上)の群の
いずれに属するかを判別する多変量解析の
手法の一つである。
多変量解析とは?
 統計的多変量解析(statistical multivariate analysis)とは、
複数個の変量によって特徴づけられた多変量データの相関
関係を分析する一連の統計的手法の総称
 20 世紀初めから,F.ゴールトン,K.ピアソン, R.A.フィッ
シャー,マハラノビス P.C.Mahalanobis らによって生物学
の分野に, C.E.スピアマン,サーストン L.L.Thurstone, H.
ホテリングらによって計量心理学などの分野に先駆的に導
入された
 最近ではコンピューター利用の急速な発展により, 統計処
理が容易に行えるようになったことによって, 工程解析,市
場分析,品質解析,財務分析, 社会調査,計量診断,薬効
検定などへ広く活用されている。統計的手法の中で多変量
データに関する分析手法のことをいう
多変量解析とは?
回帰分析、分散分析、主成分分析、因子分
析、判別分析、クラスター分析、数量化理論
などの手法がありそれぞれの応用分野で独
自の発展をしている
計算機技術の発展とともに、アルゴリズムの
観点から新しい多変量解析的手法が数多く
提唱されるようになってきており、多変量解析
手法はさらに広がりを見せている
多変量解析とは?
歴史的には,1 変量の正規分布を前提とする
平均や分散に関する推定や検定の理論を多
変量正規分布の場合に拡張する研究が先行
したが, 現在では,n個の対象のおのおのに
ついてp種類の変数の値が観察されている形
式を基本とする多変数データを実際的に解析
する種々の手法が開発されている。
多変量解析とは?
 工学(パターン認識・電子部品の寿命実験、自動車の揚力特
性の推定、合金設計)
 建築学・土木・交通工学
 生物学・農学・人類学
 医学・歯学
 看護学・公衆衛生学
 体育学・スポーツ学
 経済学・経営学
 政治学・社会学
 心理学(性格心理学、実験心理学)
 言語学・計量文献学
 家政学・文化人類学(栄養学・被服学)
多変量解析手法の位置付け
 被説明変数1つ
■連続的→重回帰分析
■カテゴリー的→判別分析
 被説明変数複数
■連続的→多変量分散共分散分析、正準相関分析
■カテゴリー的→正準相関分析
 被説明変数なし
■連続的→因子分析、クラスター分析、多次元尺度法
■ノンパラメトリックな尺度法
余談ですが…
多変量の3原則(『大統計大マンダラ』からの引
用)
なめてはいけない.
知ったかぶりは禁物.
すなおに「分かりません」と言うべし.
だそうです…
判別分析の手順
 一般に判別分析は次の2つのステップを通
じて個体の識別をおこなう
1. すでに所属群が判明している複数個体の
データ集合を解析し、判別規則を構成する
2. 所属群が未知の個体のデータに判別規則
を適用し、この個体の所属群を出力する(例
題3.1)
判別分析の例( 医療分野)
医療分野の例
医療における集団検診の結果に対する自動
診断
受診者の年齢や血圧といった複数の検査
データに基づいて、各受診者が特定の疾患
かどうかを判別する
判別分析の例(金融分野)
ある企業がどの信用クラスに分類されるかを
企業の財務データから推定する
有価証券報告書にある経常利益率、金利負
担率、流動比率、当座比率などにより、企業
の倒産、非倒産を予測する
判別分析の例
ある紙幣が偽札か否かを、その紙幣のいくつ
かの特性値に基づいて判定したい
ある植物が既知の種のいずれに属するかを、
その植物の特性値に基づいて決定したい
外国の古戦場で発掘した頭蓋骨が、A人種の
ものか、B人種のものかを判別したい
K群の判別分析
A氏、B氏、C氏、D氏の4人のなかの誰かが
書いたことは確かである小切手がある。そこに
書かれている筆跡から、誰が書いたかを判別
する式をつくる
神経症はその状態によって、心配性、ヒステ
リー、精神病、脅迫観念、個性変化、正常状
態の6つに分かれている。3つの検査結果か
らどの状態であるかを判別したい。
第三章では、判別分析の基本的な概念を2
変量の場合と多変量の場合について説明し、
サンプル・データを用いて企業のデフォルト・
非デフォルトを判別する数値例を紹介する
判別分析は2群の判別のみならず多群の判
別にも適用可能であるが、ここでは2群の判
別についてのみ紹介する
Outline
3-1 判別分析とは
3-1-1 2変量判別分析
3-1-2 多変量判別分析
3-2 判別係数の推定と検定
3-2-1 正規性の検定
3-2-2 等分散性の検定
3-2-3 判別係数の検定
3-2-4 誤判別の確率
3-3 デフォルト・非デフォルトの判別
3-3-1 2変量による判別分析
3-3-2 5変量による判別分析
3.1 判別分析とは
ある企業に関して、その企業がデフォルト企
業グループと非デフォルトグループのどちら
に分類されるかという問題を考える
企業がデフォルトするかしないかを説明する
ための共変量(リスク・ファクター)として財務
指標やマーケット・データなどが考えられるが、
この節では共変量が与えられているとして判
別分析の考え方を説明する
Outline
3-1 判別分析とは
3-1-1 2変量判別分析
3-1-2 多変量判別分析
3-2 判別係数の推定と検定
3-2-1 正規性の検定
3-2-2 等分散性の検定
3-2-3 判別係数の検定
3-2-4 誤判別の確率
3-3 デフォルト・非デフォルトの判別
3-3-1 2変量による判別分析
3-3-2 5変量による判別分析
3.1.1 2変量判別分析
• 2つの共変量
を考える
• 企業群として非デフォルト・グループを第1群、
デフォルト・グループを第2群と呼ぶ
• 第k群の共変量
に対する
母平均ベクトル
と母共分散行列
を
それぞれ
3.1.1 2変量判別分析

,

 母相関係数
と書くことができる
を用いると、
3.1.1 2変量判別分析
共変量
が2変量正規分布に
従うと仮定する

の同時密度関数は
で与えられるとする
3.1.1 2変量判別分析



はマハラノビス距離(Mahalanobis
generalized distance)と呼ばれ、点xと各群
の重心
との距離を表している
マハラノビス距離って?
マハラノビス距離は,通常 のユークリッド
(Euclidean)距離と異なり,分布を考慮にい
れた距離で,マハラノビス距離が小さい方の
部分 母集団の方が x の近傍のような値が得
られる確率が高い(起こりやすい)ことを意味
している.つまり,マハラノビス距離の近い部
分母集団に対象を割り付ける,という判別規
則となる.
マハラノビス距離って?

図 1.マハラノビス距離による判別

3.1.1 2変量判別分析
• 判別したい企業の共変量が
であると
する
• 密度関数
はデータ
の第k群
における起こり易さ(尤度)を表している
• 各群に対する同時密度関数の値の大きさを
比較して大きい方のグループに属すると判別
することにする
3.1.1 2変量判別分析

⇒第1群に属すると判別
⇒第2群に属すると判別
この判別方式において、第1群と第2群の判
別の境界は、
を満たす点の集合となる
3.1.1 2変量判別分析
 (3.1)式に対数をとり、それらの差を計算すると、
 ここで、両群の共分散行列が等しい(等分散性)
を仮定する

3.1.1 2変量判別分析

ここで、
および
で与えられる
は判別係数と呼ばれ、
3.1.1 2変量判別分析
2つの群の共分散行列が同じ場合には、
(3.5)式のように判別の境界は線形式で表さ
れる
この判別式は線形判別関数と呼ばれ、スコア
Zの符号により判別を行うことができる
3.1.1 2変量判別分析
判別方式(3.3)における判別は
Z>0 ⇒
Z<0 ⇒
は第1群に属すると判別
は第2群に属すると判別
という判別方式に帰着される
3.1.1 2変量判別分析
(3.8)はマハラノビス距離
を使えば、
は第1群に属すると判別
は第2群に属すると判別
と同値である
3.1.1 2変量判別分析(まとめ)
等分散性(3.4)の仮定の下では判別式(3.5)
は線形となり、判別(3.8)はスコアZの符号に
より行われる
しかし、等分散性が仮定できない場合には、
(3.3)のような非線形的な判別方式を用いな
ければならない
非線形判別関数は扱いが困難になるため一
般に用いられることは少ないようである、らし
い
Outline
3-1 判別分析とは
3-1-1 2変量判別分析
3-1-2 多変量判別分析
3-2 判別係数の推定と検定
3-2-1 正規性の検定
3-2-2 等分散性の検定
3-2-3 判別係数の検定
3-2-4 誤判別の確率
3-3 デフォルト・非デフォルトの判別
3-3-1 2変量による判別分析
3-3-2 5変量による判別分析
3.1.2 多変量判別分析
多変量判別分析も2変量の場合とまったく同
様に考えることができる
第k群の共変量ベクトルを
とし、
はm変量正規分布に従うと仮定する
3.1.2 多変量判別分析
各群の母平均ベクトル:
各群の母共分散行列:
とすると、
の同時密度関数は
で与えられる
3.1.2 多変量判別分析
ここで、
は行列
の行列式で、
はm変量マハラノビス距離であり、また
とおいた
3.1.2 多変量判別分析
2変量の場合(3.3)と同様に、判別方式として
(3.9)式の大小を比較すればよいが、等分散
性の仮定の下では、(3.5)式と同様の線形判
別関数を得ることができる
3.1.2 多変量判別分析
判別係数
は
3.1.2 多変量判別分析
共変量がm個ある場合でも、2変量の場合と
まったく同じ手続きで線形判別関数
を得ることができる
等分散性の仮定の下では、判別方式は
は第1群に属すると判断
は第2群に属すると判断
Outline
3-1 判別分析とは
3-1-1 2変量判別分析
3-1-2 多変量判別分析
3-2 判別係数の推定と検定
3-2-1 正規性の検定
3-2-2 等分散性の検定
3-2-3 判別係数の検定
3-2-4 誤判別の確率
3-3 デフォルト・非デフォルトの判別
3-3-1 2変量による判別分析
3-3-2 5変量による判別分析
3.2 判別係数の推定と検定
この節では、与えられた標本データから線形
判別関数(3.11)を得るために必要な推定と検
定について説明する
線形判別関数を用いるためには、共変量に
関する2つの重要な条件を仮定する必要
それは、なにかというと…
3.2 判別係数の推定と検定
①正規性:企業を説明する共変量が多変量正
規分布に従う
②等分散性:各群における分散共分散構造が
等しい
本節では、標本データがこれらの仮定を満た
しているかどうかの検定方法についても紹介
する
3.2 判別係数の推定と検定
非デフォルト企業グループを第1群
デフォルト企業グループを第2群
企業を説明するための共変量はm個
第k群に分類された 番目の企業の共変量ベ
クトルを
第k群の標本数を
とする
3.2 判別係数の推定と検定
判別分析では各群の母平均ベクトルと共分
散行列を推定する必要がある
平均の不偏推定量は
分散の不偏推定量は
共分散の不偏推定量は
実際の判別分析では、これらの標本統計量
を母数
として代用することで
判別を行う
平均ベクトルを
平均ベクトルを
共分散行列を
とおく
このとき、判別係数
このとき、判別係数
(3.12)式と(3.13)式で推定される
は
Outline
3-1 判別分析とは
3-1-1 2変量判別分析
3-1-2 多変量判別分析
3-2 判別係数の推定と検定
3-2-1 正規性の検定
3-2-2 等分散性の検定
3-2-3 判別係数の検定
3-2-4 誤判別の確率
3-3 デフォルト・非デフォルトの判別
3-3-1 2変量による判別分析
3-3-2 5変量による判別分析
3.2.1 正規性の検定
確率変数が正規分布に従うことを確認するた
めの簡便法としてQ-Qプロットという方法があ
る
3.2.1 正規性の検定
ある確率変数Xの分布関数をF(x)とすると、X
の100pパーセント点とは、
を満たす点
のことである
もしXが正規分布
に従うとすると
で定義される確率変数Yは標準正規分布
に従う
3.2.1 正規性の検定
標準正規分布の分布関数を
とおくと
が成立する
ただし、 は標準正規分布の100pパーセン
ト点である
3.2.1 正規性の検定
確率変数Xが正規分布に従う場合にはパー
セント点 と
をプロット(Q-Qプロット)
して直線かどうかを図形的に確かめることで
正規性を確認することができる
小さい順に並べたn個の標本データ に対し
て、パーセント点 の推定値は
で与えられる
[a]はaを超えない最大の整数を表す
3.2.1 正規性の検定
標準正規分布に従う確率変数の3次と4次の
モーメントはそれぞれ0と3であるから、確率
変数Xが正規分布N(μ,σ)に従う場合には
となる
標本歪度と標本尖度を調べることで、ある程
度正規性の確認を行うことができる
3.2.1 正規性の検定
 それぞれ、標本歪度と標本歪度
 は標本平均、 は標本分散、 は標本数
 十分大きなnに対して、
は正規分布
に従い、
は正規分布
に従うことが知られている
 これらの推定量に対して統計的検定を行うことで正
規性の検証が可能となる
Outline
3-1 判別分析とは
3-1-1 2変量判別分析
3-1-2 多変量判別分析
3-2 判別係数の推定と検定
3-2-1 正規性の検定
3-2-2 等分散性の検定
3-2-3 判別係数の検定
3-2-4 誤判別の確率
3-3 デフォルト・非デフォルトの判別
3-3-1 2変量による判別分析
3-3-2 5変量による判別分析
3.2.2 等分散性の検定
2つの群の等分散性(3.4)
に関す
る検定方法を考える
2つの群の共分散行列が等しいと仮定できる
場合には線形判別関数
(3.11)
を用いることができる
そうでない場合には、非線形判別関数を用い
なければならない
3.2.2 等分散性の検定
第k群の標本共分散行列
仮説と対立仮説を
に対して、帰無
とおく
共分散行列が等しいという仮説 の元で、
統計量
が自由度
のカイ二乗分布に従う
ことを利用する
カイ2乗分布
標準正規分布N(0,1)に従う互いに独立な確
率変数
の2乗和として定義さ
れる確率変数
は自由度mのカイ2乗分布に従う
カイ二乗検定
検定統計量
mは共変量の数

自由度 のカイ二乗分布の100αパーセント
点を とおく
とする
3.2.2 等分散性の検定
もし統計量
が
を満たすならば、帰無仮説 は棄却されない
ことになる
ただし、統計的仮説検定の立場は、帰無仮説
を棄却する場合には積極的に、棄却しない場
合には消極的に支持するということが原則で
あることを思い出そう!!
3.2.2 等分散性の検定
上記の検定をとおして等分散性が棄却できな
い場合には、2つの群に対する共分散行列が
等しいと(消極的に)仮定することになる
この場合の共分散行列の不偏推定量は
で与えられる
Outline
3-1 判別分析とは
3-1-1 2変量判別分析
3-1-2 多変量判別分析
3-2 判別係数の推定と検定
3-2-1 正規性の検定
3-2-2 等分散性の検定
3-2-3 判別係数の検定
3-2-4 誤判別の確率
3-3 デフォルト・非デフォルトの判別
3-3-1 2変量による判別分析
3-3-2 5変量による判別分析
3.2.3 判別係数の検定
等分散性
の仮説が棄却できない
場合には、判別関数は線形となり、
で与えられた
この項では、推定された判別係数
方法を考える
の検定
3.2.3 判別係数の検定
この検定には
2つの群の重心間のマハラノビス距離に関し
て、m個の共変量のすべてを用いた距離
検定した1つの係数に対応する共変量を除い
た(m-1)個の共変量による距離の統計的性
質
の二つを利用する
3.2.3 判別係数の検定
(3.17)で推定された共分散行列 に対して、
2つの群の重心間のマハラノビス距離を
第i番目の共変量を除いた(m-1)変量を用い
たときのマハラノビス距離を
とおく
3.2.3 判別係数の検定
帰無仮説と対立仮説を
とした場合には
で定義される統計量は自由度
のF分布に従うことが知られている
3.2.3 判別係数の検定
自由度
パーセント点
でのF分布の100α
に対して、統計量
を満たすならば帰無仮説 は(積極的に)棄
却され、(係数 が0でないので)共変量
は意味をもっていることになる
F分布
互いに独立なカイ二乗分布に従う2つの確率
変数SとV(自由度はそれぞれmとn)で定義さ
れる
は自由度(m,n)のカイ二乗分布に従う
Outline
3-1 判別分析とは
3-1-1 2変量判別分析
3-1-2 多変量判別分析
3-2 判別係数の推定と検定
3-2-1 正規性の検定
3-2-2 等分散性の検定
3-2-3 判別係数の検定
3-2-4 誤判別の確率
3-3 デフォルト・非デフォルトの判別
3-3-1 2変量による判別分析
3-3-2 5変量による判別分析
3.2.4 誤判別の確率
推定された線形判別関数による誤判別の確
率を求める
ここでは第1群の標本を第2群と判別してしま
う誤判別について考える(第2群の標本を第1
群と判別する誤判別についても同様である)
3.2.4 誤判別の確率
線形判別関数
に対して、標本データ
が第1群に属するデータであるとする
この場合には、標本 の平均は
分散は仮定から
3.2.4 誤判別の確率
線形判別関数
の平均は
となり、これはマハラノビス距離の半分の値で
ある
3.2.4 誤判別の確率
スコアZの分散は
であるので、これはマハラノビス距離
ものである
その
3.2.4 誤判別の確率
したがって、標本 が第1群に属するデータ
の場合には、スコアZは
正規分布
に従うことになる
第1群の標本データ を第2群と判別するの
はZ<0の場合であり、Z~
となる
ので、この誤判別の確率は
3.2.4 誤判別の確率

ここで
は標準正規分布の分布関数
(3.14)である