目的変数のある分析 判別分析(今回のポイント)

目的変数のある分析
- 判別分析 (discriminant analysis)
1変数・2群で線形判別
試験科目:データ解析
試験時間: 8月4日(木)4限
試験教室:A203教室(3年生以上)
A202教室(2年生)
間違いないように!!!
各自でよく復習して下さい
判別分析(今回のポイント)
◎判別分析と回帰分析の相違点
◎正規分布(復習)
◎1変数で2群を判別する方法
平均値だけで判別
平均と分散で判別
データ形式
Y
X1
1
y1
x11
xp1
2
y2
x12
xp2
yN
x1N
xpN
集団変数y
目的変数y
目的変数yが量的(連続的)なデータの場合
Xp
...
N
回帰分析
...
標本変数x
回帰分析の予測値
yi   0  1 x1i   2 x2i     p x pi  ei
線形回帰式:
線形回帰モデル
定数項
yi   0  1 x1i   2 x2i     p x pi  ei
yˆ i  ˆ0  ˆ1 x1i  ˆ 2 x2i    ˆ p x pi
回帰係数の推定
(偏)回帰係数
推定値 ŷi は、観測値 yi との
差 ei ができるだけ小さくなるように求める
1
判別分析
線形

目的変数yが質的(カテゴリ的)

目的変数が2値(2群)型の例
• 顔(y=+1)と非顔(背景)(y=‐1)
• 疾病群(y=‐1)と正常群(y=+1)
• 支持派(y=+1)と反対派(y=‐1)
非線形
判別分析:線形判別関数による
ある程度重複する部分を持つ2つの母集団が与えられた
とき、新しいサンプルはどちらの母集団に属するか、誤っ
て判別する確率ができるだけ小さくなるような、ある関数
を求めることが判別分析法と呼ぶ。
• ...
正事例(顔):y=+1
負事例(非顔)y=‐1
xは24*24=576次元の明るさのベクトル
群の分離の測度
線形判別関数
zi  1 x1i   2 x2i     p x pi
係数は観測されている2群のデータを最もよく判別する
ように決める
Aクラス
相関比  を最大
2
Bクラス
クラス内分散
ST  S B  SW
①
②
 2  S B / ST  1  SW / ST
ST  S B  SW
総平方和(Total)=群間平方和(Between)+群内平方和(Within)
2 = SB /ST = 相関比(の2乗)
 = SB / SW = 分散比(平方和の比) フィッシャー比
SB
ST
← SBが大きいほど相関比が増大
 1
SW
ST
← SWが小さいほど相関比が増大
 1
SW
← SB / SWの比が小さいほど相関比
S B  SW 増大
η2 
クラス間分散
総平方和(Total)=群間平方和(Between)+群内平方和(Within)
判別分析:マハラノビス汎距離による
判別関数式を作成することなく、未知サンプルが各群
の平均までどれほどの距離があるかを調べ、もっとも近
い距離の群に属すると判定
がくの長さとがくの幅の二変量の関係
4.5
Setosa領域
が くの 幅
4.0
3.5
未知サンプル
Setosaの95%確率楕円内
Virginica、Versicolorの
95%確率楕円の外
1変数で2群を判別する場合の
判別分析の仕組み
3.0
2.5
2.0
それ以外
4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
がくの長さ
このデータ は、Setosaと
考えるのが妥当であろう
Virginicaの可能性が高い
Setosa以外だが、Virginicaか、Versicolorかまでは分からない
2
2
正規分布 N (  ,  ) (復習)
正規分布のグラフと平均μの関係
特徴として、
0.3

・
0.2
・
-2
-1
 
0.3
一次微分が不連続なところ
0.1
0
-3
= 1)
0.4
変曲点とは,カーブの向きが変わる境目
変曲点
標準偏差が一定(σ
平均μによる変化
・x=μについて左右対称
・x=μのところ最大
・μ±σで変曲点をもつ

・±∞で0に漸近
0.4
0

1
 
2
積分の面積=1
3
0.2
1 x
)2
 (
1
e 2 
2 
期待値(平均値) E ( X )   , 分散V ( X )   2
密度関数 f ( x) 
0.1
-4
正規分布のグラフと分散σの関係
標準偏差σによる変化
2
4
正規分布のグラフと平均μ&分散σの関係
積分の面積=1
平均μと標準偏差σによる変化
積分の面積=1
0.8
0.8
2)
dnorm(x, 0, 0.5)
0.4
0.6
平均が一定(μ=
σ= 1.0
0.2
σ= 1.5
0.4
σ= 0.5小さい
0.6
0.2
-2
σ= 2.0大きい
x
0.0
-5
5
10
各群の分布が正規分布と仮定
-4
-2
0
2
4
各群の平均と未知個体 との距離
が違い、 が同じ
2
1
分散が同じの場合
分散が同じの場合
確 率密 度
0.8
群1の平均 群2の平均
0.6
群1の平均との距離
0.4
群2の平均との距離
0.2
群1の平均
群2の平均
各群のサンプルデータより平均と分散を求めることができる
6
7
未知個体
8
9
変数の値
10
11
12
13
3
判別分析の例
1変数(身長)、2群(男・女)判別
平均値だけ考慮する判別分析
身長のデータを使って、男性か女性かを判別
性別が未知の人に対し、その人の身長 x より判別
男性の身長の平均値Mと女性の身長の平均値Fとの差
をそれぞれ計算
1
xM  xF
確 率密 度
0.8
多分女性
0.6
0.4
0.2
xM  xF
 (1)   ( 2 )
  なら x  G2
2
(1)
( 2)
 
x  c0 
  なら x  G1
2
x   なら x  G1 or G2 x  c0 
平均だけ考える
1
6
7
8
未知個体
9
変数の値
10
11
12
13
判別したい2群の平均値と未知個体(サンプル)の距離を
求め、より近い方の群(グループ)に属していると判断
身長が高い人は「多分男性」
身長が低い人は「多分女性」
判別には
多分男性
演習課題1
群2:
1変数(身長)、2群(男女)判別
群1:
 判別関数 : z  x  
分散が同じ
0.8
群2の平均
判別点c0  
0.6
群1の平均
との距離
両平均値の中点
0.4
身長が164cm、165cm、166cmの人の性別を判別して
見てください。
1) 平均値だけ判断する場合
群2の平均
との距離
6
7
8
9
変数の値
10
11
12
13
各群の平均と未知個体 との距離
(群ごとの分散が異なるとき)
分散が異なる場合の判別
1
0.8
平均だけ考える:
x  c0 
1
と 2が両方違う
分散が異なる場合
0.8
 
(1)
(2)
2
  なら x  G2
確 率密 度
0.2
確 率密 度
確 率密 度
群1の平均
G1
0.6
G2
0.4
0.2
 (1)   ( 2 )
  なら x  G1
未知個体
2
x   なら x  G1 or G2  判別関数 : z  x  
x  c0 
0.6
群1の平均との距離
7
8
9
変数の値
10
11
12
13
平均と分散を両方とも考える:
群2の平均との距離
0.4
6
D12 
0.2
( x   (1) ) 2
1
2
, D22 
( x   ( 2) ) 2
 22
マハラノビス距離の二乗
D12  D22  0 なら x  G2
6
未知個体
7
8
9
変数の値
10
11
12
13
D12  D22  0 なら x  G1
D12  D22 なら x  G1 or G2  判別関数 : z  D12  D22
4
演習課題2
群2:
1変数(身長)、2群(男女)判別
群1:
平均・分散を考慮した判別分析
男性の身長の標準偏差:σ2=10cm
女性の身長の標準偏差:σ1 = 5cm
身長が165cmの人
男性の平均身長から5cm離れている
平均だけ考える
女性の平均身長から5cm離れている
分散も考慮する
身長が165cmの人の性別を判別して見てください。
2) 平均と標準偏差値で判断する場合
女性の平均身長から 1σ1離れている
平均だけ判定できないが、分散も考慮すると身長165cm
の人は男性の可能性(確率)が高い
判別分析の宿題
62
合格
不合格 40
59
59
63
51
65
53
目的変数のある分析
61
48
- 判別分析 (discriminant analysis)
?
49
49点の人はどのグループに判定されることを計算結果
に基づいて答えなさい。
1)平均値だけ考える場合
2)平均と分散両方考える場合
2変数・2群で線形判別
◎マハラノビス距離
たとえば…
2変数・2群で線形判別

この線の
左上か右下か
で判別!
誤識別あり
男性の平均身長から0.5σ2離れている
Fisherのirisデータで2群の判別をする
Iris Versicolor
Iris Sotosa
誤識別なし
この線が
線形判別関数
aTx  b
誤識別あり
R.A. Fisher, The Use of Multiple Measurements in Taxonomic Problems,
Annals of Eugenics, v. 7, p. 179-188 (1936)
5
たとえば…
あやめ(iris)の問題
観測変数が4つ




Fisherのirisデータで2群の判別をする
Sepallen(がく長) or sepalwid (がく幅)を使って判別
Variables
• X1 Sepal length(がく長)
• X2 Sepal width(がく幅)
• X3 Petal length(花びら長)
• X4 Petal width(花びら幅)
Iris Versicolor
“What linear function of the four measurements will
maximize the ratio of the difference between the
specific means to the standard deviations within
species?” R.A. Fisher
どのようなX1~X4の線形組合わせは一番2種類の花が区別し易い?
Iris Sotosa
R.A. Fisher, The Use of Multiple Measurements in Taxonomic Problems,
Annals of Eugenics, v. 7, p. 179-188 (1936)
sepalwid
Sepallen(がく長)という1変数を使って判別
(がく幅)という1変数を使って判別
(がく幅)
(がく長)



Fisherのirisデータで2群の判別をする
Sepallen(がく長) or sepalwid (がく幅)を使って判別
観測変数は2個(花顎の幅と長さ)を使って判別
Iris Sotosa
Iris Versicolor
sepalwid (がく幅)とSepallen(がく長)の2変数で線形判別
(がく長)
たとえば…
この線の
左上か右下か
で判別!
これが
線形判別関数
R.A. Fisher, The Use of Multiple Measurements in Taxonomic Problems,
Annals of Eugenics, v. 7, p. 179-188 (1936)
(がく幅)
aTx  b
この場合フィッシャー比が最大
6