第1章

「入門 パターン認識と機械学習」章末問題のヒント略解と解説
1
パターン認識と統計的学習の概要
1. パターン分類は,すでに所属するクラスが分かっている学習データを用いて学習し (教師あり学習),
新たなパターンがどのクラスに属するのかを予測する問題をいう.過去のデータとして,パターンと
クラスの組からなる学習データが与えられ,この学習データを学習させることで識別器を構成する.
具体例については各自考えること (テキストにも事例がある).
クラスタリング問題とは,与えられた複数のパターンをそれらの類似度や距離によって似たもの同士
を自動グルーピングする問題をいう.予めクラスが与えられている訳ではないが,特徴ベクトルの類
似性によってグループ(クラスタ)が作られることになる.具体例については各自考えること.
2. 「線形分離不可能」とは,平面で 2 つのクラスを分類できないことを指す.従って,2 つのクラスが
重なっていたり,直線できれいに分離できないような例を図示すればよい.例えば,テキスト P.30 の
図 3.2 はその一例である.
3. 各クラス c1 , c2 , · · · cM のそれぞれに対し,ある関数 g1 (x), g2 (x), · · · , gM (x) を対応させ,
cˆ = arg max gi (x)
ci ∈C
という式によって,x の属するクラスを判定する方法を識別関数法といい,これらの gi (x) を識別関
数 (discriminant function) という.事後確率最大のベイズ識別では,識別関数として,
gi (x) = p(x|ci )P (ci )
または,
gi (x) = log p(x|ci ) + log P (ci )
を用いた識別関数法とみなすことができる.一般に,これらの M 個の関数へ x を代入した値を容易
に計算できれば,これらの値の比較によって特徴ベクトルが属するクラスを推定することができる.
4. クラス c から発生したパターンを間違ってクラス c′ に属していると判断した時の損失として,損失関
数 l(c, c′ ) を考えると,平均損失
∑
L(c|x) =
l(c, c′ )P (c′ |x)
c′ ∈C
を考えることができる.これを最小にする c を x が属するクラスであると決定する方法は,平均損失
を最小化するという意味で最適であり,ベイズ最適な決定と呼ばれている.
ここで,最も基本的な損失関数として,0-1 損失
{
l(c, c′ ) =
0,
1,
c = c′
c ̸= c′
を仮定する.このとき,入力パターン x に対する損失の期待値は,
L(c|x)
∑
=
l(c, c′ )P (c′ |x)
c′ ∈C
= 1 − P (c|x)
1
となる.この平均損失を最小化する cˆ は
cˆ = arg max {log P (c|x)}
c∈C
= arg max {log p(x|c) + log P (c)}
c∈C
で与えられる.この識別を事後確率最大のベイズ識別という.
5. g1 (x) = x2 − 9 と g2 (x) = −x2 + 9 の大小関係を考える.識別関数法では,g1 (x) > g2 (x) であれば
c1 に,g1 (x) < g2 (x) であれば c2 に判別されるので,
−3 < x < 3 ⇒
x < −3, 3 < x
⇒
cˆ = c1
cˆ = c2
(1)
である.数直線上にこれを図示すればよい.
6. 分散共分散行列を見ると,共分散が 0 であるので,2 次元正規分布の 2 変数間に相関はない.x = (x1 , x2 )
の分布は,x1 方向に分散が 9(標準偏差が 3),x2 方向に分散が 4(標準偏差が 2)の正規分布になる.
事後確率最大のベイズ識別は,
cˆ = arg max {log P (c|x)}
c∈C
}
{
p(x|c)P (c)
= arg max
c∈C
p(x)
= arg max {p(x|c)P (c)}
c∈C
で与えられるが,問題 (2) では,P (c1 ) = P (c2 ) = 1/2 が仮定されているので,
cˆ = arg max {p(x|c)}
c∈C
となる.この場合,全く同じ共分散行列を持ち,平均値がそれぞれ (0, 0),(3, 3) にあることがわかる.
この場合,p(x|c1 ) と p(x|c2 ) を比べて,大きい方のクラスを選ぶ決定がベイズ識別となる.すなわ
ち,2 つのクラスの確率密度が同じ高さを持つ図形 (p(x|c1 ) = p(x|c2 ) を解いた図形) が,両クラスの
識別境界を与える.
xϮ
8xϭ+ 18xϮ -39 = 0
3
xϭ
3
ᜤК‫ؾ‬မ
図 1: 確率密度関数の等高線と識別境界
2
それぞれのクラスの 2 次元正規分布の確率密度は,
{
(
)}
1
1 (x1 − 0)2
(x2 − 0)2
p(x|c1 ) =
exp
−
+
2π(32 + 22 )
2
32
22
p(x|c2 ) =
{
(
)}
1
1 (x1 − 3)2
(x2 − 3)2
exp
−
+
2π(32 + 22 )
2
32
22
となるので,
{
(
)}
{
(
)}
1
1 (x1 )2
(x2 )2
1
1 (x1 − 3)2
(x2 − 3)2
exp −
+ 2
=
exp −
+
2π(32 + 22 )
2
32
2
2π(32 + 22 )
2
32
22
より,
(x1 )2
(x2 )2
(x1 − 3)2
(x2 − 3)2
+ 2 =
+
2
2
3
2
3
22
となり,これを説くと,8x1 + 18x2 − 39 = 0,すなわち,
4
39
x2 = − x1 +
9
18
が識別境界線であることがわかる.
7. 確率分布 p(x|c1 ), p(x|c2 ) の分散共分散行列 Σ ,
(
)
4 −2
Σ=
−2 4
は,固有値 λ = 6, 2 をもち,λ = 6 のときの固有ベクトルは
(
) (
)
x1
t
=
x2
−t
で与えられ (t ̸= 0),λ = 2 のときの固有ベクトルは
(
) ( )
x1
s
=
x2
s
で与えられる (s ̸= 0) ことに注意しよう.
xϮ
2
-2
2
xϭ
-2
ᜤК‫ؾ‬မ
図 2: 確率密度関数の等高線と識別境界
3
√
√
6 倍,(1, 1)T の方向に 2 倍し,平
均値が (2, 2) になるように平行移動した正規分布である.一方,c2 の正規分布は,同様に標準正規分
√
√
布を (1, −1)T の方向に 6 倍,(1, 1)T の方向に 2 倍し,平均値が (−2, −2) になるように平行移動
した正規分布である (付録の正規分布に関する解説を参考のこと.分散 1,共分散 0 の標準正規分布
を,ある方向へ λ 倍したような正規分布多次元正規分布の分散共分散行列の固有値は λ2 で与えられ,
すなわち,c1 の正規分布は,標準正規分布を (1, −1)T の方向に
λ 倍した方向ベクトルが固有ベクトルとなる).
また,ベイズ最適な識別を考えると,
cˆ = arg max p(x|c)P (c)
c
なので,クラスの事前確率を等しく P (c1 ) = P (c2 ) = 1/2 とした場合の事後確率最大のベイズ識別
は,p(x|c1 ), p(x|c2 ) の大小関係で決まる.
この場合,全く同じ共分散行列を持ち,平均値が原点対象で (2, 2),(−2, −2) にあることから,2 つ
のクラスの確率密度が同じ高さを持つ図形を描くと x2 = −x1 であることはすぐに分かる (2).
(注) この問題では共分散がマイナスであったので負の相関があり,そのため第 1 主成分が x2 = −x1 の
ように反比例方向である.もし,共分散が正であれば 正の相関があるので,第 1 主成分として x2 = x1
のような正比例方向の主成分が得られるであろうことに注意しよう.慣れると,これらのような二次
元の共分散行列であれば,ぱっと見ただけで主成分の方向が想像できるようになる.
4