第3章

「入門 パターン認識と機械学習」章末問題のヒント略解と解説
3
線形識別の方法
1. 異なるクラスに属するデータを,線形識別関数によって誤識別なく判別可能であるとき,このような
データを線形分離可能という.具体的な例は,P.30 の図 3.1 を参照のこと.
2. P.30 の図 3.2 が一つの例.他にも二次元空間上で,2 つのクラスのデータ分布が重なりを持たないにも
関わらず,直線でこれらを分離できないような例は様々なものを作ることができるので考えてみよう.
3. P.33 に詳細な解説があるため省略.
4. P.34 の議論から,
∂JF (w)
∂w
=
=
=
=
=
∂JF (w) ∂ x
˜1
∂JF (w) ∂ x
˜2
∂JF (w) ∂ σ
˜12
∂JF (w) ∂ σ
˜22
+
+
+
2
2
∂x
˜1 ∂w
∂x
˜2 ∂w
∂σ
˜1 ∂w
∂σ
˜2 ∂w
∂JF (w)
∂JF (w) ˆ
∂JF (w) ˆ
∂JF (w)
¯1 +
¯2 +
x
x
2Σ1 w +
2Σ2 w
∂x
˜1
∂x
˜2
∂σ
˜12
∂σ
˜22
n1 n2 2(˜
x1 − x
x1 − x
n1 n2 2(˜
˜2 )
˜2 )
¯1 −
¯2
x
x
2
2
2
˜2
˜22
n n1 σ
˜ 1 + n2 σ
n n1 σ
˜ 1 + n2 σ
n1 n2 n1 (˜
n1 n2 n2 (˜
x1 − x
˜2 )2 ˆ
x1 − x
˜ 2 )2 ˆ
−
2Σ1 w −
2Σ2 w
2
2
2
2
˜2 )
˜22 )2
n (n1 σ
˜ 1 + n2 σ
n (n1 σ
˜ 1 + n2 σ
{
) }
n1 n2 2(˜
(˜
x1 − x
˜ 2 )2 ( ˆ
x1 − x
˜2 )
ˆ
¯
(¯
x
−
x
)
−
n
Σ
+
n
Σ
1
2
1 1
2 2 w
˜22
˜22 )2
n n1 σ
˜12 + n2 σ
(n1 σ
˜12 + n2 σ
0
従って,
¯ 2) −
(¯
x1 − x
より,
であるので,
)
(˜
x1 − x
˜2 )2 ( ˆ
ˆ2 w = 0
n
Σ
+
n
Σ
1
1
2
(n1 σ
˜12 + n2 σ
˜22 )2
(
)
ˆ 1 + n2 Σ
ˆ2 w
¯ 2 ) ∝ n1 Σ
(¯
x1 − x
(
)−1
ˆ 1 + n2 Σ
ˆ2
¯ 2)
w ∝ n1 Σ
(¯
x1 − x
が得られる.
5. ϵ を小さくし過ぎた場合,学習におけるウエイトの修正は最急降下方向に微小量だけ行われることに
なる.従って,毎回の更新において,ウエイトが少しずつしか変更されないため,学習がなかなか進
行せず,膨大な回数のウエイト更新が必要となってしまう.そのため,学習の計算時間も膨大になっ
てしまう.
一方,ϵ を大きくし過ぎた場合,毎回のウエイト修正は,最急降下方向に向かって大きく変更される
ため,極小値付近においてウエイトが収束せず,行ったり来たりするといった振動が起こってしまう.
以上のことから,学習係数 ϵ は,学習のための計算量と収束性を考慮して,適切な大きさに設定され
るべきである.
1
4
ナイーブベイズ法
1. テキストにも記載があるように,ナイーブベイズ法では,特徴ベクトルの各変数が,互いに独立にあ
る確率分布に従って生起していることを仮定している.すなわち,変数間の独立性,並びに各変数に
対して 1 変数確率モデルが仮定されている点が特徴である.
2. ナイーブベイズ法がうまく働かないケースとしては,例えば,次のような場合が考えられる.
(1) 変数間の相関が強く,独立性が仮定できないような場合.
(2) 各変数に対して,確率モデルが仮定できないような場合.
(3) 識別境界が非線形で,複雑な形状をしている場合.
2