スライド

ニューラル情報処理 09 回
ロジスティック回帰分析
Ichiro Takeuchi
Nagoya Institute of Technology
Ichiro Takeuchi, Nagoya Institute of Technology
1/23
分類問題
▶
入力: x ∈ Rd , 出力: y ∈ {−1, +1}
▶
事後確率 P (y|x) が最大となるクラスへ分類する
▶
ベイズの公式
P (y|x) =
p(x|y)P (y)
p(x)
を使えば, 事前確率 p(y) と条件付確率 p(x|y) を用いて
事後確率を計算できる (前回の講義)
▶
事後確率 P (y|x) を直接推定できないか?
Ichiro Takeuchi, Nagoya Institute of Technology
2/23
事後確率を推定するモデル
▶
線形モデルを利用可能か?
P (y|x) = f (x) = w1 x1 + . . . + wd xd
▶
確率は 0 から 1 の範囲でなければならない
0 ≤ P (y|x) ≤ 1
▶
線形モデルは明らかにこの性質を満たさない
Ichiro Takeuchi, Nagoya Institute of Technology
3/23
ロジスティック関数
▶
ロジスティック関数 ψ
ψ(z) =
Ichiro Takeuchi, Nagoya Institute of Technology
1
1 + exp(−z)
4/23
ロジスティック回帰分析
▶
データ {(xi , yi )}ni=1 , xi ∈ Rd , yi ∈ {1, −1}
▶
ロジスティック回帰モデル
P (y = +1|x) = ψ(w1 x1 + . . . + wd xd ) = ψ(w⊤ x)
1
=
1 + exp(−w⊤ x)
P (y = −1|x) = 1 − ψ(w⊤ x)
=
exp(−w⊤ x)
1
=
⊤
1 + exp(−w x)
1 + exp(w⊤ x)
分子分母に exp(w⊤ x) をかける
Ichiro Takeuchi, Nagoya Institute of Technology
5/23
ロジスティック回帰分析の解釈 1(オッズ)
▶
ロジスティック回帰モデルを変形すると
log
P (y = +1|x)
= w1 x1 + . . . + wd xd
P (y = −1|x)
▶
確率の比を オッズ (odds) という
▶
ロジスティック回帰分析は対数オッズを線形モデルで表
したもの
▶
元々は, 成功する回数 (確率)/失敗する回数 (確率) とし
てギャンブルなどで使用
Ichiro Takeuchi, Nagoya Institute of Technology
6/23
ロジスティック回帰分析の解釈 2(オッズ比)
▶
▶
x が試験勉強を 8 時間以上するかしないかを表すとする
する: x1 = 1,
しない: x1 = 0
このとき, 試験に合格するか (y = 1) しないか (y = 0)
を判定したい
以下のロジスティック回帰モデルを考える
log
▶
このとき, 係数 w1 は
w1 = log
▶
P (y = +1|x)
= w1 x1 + · · · + wd xd
P (y = −1|x)
P (y = +1|x1 = 1, . . . xd )/P (y = −1|x1 = 1, . . . , xd )
P (y = −1|x1 = 1, . . . xd )/P (y = −1|x1 = 1, . . . xd )
と表される.
オッズの比は オッズ比 (odds ratio) と呼ばれ, リスク指
標としてよく用いられる
Ichiro Takeuchi, Nagoya Institute of Technology
7/23
ロジスティック回帰分析の学習
▶
学習データ



X =

n×d
x11 x12 · · · xid
x21 x22 · · · x2d
..
..
..
..
.
.
.
.
xn1 xn2 · · · xnd



,


y1
y2
..
.

y =

n×1






yn
▶
入力: xij ∈ R: i 番目の学習データの j 番目の入力
▶
出力: yi ∈ {−1, 1}: i 番目の学習データの出力
▶
最尤推定法 を使う
Ichiro Takeuchi, Nagoya Institute of Technology
8/23
最尤推定法(簡単な例題)
▶
1 次元正規分布 N (µ, σ 2 ) から発生した n 個の学習データ
x1 , . . . , xn
が与えられているとき, 平均 µ ∈ R を推定したい (σ 2 は
とりあえず既知とする).
Ichiro Takeuchi, Nagoya Institute of Technology
9/23
尤度
▶
▶
µ = 0.0 の分布から x1 = −0.2 が発生した確率
µ = 1.0 の分布から x1 = −0.2 が発生した確率
Probability Density
0.3
N(0, 1)
N(1, 1)
0.2
0.1
0
-4
Ichiro Takeuchi, Nagoya Institute of Technology
-2
0
Feature x
2
4
10/23
尤度
▶
▶
µ = 0.0 の分布から x2 = 1.0 が発生した確率
µ = 1.0 の分布から x2 = 1.0 が発生した確率
Probability Density
0.3
N(0, 1)
N(1, 1)
0.2
0.1
0
-4
Ichiro Takeuchi, Nagoya Institute of Technology
-2
0
Feature x
2
4
11/23
尤度
▶
▶
µ = 0.0 の分布から x1 = −0.2, x2 = 1.0 が発生した確率
µ = 1.0 の分布から x1 = −0.2, x2 = 1.0 が発生した確率
Probability Density
0.3
N(0, 1)
N(1, 1)
0.2
0.1
0
-4
Ichiro Takeuchi, Nagoya Institute of Technology
-2
0
Feature x
2
4
12/23
尤度
▶
▶
µ = 0.0 の分布から x1 , . . . , xn が発生した確率
µ = 1.0 の分布から x1 , . . . , xn が発生した確率
Probability Density
0.3
N(0, 1)
N(1, 1)
0.2
0.1
0
-4
Ichiro Takeuchi, Nagoya Institute of Technology
-2
0
Feature x
2
4
13/23
最尤推定法: 尤度の最大化
▶
尤度
L(µ) :=
n
∏
i=1
▶
(xi − µ)2
√
exp −
2σ 2
2πσ 2
)
対数尤度
ℓ(µ) :=
n
∑
i=1
▶
(
1
(
log
1
√
exp
2πσ 2
(
−(xi − µ)2
2σ 2
))
最尤推定法
µ∗ := arg max L(µ) = arg max ℓ(µ)
µ∈R
Ichiro Takeuchi, Nagoya Institute of Technology
µ∈R
14/23
課題 1
▶
学習データ {(xi , yi )}ni=1 , xi ∈ Rd , yi ∈ {−1, +1} が与え
られたとき, ロジスティック回帰分析の対数尤度関数が
ℓ(w) :=
n
∑
log
i=1
1
1 + exp(−yi w⊤ xi )
と表されることを示せ.
▶
ヒント: ロジスティック回帰分析における条件付確率
1
1 + exp(−w⊤ xi )
1
P (yi = −1|xi ) =
1 + exp(w⊤ xi )
P (yi = +1|xi ) =
Ichiro Takeuchi, Nagoya Institute of Technology
15/23
課題 1 の解答
Ichiro Takeuchi, Nagoya Institute of Technology
16/23
ロジスティック回帰分析の学習
▶
ロジスティック回帰の最尤推定法は非線形最適化問題
∗
w = arg max
w∈Rd
= arg min
w∈Rd
▶
n
∑
i=1
n
∑
(
log
1
1 + exp(−yi w⊤ xi )
)
(
)
log 1 + exp(−yi w⊤ xi )
i=1
課題 2: y = log(1 + exp(−x)) のグラフの概形を横軸を
x, 縦軸を y として描け
Ichiro Takeuchi, Nagoya Institute of Technology
17/23
ロジスティック回帰分析の損失関数
Ichiro Takeuchi, Nagoya Institute of Technology
18/23
分類の確からしさ
▶
分類境界から離れるほど確からしい?
200
Activity of gene B
180
160
140
120
100
80
100
Ichiro Takeuchi, Nagoya Institute of Technology
150
200
250
300
Activity of gene A
350
400
19/23
マージン
▶
分類境界からの (正しい方向へ) 距離を マージン という
200
Activity of gene B
180
160
140
120
100
80
100
▶
150
200
250
300
Activity of gene A
350
400
点と直線の関係を使うと
w ⊤ xi
マージン = yi
∝ y i w ⊤ xi
2
∥w∥2
Ichiro Takeuchi, Nagoya Institute of Technology
20/23
loss
ロジスティック回帰分析の損失関数
4
3.5
3
2.5
2
1.5
1
0.5
0
Logistic
-3
Ichiro Takeuchi, Nagoya Institute of Technology
-2
-1
0
1
2
3
21/23
課題 3
▶
正規分布 N (µ, σ 2 ) から発生した x1 , . . . , xn に基づく µ
の最尤推定値が算術平均と一致する, すなわち,
arg max
µ∈R
n
∏
i=1
√
1
2πσ 2
(
exp
−(xi − µ)2
2σ 2
)
1∑
=
xi
n i=1
n
であることを示せ. なお, σ 2 は既知の定数とみなして
よい
Ichiro Takeuchi, Nagoya Institute of Technology
22/23
課題 3 の解答
Ichiro Takeuchi, Nagoya Institute of Technology
23/23