言語処理のための機械学習入門(第一刷) 正誤表

言語処理のための機械学習入門(第一刷) 正誤表
Hiroya Takamura
[email protected]
平成 26 年 5 月 13 日
第1章
• p.7, (thanks to お茶大小林研ゼミ参加者の皆様)
誤:表現してしまうこともある
正:表現してしまうこともある (本書でもそのようにする)
• p.9, 最下行 (例題 1.5) (thanks to 荒引さん)
注釈で t と 1 − t を入れ替えたと書いておきながら、入れ替えるのを忘れていました。
誤:f (tx(1) + (1 − t)x(2) ) ≥ tf (x(1) ) + (1 − t)f (x(2) ),
正:f ((1 − t)x(1) + tx(2) ) ≥ (1 − t)f (x(1) ) + tf (x(2) )
• p.12, 上の方にある凸計画問題の例 (thanks to お茶大小林研ゼミ参加者の皆様)
誤:max . − x1 x2 ,
正:max . − x21 − x22 ,
• p.13, 真ん中あたりにあるニュートン法の更新式 (thanks to お茶大小林研ゼミ参加者の皆様)
符号は単純なミスです。 は、実応用においてこのような係数をつけることも多いのですが、もと
もとのニュートン法にはついていません。ですので、式からは を除き、コメントを入れることに
しました。
誤:
old
xnew = xold + Hx−1
),
old ∇x f (x
という更新式で計算を行う。
正:
old
xnew = xold − Hx−1
),
old ∇x f (x
という更新式で計算を行う。最急勾配法の場合のように学習率 を積算する場合もある。
• p.13, 一番下のニュートン法の更新式 (thanks to お茶大小林研ゼミ参加者の皆様)
多次元における一つの要素についての式を書こうとして不正確になっていました。ここでは、よ
く説明に用いられる一次元の式との対応を明確にしたいという意図がありましたので、はじめか
ら一次元に落としてしまうことにします。また、上式でニュートン法には をつけないことにした
ので、ここでも除きます。
1
誤:方程式 h(x) = 0 を解く場合には,記法の関係で x の i 番目の要素 xi についての更新式を書
くと
(
xnew
= xold
−
i
i
δh(xold
i )
δxi
)−1
h(xold
i ),
正:例えば一次元の方程式 h(x) = 0 を解く場合の更新式は
(
new
x
old
=x
−
δh(xold )
δx
)−1
h(xold ),
• p.18, 1.2.3 項の最後の文 (thanks to お茶大小林研ゼミ参加者の皆様)
3次元空間を考えているので、等高線というより等位面。
誤:等高線の法線方向
正:等位面の法線方向
• p.19, 図 1.5 (thanks to 荒引さん)
図中の x と λ が逆でした。直したつもりだったのですが・
・
・
• p.33, 下から 2 行目 (thanks to 荒引さん)
誤:n = 5,
正:n = 10
• p.36, 式 (1.32) (thanks to 青柳先生)
誤:P (x|µ),
正:P (x; µ)
• p.38, (thanks to 菊池くん)
離散確率変数の平均の定義式にタイポがありました。
∑
誤:mX =
xP (x)(X = x),
∑
正:mX =
xP (X = x)
• p.39, (thanks to 菊池くん)
多次元正規分布の説明が不正確でした。
誤:2π を d 乗するだけで
正:2πσ 2 を d 乗するだけで
• p.39, 式 (1.37) において、d 次元正規分布の係数の分母部分。
括弧の位置が間違ってました(恥ずかしい)。
誤:(2π)d σ 2 ,
正:(2πσ 2 )d
• p.43, (thanks to 菊池くん)
P (D) の偏微分の式の分子に、∂ が抜けていました。
log P (D)
誤: ∂µ ,
∂ log P (D)
正:
∂µ
2
• p.50, 例題 1.23 の解答。(thanks to 真鍋さん、笹野さん)
最後の数値が間違っていました。途中の式は合っています。
誤:1.64,
正:1.41.
第2章
• p.62, (thanks to 笹野さん)
「のべ」の漢字に変換ミスがありました。
誤:述べ語数,
正:延べ語数
第3章
• p.83, k-平均法のアルゴリズム (thanks to お茶大小林研ゼミ参加者の皆様)
cmax をとる行で ∀c がついていますが、これは不要でした。
誤:∀c, cmax =
正:cmax =
• p.85, d 次元正規分布の係数の分母部分。
続く計算の結果には影響ありません。
誤:(2π)d σ 2 ,
正:(2πσ 2 )d
• p.85, P (c|x(i) ) の計算 (thanks to お茶大小林研ゼミ参加者の皆様)
途中の式で、(i) が抜けていました。
P (x,c)
誤:P (c|x(i) ) = P (x)
P (x(i) ,c)
P (x(i) )
正:P (c|x(i) ) =
• p.86, (thanks to 菊池くん)
クラスタリングアルゴリズムの初期値に「’」が抜けていました。
誤:m1 , m2 , · · · , mk
正:m01 , m02 , · · · , m0k
• p.87, (thanks to 菊池くん)
収束判定の指標に添字の c が抜けていました。
∑
誤: c |m − m0 |2
∑
正: c |mc − m0c |2
• p.89, 第二段落。「Q 関数」が二回登場する箇所。(thanks to 京大黒橋研の方々)
単調増加するのは不完全データの対数尤度であり、Q 関数ではありません。
誤:Q 関数,
正:対数尤度
∑
x(i) ∈D
log
∑
c
P (c, x(i) ; θ)
3
• p.89, d 次元正規分布の係数の分母部分。
続く計算の結果には影響ありません。
誤:(2π)d σ 2 ,
正:(2πσ 2 )d
• p.93, 一番上の数式の直後の文 (thanks to お茶大小林研ゼミ参加者の皆様)
式変形の説明が不完全でした。上の数式を 0 としていることを明記すべきでした。
∑
誤:であるので,制約 x qx,c = 1 とあわせると,
∑
正:であるので,これを 0 として,制約 x qx,c = 1 とあわせると,
• p.97, d 次元正規分布の係数の分母部分。
計算の結果には影響ありません。
誤:(2π)d σ 2 ,
正:(2πσ 2 )d
第4章
• p.104, 最初の式 (thanks to 荒引さん)
c に関する総和が抜けていました。
∑
∑
誤:= Nc log pc + w∈V Nw,c log pw,c + w∈V (Nc − Nw,c ) log(1 − pw,c ),
∑ ∑
∑ ∑
∑
正:= c Nc log pc + c w∈V Nw,c log pw,c + c w∈V (Nc − Nw,c ) log(1 − pw,c )
• p.106, 例題 4.2 のちょっと上 (thanks to 坂口さん)
誤:d(1) に good が 2 回出現しているが,
正:d(1) に good が 3 回出現しているが,
• p.108, 最初の式 (thanks to 荒引さん、里さん)
比例で表すと不正確ですので、定数項を明記しました。また、ディリクレ分布が不正確だったの
で修正しました。
変更点は、∝ から = への置き換え、(1 − pw,c )α−1 と log(1 − pw,c ) の追記、const. の追記、の三点
です。
誤:
log P (θ) + log P (D) ∝ log(
∏
pcα−1 ) × (
c
= (α − 1)
∑
∏
pα−1
w,c ) +
w,c
log pc + (α − 1)
∑
∑
log P (d, c)
(d,c)∈D
log pw,c + · · ·
w,c
c
正:
∑
∏
∏
α−1
)) +
log P (d, c) + (const.)
) × ( (pα−1
log P (θ) + log P (D) = log( pα−1
w,c (1 − pw,c )
c
c
= (α − 1)
∑
c
log pc + (α − 1)
w,c
∑
(d,c)∈D
(log pw,c + log(1 − pw,c )) + · · · + (const.)
w,c
4
• p.108, 偏微分の式の一つ目 (thanks to 荒引さん)
上の変更により、ここも項が一つ増えます。
∂L(θ,λ)
∂pw,c
∂L(θ,λ)
正: ∂pw,c
誤:
=
=
(α−1)
pw,c
(α−1)
pw,c
+
−
Nw,c
Nc −Nw,c
pw,c − 1−pw,c ,
Nw,c
Nc −Nw,c
(α−1)
1−pw,c + pw,c − 1−pw,c
• p.113, nc が二ヶ所に出てくるが、正確には Nc 。 (thanks to 荒引さん)
• p.116, 最初の式。
比例で表すと不正確ですので、定数項を明記しました。
変更点は、∝ から = への置き換え、const. の追記、の 2 点です。
誤:
log P (θ) + log P (D) ∝ log(
∏
∏
∑
α−1
pα−1
) × ( qw,c
)+
log P (d, c)
c
c
w,c
(d,c)∈D
∑
∑
= (α − 1)(
log pc +
log qw,c ) + · · ·
c
正:
log P (θ) + log P (D) = log(
∏
w,c
∏
∑
α−1
log P (d, c) + (const.)
pα−1
) × ( qw,c
)+
c
c
w,c
(d,c)∈D
∑
∑
= (α − 1)(
log pc +
log qw,c ) + · · · + (const.)
c
w,c
• p.116, 二つめの式。(thanks to )
pw,c でなく qw,c でした。
誤:
L(θ, β, λ) = log P (θ) + log P (D) +
∑
c∈C
正:
L(θ, β, λ) = log P (θ) + log P (D) +
∑
c∈C
∑
βc (
pw,c − 1) + γ(
w∈V
βc (
∑
w∈V
∑
pc − 1)
c∈C
qw,c − 1) + γ(
∑
pc − 1)
c∈C
• p.116, 最後の式。
nc は、正確には NC でした。
• p.123, 例題 4.10 の解答において、不等号の向きが逆。 (thanks to 荒引さん)
• p.131, 例題 4.11 の解答において、ラグランジュ関数の計算における数字に間違い。 (thanks to 荒
引さん)
最終的なラグランジュ関数はあってます。
誤:+α1 α2 × (−1) × 1 × 4 + α2 α1 × 1 × (−1) × 1,
正:+α1 α2 × (−1) × 1 × 4 + α2 α1 × 1 × (−1) × 4
5
• p.131, 例題 4.11 の解答において、b の計算における途中の式に間違い。 (thanks to 荒引さん)
最終的な値はあってます。
誤: 52 × (−1) × K((0, 1), (1, 1)) +
正: 52
× (−1) × K((0, 1), (1, 1)) +
2
5
2
5
× 1 × K((1, 1), (1, 1)),
× 1 × K((1, 1), (1, 1)) − 1
• p.131, 下から 5 行目のところ (thanks to お茶大小林研ゼミ参加者の皆様)
等号付き不等号の書き方がおかしかったです。
誤:2x21 + 4x1 x2 + 4x1 − 5 >= 0 のとき正クラスに
正:2x21 + 4x1 x2 + 4x1 − 5 ≥ 0 のとき正クラスに
• p.133, 例題の解答の最後の部分 (thanks to お茶大小林研ゼミ参加者の皆様)
P,N が斜体になっているが、他は立体なので、立体で統一すべきでした。
誤:
φ(d(1) , P ) = (1, 1, 0, 0, 0, 0, 0, 0),
φ(d(2) , P ) = (0, 0, 1, 0, 0, 0, 0, 0),
φ(d(3) , N ) = (0, 0, 0, 0, 0, 1, 0, 1),
φ(d(4) , N ) = (0, 0, 0, 0, 0, 1, 1, 0).
φ(d(1) , P) = (1, 1, 0, 0, 0, 0, 0, 0),
φ(d(2) , P) = (0, 0, 1, 0, 0, 0, 0, 0),
φ(d(3) , N) = (0, 0, 0, 0, 0, 1, 0, 1),
φ(d(4) , N) = (0, 0, 0, 0, 0, 1, 1, 0).
正:
• p.133, 下から 2 行目で、∗ が y の肩に乗っていないものがあるが、正しくは y ∗ 。 (thanks to 荒引
さん)
• p.136, 足し合わせてできたベクトルが 2 箇所に出てきますが、どちらも第 5 要素に-が欠けてます。
(thanks to 荒引さん)
誤:(0.5, −0.5, 0, −0.5, 0.5, 0.5, 0, 0.5),
正:(0.5, −0.5, 0, −0.5, −0.5, 0.5, 0, 0.5)
• p.136, 収束値 w∗ (thanks to お茶大小林研ゼミ参加者の皆様)
正しい収束値と異なるという指摘がありました。
「∼に収束したとして」と仮定で話を進めており
論旨に問題ないとはいえ、正しくない収束値を用いているのはまずかろうということで、修正い
たします。
誤:
w∗
= (0.40, −0.07, 0.05, −0.20, −0.40, 0.33, 0.05, 0.80)
正:
w∗
=
(0.42, −0.25, 0.06, −0.26, −0.42, 0.25, −0.06, 0.26)
• p.137, 例題 4.14 の計算 (thanks to お茶大小林研ゼミ参加者の皆様)
上記の修正に伴い、例題 4.14 の計算結果が変わります。分類結果は変わりません。
6
誤:
w · φ(d, P ) =
0.05 × 1 − 0.20 × 1 = −0.15,
w · φ(d, N ) =
0.05 × 1 + 0.80 × 1 = 0.85,
であるので,N に分類される。確率値を出してみると,
1
exp(w · φ(d, P )) =
Zw
=
1
exp(w · φ(d, N )) =
Zw
=
exp(−0.15)/(exp(−0.15) + exp(0.85))
0.86/(0.86 + 2.34) = 0.27,
exp(0.85)/(exp(−0.15) + exp(0.85))
2.34/(0.86 + 2.34) = 0.73
正:
w · φ(d, P ) =
0.06 × 1 − 0.26 × 1 = −0.20,
w · φ(d, N ) =
−0.06 × 1 + 0.26 × 1 = 0.20,
であるので,N に分類される。確率値を出してみると,
1
exp(w · φ(d, P )) =
Zw
=
1
exp(w · φ(d, N )) =
Zw
=
exp(−0.20)/(exp(−0.20) + exp(0.20))
0.82/(0.82 + 1.22) = 0.40,
exp(0.20)/(exp(−0.20) + exp(0.20))
1.22/(0.82 + 1.22) = 0.60
• p.137, 最後のニュートン法の式 (thanks to お茶大小林研ゼミ参加者の皆様)
1 節のニュートン法の記述を変更・修正したことに伴い、こちらも修正します。
誤:
−1
old
wnew = wold + Hw
),
old ∇w L(w
正:
−1
old
wnew = wold − Hw
),
old ∇w L(w
• p.141, Imax の計算において、P (P) を掛けるのを忘れてました。 (thanks to 荒引さん)
誤:
Imax (“good”) = PMI(“good”, P) = 0.263
Imax (“excellent”) = PMI(“excellent”, P) = 0.415
正:
Imax (“good”) = P (P)PMI(“good”, P) = 0.132
Imax (“excellent”) = P (P)PMI(“excellent”, P) = 0.208
7
第5章
• p.148, 8 行目。(thanks to 荒引さん)
誤:1020,
正:1020
• p.152, 最終段落。(thanks to 永田さん)
w と c が何回か出てきますが、それぞれ x と y に修正。
• p.157, 例題の式 (thanks to お茶大小林研ゼミ参加者の皆様)
1 つめと 2 つめの式と、3 つめと 4 つめの式が同じで、それぞれ片方は不要でした。
誤:
ψ1 (c1 , B) = 1.0,
ψ2 (c1 , c1 ) = 0.2,
ψ1 (c1 , B) = 1.0,
ψ2 (c1 , c2 ) = 0.3,
ψ1 (c2 , B) = 1.0,
ψ2 (c2 , c1 ) = 0.1,
ψ1 (c2 , B) = 1.0,
ψ2 (c2 , c2 ) = 0.1,
ψ3 (c1 , c1 ) = 0.2,
ψ4 (c1 , c1 ) = 0.3,
ψ3 (c1 , c2 ) = 0.2,
ψ4 (c1 , c2 ) = 0.1,
ψ3 (c2 , c1 ) = 0.1,
ψ4 (c2 , c1 ) = 0.2,
ψ3 (c2 , c2 ) = 0.1,
ψ4 (c2 , c2 ) = 0.1,
ψ5 (E, c1 ) = 1.0,
ψ5 (E, c2 ) = 1.0.
ψ2 (c2 , c1 ) = 0.1,
ψ3 (c2 , c1 ) = 0.1,
ψ4 (c2 , c1 ) = 0.2,
ψ2 (c2 , c2 ) = 0.1,
ψ3 (c2 , c2 ) = 0.1,
ψ4 (c2 , c2 ) = 0.1,
正:
ψ1 (c1 , B) = 1.0,
ψ1 (c2 , B) = 1.0,
ψ2 (c1 , c1 ) = 0.2,
ψ3 (c1 , c1 ) = 0.2,
ψ4 (c1 , c1 ) = 0.3,
ψ2 (c1 , c2 ) = 0.3,
ψ3 (c1 , c2 ) = 0.2,
ψ4 (c1 , c2 ) = 0.1,
ψ5 (E, c1 ) = 1.0,
ψ5 (E, c2 ) = 1.0.
付録
• p.182, 10 行目。(thanks to 青柳先生)
誤:スカラー変数 λ,
正:スカラー変数 t
• p.182, 図 A.1(b)。(thanks to 青柳先生)
誤:t ≤ −1,
正:t ≤ 0
章末問題解答
• p.191, 【6】の 4 行目の最後。(thanks to 青柳先生)
誤:g(x)∗ ,
正:g(x∗ )
8
• p.196, d 次元正規分布の係数の分母部分。
計算の結果には影響ありません。
誤:(2π)d σ 2 ,
正:(2πσ 2 )d
• p.203, 問題 [1] の偏微分の導出過程において分母部分が抜けている。 (thanks to 鳥居君)
∂L(θ,α,β)
誤: ∂px|y = n((x, y), D) + αy
∂L(θ,α,β)
= n((y 0 , y), D) + βy0 ,
∂qy|y0
∂L(θ,α,β)
n((x,y),D)
正: ∂px|y =
+ αy
px|y
∂L(θ,α,β)
n((y 0 ,y),D)
∂q 0 =
+ βy 0
qy|y0
y|y
• p.203, 問題 [2] の偏微分の導出過程において分母部分が抜けている。
∂L(θ,α,β)
誤: ∂r
= n((x, y, y 0 ), D) + αy
0
x|y,y
∂L(θ,α,β)
= n((y 0 , y), D) + βy0
∂qy|y0
0
),D)
∂L(θ,α,β)
= n((x,y,y
+ αy
正: ∂r
rx|y,y0
x|y,y 0
0
∂L(θ,α,β)
n((y ,y),D)
∂q 0 =
+ βy 0
qy|y0
y|y
• p.205, 最上行 (thanks to 久保田君)
誤:ψ1 (c1 , B)β(c1 , 1) + ψ1 (c2 , B)β(c2 , 2),
正:ψ1 (c1 , B)β(c1 , 1) + ψ1 (c2 , B)β(c2 , 1)
索引
• p.207, (thanks to 笹野さん)
「のべ」の漢字に変換ミスがありました。
誤:述べ語数,
正:延べ語数
9