最大エントロピー法と自然言語処理 - 茨城大学

最大エン ト ロ ピ ー法と 自然言語処理
新納浩幸
茨城大学 工学部 シス テ ム 工学科
[email protected]
1
はじ めに
ある 事例がど のク ラ ス に属する かを 決定する 分類問題は、 人工知能や統計学の分野で活発に 研究
さ れて いる 。 自然言語処理の分野では、 個々 の問題を 分類問題に 変換する こ と で、 それら の研究を
応用する 。
分類問題に 対する 手法は種々 あ る が、 自然言語処理の分野では、 近年、 最大エン ト ロ ピ ー法 [10]
を 利用し た研究が散見さ れる 。 最大エン ト ロ ピ ー法は従来主流であっ た 決定木よ り も 優位な結果を
出す傾向があ り 、 今後ま すま す利用さ れる であ ろ う 。
し かし 最大エン ト ロ ピ ー法の優位性にも 関わら ず、 こ の手法を 利用し て いる 研究者はごく 一部で
あ る 。 おそ ら く 最大エン ト ロ ピー法が一見難解であ り 、 取っ つき が悪いから であ ろ う 。 本稿では最
大エン ト ロ ピー法を 概説する 。 特に応用する こ と を 念頭に置き 、 実装の手引き と なる こ と を 目的と
する 。 そ のた め理論面の説明は省いて いる 。 理論面での解説は文献 [17] が平易で詳し い。
2
分類問題に対する 最大エン ト ロ ピ ー法
自然言語処理の様々 な問題は分類問題に 変換でき る 。 そ し て 、 最大エン ト ロ ピ ー法は、 分類問題
に 対する 帰納学習手法の1 つと と ら え る こ と ができ る 。
入力データ d がク ラ ス の集合 {C1 , C2 , · · · , Cn } のう ち ど のク ラ ス に 属する かを 決める のが分類
問題である 。 こ の問題は非常に汎用的な形式であ り 、 あ ら ためて 考え て みる と 世の中の様々 な 問題
はこ のタ イ プの問題と 見な すこ と ができ る 。 そ し て 、 当然、 自然言語処理の様々 な 問題も 、 こ の問
題に変換でき る 。 例え ば、 あ る 文中の bank の語義が「 銀行」 か「 土手」 かを 決める 語義選択の問
題は、 そ の bank が現れた 文脈を 入力データ と し 、 ク ラ ス の集合を { 銀行, 土手 } と し た 分類問題
と 見な すこ と ができ る 。 分類問題は、 実質、 ど のク ラ ス に属する かを 決める た めの規則を 作る 問題
である 。 こ の規則を 人間が手作業で作っ て も 良いが、 そ れはコ ス ト の面も 含めて 困難なケ ース が多
く 、 機械的に 作成でき ればすばら し い。 そのた めの研究が機械学習であ る 。
分類問題は、 通常、 帰納学習の手法に よ っ て 解決でき る 。 帰納学習と は、 事例と その正解に 当る
ク ラ スの組を 多数集めた訓練データ を 用意し 、 そ の訓練データ から ク ラ ス 判別の規則を 機械的に得
る 手法であ る 。 上記の例で言え ば、 bank の現れた 文を 多数用意し 、 そ の文中の bank の語義が、
「 銀行」 か、「 土手」 かの正解を 付与し た も のが訓練データ と なる 。 帰納学習手法に も 様々 な手法が
あ る が、 ど の手法がよ いかは、 問題に 依存する ため一概に は言え な い。 た だし 、 自然言語処理では
決定リ ス ト [13] や決定木 [8] が比較的よ く 用いら れて き た 。 そ し て 近年、 本稿で解説する 最大エン
ト ロ ピ ー法が注目さ れて いる 。 そ の理由の1 つは、 最大エン ト ロ ピ ー法がデータ スパース ネ ス の問
題に強い手法であ る から である 。 自然言語処理で行われる コ ーパスから の知識獲得では、 データ ス
パース ネ ス が深刻な 問題であ る た め、 最大エン ト ロ ピ ー法は自然言語処理の様々 な 問題を 解く 際
に 、 他の学習手法に 比べて 、 優位な 結果を 出す傾向があ る 。
3
最大エン ト ロ ピ ー法の定式化
観測さ れる 文脈の集合を B 、 ク ラ ス の集合を A と し た と き 、 自然言語処理の分類問題は、 cl :
B → A な る 関数 cl を 作成する 問題であ る 。 最大エン ト ロ ピ ー法の cl に 対応する 規則の表現形式
は、 文脈を 条件と し たク ラ スに 対する 条件付き 確率の形を と る 。 すな わち 、 b ∈ B 、 a ∈ A に 対す
る P (a|b) が最大エン ト ロ ピ ー法が与え る ク ラ ス 判別規則であ る 。
最大エン ト ロ ピー法を 実装する には、 文脈述語関数と そ れに 対応する 素性関数が必要と な る 。 文
脈述語関数 cp と は、 cp : B → {true, false} な る 関数であ る 。 こ の文脈述語関数を 使っ て 素性関
数 f が以下のよ う に 定義さ れる 。
fcp,a′ (a, b) =
1 if a = a′ , cp(b) = true
0 otherwise
具体的に 素性関数は、 cp(b) = true であ る と き に 、 a = a′ であ る と いう 特徴を 表し て いる 。 こ の
特徴がク ラ ス判別を 行う と き の鍵にな っ て おり 、 そ の特徴を いかにう ま く 設定する かが最大エン ト
ロ ピー法の成否を 握っ て いる 。
訓練デー タ は T = {(ω1 , O(ω1 )), (ω2 , O(ω2 )), · · · , (ωN , O(ωN ))} と 表せる 。 こ こ で ωi は事例
(ai , bi ) を 表し 、 O(ωi ) は事例 (ai , bi ) の頻度を 表す。 ま た 用意し た 素性関数の集合( 素性集合と 呼
ぶ) を F = {f1 , f2 , · · · , fK } と する 。 こ の2 つの集合 T と F から P (a|b) を 構築する のが、 最大エ
ン ト ロ ピ ー法であ る 。 結論のみ述べる と 、 P (a|b) は以下の式で求ま る 。
K
P (a|b) =
1
f (a,b)
αj
Z(b) j=1 j
(1)
K
f (a,b)
αj j
Z(b) =
a j=1
式 1 の αj は素性パラ メ ータ と 呼ばれる 実数値であ り 、 素性関数 fj に 対する 重みを 表し て いる 。 素
性関数 fj はク ラ ス を 判別すた めの特徴と 見な せた が、 素性パラ メ ータ はそ の特徴がど れく ら い強
いかを 表し て いる 。 大き い値ほど 、 そ の特徴がク ラ ス判別に 有効であ る こ と を 示し て いる 。 式 1 で
未知の数はこ の素性パラ メ ータ であ る 。 つま り 最大エン ト ロ ピー法を 利用する には、 素性集合を 設
定し 、 各素性関数に 対する 素性パラ メ ータ を 求めれば良いのであ る 。
式 1 がど のよ う に導出さ れる のかは少し 複雑である 。 最大エン ト ロ ピー法を 利用し た いだけ であ
れば理解する 必要はな い。 た だし その場合、 何が最大のエン ト ロ ピ ーな のかと いう 、 最大エン ト ロ
ピ ー法の名前の由来が分から ない。 こ の点だけ 概略述べて おく 。 与え ら れた制約を 満たすモデルの
中で、 も っ と も 一様な 分布を 選ぼう と いう のが最大エン ト ロ ピ ー法のアイ デア であ る 。 こ の一様な
分布の測定方法と し て モデルのエン ト ロ ピーを 使う 。 も っ と も 一様な 分布と いう のは、 こ のエン ト
ロ ピーが最大のも のであ る 。
4
素性パラ メ ータ の推定
最大エン ト ロ ピ ー法の処理の核は、 素性パラ メ ー タ の推定であ る 。 こ れは一般に 以下の GIS
(Generalized Iterative Scaling) ア ルゴ リ ズム [6] と 呼ばれる 反復ス ケーリ ン グ法で行え る 。
【 GIS ア ルゴリ ズム 】
step 1 補完定数 C 、 補完素性 fK+1 を 設定する 。
(0)
step 2 すべて の素性パラ メ タ の初期値 αi ( i = 1∼ K + 1) を 1 に する 。
step 3 αi を 以下の式で更新する 。
(n+1)
αi
(n)
= αi
+
E ˆ [fi ]
1
log P
C
EP [fi ]
step 4 step 3 を 収束する ま で繰り 返す。
step 1 の補完定数 C 、 補完素性 fK+1 は以下で定義さ れる 。
K
fi (a, b)
C = max
a,b
i=1
K
fi (a, b)
fn+1 (a, b) = C −
i=1
次に step 3 の EPˆ [fi ] であ る が、 こ れは確率 Pˆ に 対する 素性の期待値を 表し 、 以下の式で計算
でき る 。
Pˆ (a, b)fi (a, b)
EPˆ [fi ] =
a,b
こ の式の中の Pˆ (a, b) は訓練データ 中でのデータ b と ク ラ ス a の同時確率であり 、 以下の式で計算
でき る 。
O(a, b)
a,b O(a, b)
Pˆ (a, b) =
最後に EP [fi ] であ る が、 こ れは確率 P に 対する 素性の期待値を 表し 、 以下の式で計算でき る 。
EP [fi ] =
P (a, b)fi (a, b)
a,b
こ の式の中の P (a, b) はデータ b と ク ラ ス a の同時確率であり 、 決定する こ と はでき な い。 こ れを
以下の式で近似する 。
P (a, b) = Pˆ (b)P (a|b)
(2)
式 2 の中の Pˆ (b) は前述し た Pˆ (a, b) を 利用し て 、 以下の式で計算でき る 。
Pˆ (b) =
Pˆ (a, b)
a
ま た式 2 の中の P (a|b) は最大エン ト ロ ピー法で求めよ う と し て いる 確率分布である 。 つま り 、 GIS
アルゴリ ズムの繰り 返し の中でそ の時点での αi を 用いて 、 式 1 によ り 設定さ れた確率分布である 。
一見単純に 見え る GIS ア ルゴ リ ズム であ る が、 実際に は膨大な 計算量が必要と さ れる 。 EPˆ [fi ]
は定数な ので、 1 回計算すればすむが、 問題は EP [fi ] であ る 。 こ の式の計算量は O(|A||B|) であ
る 。 こ れを 各 i に ついて 計算する ので、 GIS ア ルゴ リ ズム の1 回の反復の計算量は O(|A||B||F |)
と なり 、 こ の計算量は膨大である 。 こ のた めに 以下の 2 つの点に 注意し て 計算量を 小さ く する 工夫
がと ら れる [15] 。
• 文脈データ b に ついて cpi (b) = true と な る よ う な i の集合を Fb と する 。 文脈データ b1 と
b2 に おいて 、 Fb1 と Fb2 が等し いな ら 、 P (a|b1 ) と P (a|b2 ) は同一と な る 。
• 訓練データ (a1 , b) と (a2 , b) に おいて 、 こ れら に 対し て 1 を 返す素性関数の集合が同一な ら
ば、 P (a1 |b) と P (a2 |b) は同一と な る 。
素性パラ メ ータ を 推定する に は、 GIS ア ルゴ リ ズム の他に IIS (Improved Iterative Scaling) ア
ルゴリ ズム [7] と いう 反復スケ ーリ ン グ法も 利用さ れる 。 IIS ア ルゴ リ ズム は GIS ア ルゴ リ ズム で
必要な補完定数や補完素性を 導入せずにすむ。 IIS アルゴリ ズムの特殊ケースが GIS アルゴ リ ズム
と いう 関係に な っ て いる 。 IIS ア ルゴリ ズム では各反復で求ま る パラ メ ータ の増分が、 あ る 方程式
の解に な っ て おり 、 そ の解を ニュ ート ン 法な ど の数値解析的な 手法に よ り 求める こ と で行われる 。
実装上の注意と し て 、 反復の回数と 訓練データ の間引き に ついて 述べて おく 。 ま ず反復の回数で
あ る が、 GIS や IIS の反復ス ケ ーリ ン グ法は収束が遅い場合があ り 、 収束の条件を 増分の値で設
定する と な かな か止ま ら な い場合があ る 。 現実的に は 100 から 200 回の反復回数で反復を 終了さ
せる 。 次に 訓練データ の間引き であ る が、 訓練データ T を そ のま ま 利用する と 、 頻度の低いデー
タ が悪影響を 及ぼす。 そ のた め、 頻度の低いデータ は予め訓練データ から 取り 除いて おく 間引き 処
理が行われる 。 ど の程度の頻度以下のも のを 間引け ばよ いかに ついて は明ら かではな い。 頻度 10
程度を 使う こ と が多い。
5
素性関数の選択
最大エン ト ロ ピ ー法に よ っ て 推定さ れる 確率分布の品質は利用する 素性集合に 大き く 依存する 。
し たがっ て 、 利用する 素性集合を ど のよ う 決める かが最大エン ト ロ ピー法の最も 大き な問題である 。
素性集合を 決定する ア ルゴリ ズム と し て 素性選択ア ルゴ リ ズム [1] が知ら れて いる 。 こ れは以下
の手順で行われる 。
【 素性選択ア ルゴリ ズム 】
step 1 素性関数の候補の集合 S を 作成する 。
step 2 求める べき 素性集合を F = φ と おく 。
step 3 ∆L(fi ) を 最大に する よ う な S 中の要素 fi を 求め、 そ れを F に 追加する 。
step 4 最大の ∆L(fi ) があ る 閾値以下に なる ま で、 step 3 を 繰り 返す。
こ こ で ∆L(fi ) だが、 こ れは確率モデルの対数尤度の変化量を 表す。 確率モデル P の対数尤度
L(P ) と は以下の式で表せる 。
Pˆ (t, h)logP (t|h)
L(P ) =
t,h
つま り 、 素性集合が F であ る 場合に 、 F を 用いて 最大エン ト ロ ピ ー法から 計算でき る 確率モデ
ル P の対数尤度 L(P ) と 、 素性集合が F ∪ {fi } であ る 場合に 、 F ∪ {fi } を 用いて 最大エン ト ロ
ピ ー法から 計算でき る 確率モデル Pi の対数尤度 L(Pi ) と の差が ∆L(fi ) であ る 。
step 3 では、 F ∪ {fi } に 対する 確率モデルを 求める た めに 、 S の要素数の回数だけ GIS ア ルゴ
リ ズム を 用いな く て はなら ず、 膨大な 計算が必要であ る 。 こ のため、 様々 な 効率化手法が提案さ れ
て いる 。 一般的に 行われる 効率化は、 上記のア ルゴ リ ズム の step 3 に おいて 、 すでに 存在する 素
性集合 F の素性パラ メ ータ の集合は、 素性関数を 1 つ加え て も 、 変化し な いと 仮定する こ と であ
る 。 こ のよ う に 仮定すれば、 step 3 に おいて 、 fi を F に 加え た 場合に、 GIS ア ルゴ リ ズム で求め
る 素性パラ メ ータ は fi に 対する 素性パラ メ ータ αi だけ で済む。
その他の効率化の工夫と し て 、 白井は素性の独立性と いう 概念を 定義し て いる [15] 。 素性 f1 、 f2
が独立と は f1 の値が1 にな る よ う な ク ラ ス の集合と 、 f2 の値が1 にな る よ う な ク ラ ス の集合と に
交わり がな く 、 し かも f1 の値が1 にな る よ う なデータ の集合と 、 f2 の値が1 にな る よ う なデータ
の集合と に も 交わり がな いこ と であ る 。 2 つ の素性 f1 、 f2 が独立の場合、 素性の集合 F に f1 を
加え て 確率モデルを 推定し た 後に f2 を 加え た 場合の対数尤度の増分 ∆L′ (f2 ) と 、 素性の集合 F に
f2 を 加え た 場合の対数尤度の増分 ∆L(f2 ) はほと ん ど 差がな い。 こ れを 利用する と 、 いく つかの
素性を 同時に F に 追加でき る 。 ま た 白井ら は素性関数が確率モデルの推定に ど れほど 有効かを 示
す素性効用と いう 関数を 定義する こ と で、 付け加え る べき 素性関数を 選択する 手法を 提案し て いる
[16] 。 そ の他、 Berger ら も 興味深い提案を し て いる [2]。
ただし 、 現実的に は素性集合は経験的に 設定し 、 素性選択ア ルゴリ ズム を 用いな い場合も 多い。
本来、 意味のな い素性関数に ついて は、 そ の対応する 素性パラ メ ータ が小さ く な る ので実害はな
い。 計算可能な 程度の規模の素性集合を 用意する のが現実的であ ろ う 。
6
自然言語処理への応用
最大エン ト ロ ピー法の自然言語処理への応用は多岐に わた る 。 な ぜなら 、 最大エン ト ロ ピー法は
分類問題に 対する 手法であ り 、 分類問題に 変換でき る 様々 な 自然言語処理の問題は、 当然、 最大エ
ン ト ロ ピー法で解決でき る から である 。 こ こ では、 特に成功し たと 思われる 応用と し て 、 構文解析
と 固有表現抽出に ついて 紹介する 。
英語の構文解析に ついて は Ratnaparkhi の最大エン ト ロ ピ ー法に 基づく 学習モデルを 利用し た
解析システム [9] が、 精度、 速度の両面で最も 進んでいる 手法と 考え ら れて いる 。 そこ では構文解析
が出力する 木を 、 そ の木を 構築する ア ク ショ ン の列 {a1 , a2 , · · · , an } に よ っ て 表現する 。 あ る ア ク
ショ ン の列 {a1 , a2 , · · · , ak } は構文解析の途中の段階を 示し 、 こ の段階で次のアク ショ ン ak+1 を 推
定する のに最大エン ト ロ ピー法を 利用し て いる 。 アク ショ ン は TAG、 CHUNK、 BUILD、 CHECK
の 4 つの手続き から 生成さ れる 。 そ し て それぞれに 対する 確率モデル PT AG (a|b)、 PCHU N K (a|b)、
PBU ILD (a|b) お よ び PCHECK (a|b) を 最大エン ト ロ ピ ー法に よ り 学習する 。 構文解析は 3 段階に
わかれて おり 、 第 1 段階で TAG の処理を 行い、 第 2 段階で CHUNK の処理を 行い、 第 3 段階で
BUILD と CHECK の処理を 行う 。
日本語の構文解析は係り 受け 解析であ る 。 係り 受け 解析において も 最大エン ト ロ ピー法を 用いた
内元のシス テ ム [12] が現在最も 精度がよ いと さ れて いる 。 係り 受け 解析は、 一般に 、 二文節間の
係り やすさ を 数値化し た係り 受け行列を 作成し 、 動的計画法など を 用いて 一文全体が最適な係り 受
け 関係に なる よ う な係り 先の組を 求める こ と で行え る 。 後半の問題は自然言語と は独立の探索問題
である ため、 実質的に 問題と な る のは、 前半の部分、 つま り 二文節間の係り やすさ を ど のよ う に求
める かであ る 。 内元のシス テ ム では、 二文節間の係り やすさ を 問題の二文節が係る 確率と 考え て 、
そ れを 最大エン ト ロ ピ ー法から 求めて いる 。 二文節間の文脈情報 h に 対し て 、 そ の二文節が「 係る
(1)」 と 「 係ら な い (0)」 の 2 つのク ラ スを 用意する 。 最大エン ト ロ ピー法に よ り P (1|h) が求ま る 。
固有表現抽出も 最大エン ト ロ ピ ー法が成功し た 応用例であ る 。 固有表現抽出と は人名や会社名
な ど の固有表現を テ キ ス ト から 抽出する こ と であ り 、 情報抽出の前処理と し て 必要な 処理であ る 。
固有表現抽出も 分類問題に変換でき る 。 例え ば、 人名を 抽出する に は、 入力文の各単語に以下の 5
種類のク ラ ス を 割り 当て ればよ い。
OP-CL : そ の単語自身が人名
OP-CN : 人名が複合語でそ の最初の単語
CN-CN : 人名が複合語でそ の中間の単語
CN-CL : 人名が複合語でそ の最後の単語
none : そ の単語は固有表現と は無関係
関根は 8 タ イ プの固有表現を 扱っ て いる ので、 合計 32 種類のク ラ ス と none と いう ク ラ ス の計
33 種類のク ラ ス を 用意し た 。 そ し て 決定木を 利用し て 、 各単語に 割り 当て ら れる ク ラ ス の確率を
求め、 次に Viterbi ア ルゴ リ ズム に よ っ て 、 尤も ら し いク ラ ス の列を 生成し た [11] 。 そ の決定木
の部分に 最大エン ト ロ ピ ー法を 用いた も のが、 Borthwick のシス テ ム [4] であ る 。 こ のシス テ ム は
MENE と 名付け ら れ MUC-7 で利用さ れた [5]。 ま た IREX に おいて 固有表現抽出コ ン テ ス ト が
行われた が、 そ こ でも 、 Borthwick[3] や内元 [14] が最大エン ト ロ ピ ー法を 用いて 、 優秀な 成績を
納めて いる 。 特に Borthwick のシス テ ム は、 IREX の NE 学習シス テ ム の中では最も 良い成績を
出し て いる 。
7
ツ ールの利用
機械学習手法自体は個々 の問題と は独立である ため、 あ る 機械学習手法を 実装すれば、 そ のプロ
グラ ム を 再利用する こ と が可能であ る 。 そ のた め機械学習手法を 実装し た プロ グラ ムを 、 ツ ールと
し て パッ ケ ージ化し た も のが存在する 。 こ のよ う なツ ールは自然言語処理のよ う な応用研究にと っ
て 有益であ る 。
決定木に対し て は C4.5 が有名である 。 Quinlan の書籍 [8] に は C4.5 のア ルゴリ ズム の説明、 C
言語に よ る コ ード が記さ れて いる 。 ま たそ のコ ード を 納めた FD も 添付さ れて おり 、 自由に C4.5
が利用でき る 。 こ のた め、 決定木を 利用し た 応用研究の多く は、 そ こ で提供さ れて いる パッ ケ ージ
を 利用し て いる 。 C4.5 は更に 機能が付加さ れて C5.0 と し て 販売さ れて いる 。
http://www.rulequest.com
ま た決定木学習ア ルゴ リ ズム では CART も 有名であ る 。 こ れは
http://www.salfordsystems.com/html/product.html
から 購入でき る 。
Ristad は Maximum Entropy Modeling Toolkit と いう 最大エン ト ロ ピ ー法のパッ ケ ージを 以下
のアド レ ス で配布し た 。
http://www.mnemonic.com/software/memt
し かし 現在すでに 閉鎖さ れて おり 、 新たに 上記のパッ ケージを 入手する こ と はでき な い。 ま た 、 再
配布も 禁止さ れて いる ので、 すでに手にいれて いる 人から も コ ピ ーし て 使う こ と も でき ない。 残念
である 。 別の最大エン ト ロ ピー法のパッ ケ ージと し て は、 GIS ア ルゴリ ズム を Perl で記述し た も
のも 存在する 。 こ れは以下の URL を 辿る こ と で入手でき る 。 た だし 、 機能は低いと 思われる 。
http://www.sultry.arts.usyd.edu.au/links/statnlp.html
Ristad のツ ールのよ う な 最大エン ト ロ ピ ー法のツ ールが、 再びど こ かで配布さ れる こ と を 期待し
た い。
8
おわり に
本稿では実装上の手引き にな る こ と を 念頭に最大エン ト ロ ピー法を 解説し た。 最大エン ト ロ ピー
法を 自然言語処理の分類問題に 適用する 場合、 従来の決定木など の手法よ り も 精度がよ く なる 傾向
がある 。 そ のために最大エン ト ロ ピ ー法は今後ま すま す利用さ れる であろ う 。 本稿が最大エン ト ロ
ピ ー法を 利用する 際の参考に な れば幸いであ る 。
最後に最大エン ト ロ ピ ー法の問題を 2 点述べて おく 。 1 点目は素性パラ メ ータ の推定に 膨大な計
算機資源が必要な 点であ る 。 例え ば前述し た Ristad のツ ールは 1 ギガバイ ト のメ モ リ を 要求す
る と 聞く 。 最大エン ト ロ ピー法を 手軽に試すためには、 現状よ り も も う 少し 計算機環境が向上する
か、 ア ルゴリ ズム が改良さ れる 必要があ ろ う 。 2 点目は訓練データ の問題である 。 こ れは帰納学習
全般に 言え る 問題でも であ る が、 訓練データ を 作成する コ ス ト が高いと いう 問題である 。 自然言語
処理の場合、 事例は豊富にあ る が、 正解を 付与する コ ス ト が大き い。 近年、 正解のない訓練データ
から の学習と し て 、 教師な し 学習が注目さ れて いる が、 精度に 問題があ る 場合が多い。 自然言語処
理では訓練データ 作成の問題も 含めて の問題解決が望ま し い。
参考文献
[1] A. Berger, S. Della Pietra, and V. Della Pietra. A Maximum Entropy Approach to Natural
Language Processing. Computational Linguistics, Vol. 22, No. 1, pp. 39–71, 1996.
[2] A. Berger and H. Printz. A Natural Criterion for Maximum Entropy / Minimum Divergence
Feature Selection. In 3rd conference of Empirical Methods in Natural Language Processing
(EMNLP-3), pp. 97–106, 1998.
[3] A. Borthwick. A Japanese Named Entity Recognizer Constructed by a Non-Speaker of
Japanese. IREX ワ ーク ショッ プ 予稿集, pp. 187–193, 1999.
[4] A. Borthwick, J. Sterling, E. Agichtein, and R. Grishman. Exploiting Diverse Knowledge
Source via Maximum Entropy in Named Entity Recognition. In 6th Workshop on Very
Large Corpora (WVLC-6), 1998.
[5] A. Borthwick, J. Sterling, E. Agichtein, and R. Grishman. NYU: Description of the MENE
named entity system as used in MUC-7. In 7th Message Understanding Conference, 1998.
[6] J.N. Darroch and D. Ratcliff. Generalized Iterative Scaling for Log-Linear Models. The
Annals of Mathematical Statistics, Vol. 43, No. 5, pp. 1470–1480, 1972.
[7] S Della Pietra, V. Della Pietra, and J. Lafferty. Inducing Features of Random Fields. IEEE
Transactions Pattern Analysis and Machine intelligence, Vol. 19, No. 4, 1977.
[8] J. Ross Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann Publisher,
1993.
[9] A. Ratnaparkhi. A Linear Observed Time Statistical Parser Based on Maximum Entropy
Models. In 2nd conference of Empirical Methods in Natural Language Processing (EMNLP2), 1997.
[10] A. Ratnaparkhi. Natural Language Learning with the Maximum Entropy Framework. In
Tutorial of 9th Conference of the European Chapter of the Association for Computational
Linguistics (EACL-99 Tutorial), 1999.
[11] S. Sekine, R. Grishman, and H. Shinnou. A Decision Tree Method for Finding and Classfying
Names in Japanese Texts. In 6th Workshop on Very Large Corpora (WVLC-6), 1998.
[12] K. Uchimoto, S. Sekine, and H Isahara. Japanese Dependency Structure Analysis Based on
Maximum Entorpy Models. In 9th Conference of the European Chapter of the Association
for Computational Linguistics (EACL-99), pp. 196–203, 1999.
[13] D. Yarowsky. Decision Lists for Lexical Ambiguity Resolution: Application to Accent
Restoration in Spanish and French. In 32th Annual Meeting of the Association for Computational Linguistics (ACL-94), pp. 88–95, 1994.
[14] 内元清貴, 村田真樹, 小作浩美, 馬青. ME モ デルと 書き 換え 規則に 基づく 固有表現抽出 IREX-NE 本試験に おけ る 評価-. IREX ワ ーク ショッ プ 予稿集, pp. 133–140, 1999.
[15] 白井清昭. 統計情報を 利用し た 統合的自然言語解析. 博士論文. 東京工業大学, 1998.
[16] 白井清昭, 乾健太郎, 徳永健伸, 田中穂積. 最大エン ト ロ ピ ー法に よ る 確率モデルの推定に有効
な 素性の選択について . 言語処理学会第 4 回年次大会, pp. 356–359, 1998.
[17] 北研二. 確率的言語モデル . 東京大学出版会, 1999.