自然言語処理及び実習

自然言語処理及び実習
第11回 形態素解析
1
これまでの内容

自然言語処理応用としての情報検索
情報検索コンテスト
http://research.nii.ac.jp/ntcir/index-ja.html

2
本日の到達目標
1.
2.
3.
4.
形態素解析とは
日本語の形態素解析
優先規則 (コスト)
Viterbiアルゴリズム
3
形態素解析とは
自然言語の階層構造
-- 音素: 音の単位
-- 形態素: 意味を持つ最小単位 – 欧米語
-- 語: 文法上一つの機能をもつ最小の言語単位
-- 文: 表記において句点が与えられる言語単位
-- 文章・テキスト: 文の順序づけられた集まり
 意味を持つ最小の単位を認識する

4
日本語の形態素解析

入力文を辞書中の語の組み合わせに分解す
ること
「和平共同宣言を初めて積極評価」
和平
共同
宣言
を
初めて
積極
評価
ワヘイ
キョウドウ
センゲン
ヲ
ハジメテ
セッキョク
ヒョウカ
和平
名詞-一般
共同
名詞-サ変接続
宣言
名詞-サ変接続
を
助詞-格助詞-一般
初めて 副詞-一般
積極
名詞-一般
評価
名詞-サ変接続
5
形態素解析が使用されているソフトウェア
6
形態素解析処理
1.
2.
辞書を参照して入力文中の各位置から始ま
る語を取り出し
連接可能性をチェックしながら取り出された
語をつないでいく
7
形態素解析で用いる辞書
単語辞書:語の品詞、読み、活用型などが記
載された辞書
 連接可能性辞書:連接可能な2語のタイプが
記載された辞書

8
連接可能性辞書(接続テーブル)
名詞
連体詞
サ変名
詞
代名詞
形式名
詞
助詞
動詞
形容詞
名詞
連体詞
サ変
代名詞
形式
助詞
動詞
形容詞
○
○
○
×
×
○
○
○
○
○
○
×
×
×
○
○
○
×
○
×
×
○
○
○
×
×
×
×
×
×
○
○
×
×
×
×
×
×
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
9
形態素解析 例
0 こ 1 の 2 ひ 3 と 4 こ 5 と 6 で 7 元 8 気 9 に10 な 11 っ 12 た 13
この
(連体詞)
文頭
文末
10
形態素解析 例
接続テーブルに明記されている品詞の並びを線で結ぶ
この
(連体詞)
こ
(接尾辞)
の
(助詞)
ひとこと
(名詞)
ひと
(名詞)
ひ
(名詞)
と
(助詞)
こと
(名詞)
で
(動詞)
で
(助詞)
元気
(名詞)
になった
(動詞)
文末
に
なった
(助詞) (動詞)
11
優先規則

複数の形態素解析結果から、もっともらしい結果だ
けを選択するための規則
 最長一致法:文頭から長い語を優先する(縦型探索)
 2文節最長一致法:文頭から2文節ごとの長さが長い解を
優先する(縦型探索)
 形態素数最小法:語数が少ない解を優先する
 文節数最小法: 文節数が少ない解を優先する
 コスト最小法: 語や語の連接にコストを与えて、総コスト
の少ない解を優先する
12
補足(縦型探索と横型探索)
1
縦型探索
1
横型探索
13
語(単語)と文節

語:単語のこと。名詞、動詞、形容詞…

文節:体言と用言のこと。
体言とは、名詞(連続)+助詞
用言とは、動詞、形容詞、形容動詞
文節の例: 「アンケートの回答説明があった」
→ 「アンケートの」「回答説明が」「あった」
14
情報検索における形態素解析の
利用(Nグラムモデルとの比較)
Nグラムモデルとは
連接するN文字を索引語として用いること
「連接」 「文字」 「索引」 「引語」

15
ユニグラムモデル
「ゲーム業界初の就職ゲームを発売した」
1. Raw: 漢字、ひらがなは一文字を語とする。カタカナはカタカ
ナ文字の終了までを語とする。
例:ゲーム, 業, 界, 初, 就, 職, 発, 売
2. Short: 単語。
例: ゲーム, 業界, 初, 就職, 発売
3. Long: 名詞の連続、接頭辞、接尾辞を含む名詞を語とす
る。
例: ゲーム業界初, 就職ゲーム, 発売
4. Joined: 助詞の「の」「と」などを用いて連続した名詞を語とす
る。
例: ゲーム業界初の就職ゲーム
16
精度比較

日本経済新聞1,101記事に対し, 30からな
る検索要求文(Fujii&Croft,1993)
Raw
文字単位 形態素解析
60.5%
65.2%
Short
62.9%
Long
66.6%
Joined
60.8%
Sufaryなどの検索システムで使用
17
本日の到達目標
1.
2.
3.
4.
形態素解析とは
日本語の形態素解析
優先規則 (コスト)
Viterbiアルゴリズム
18
優先規則

複数の形態素解析結果から、もっともらしい結果だ
けを選択するための規則
 最長一致法:文頭から長い語を優先する(縦型探索)
 2文節最長一致法:文頭から2文節ごとの長さが長い解を
優先する(縦型探索)
 形態素数最小法:語数が少ない解を優先する
 文節数最小法: 文節数が少ない解を優先する
 コスト最小法: 語や語の連接にコストを与えて、総コスト
の少ない解を優先する
19
コスト最小法とは
コストとは
-- 語と語の連結の強さ
 語と語の間に連結の強さを与え, 総コストの
少ない解を優先して解析結果とする

20
コスト最小解を求める方法
(Viterbi Algorithm)
( )
10
( )
10
この
(連体詞)
( )
10
( )
40
ひとこと
(名詞)
( )
40
文頭
単語コスト
連接コスト
部分最小コスト
( )
10
ひと
(名詞)
10
( )
( )
10
ひ
(名詞)
( )
40
(
) → 部分最小コストの値
数字 → 単語、あるいは連接コストの値
( )
40
( )
10
( )
10
と
(助詞)
( )
40
( )
40
こと
(名詞)
で
(動詞)
で
(助詞)
( )
10
10
( )
( )
10
( )
10
21
コスト最小解を求める方法
(Viterbi Algorithm)
(20 )
10
(10)
10
この
(連体詞)
( )
40
( )
10
ひとこと
(名詞)
( )
40
文頭
単語コスト
連接コスト
部分最小コスト
( )
10
ひと
(名詞)
10
( )
( )
10
ひ
(名詞)
( )
40
( )
40
( )
10
( )
10
と
(助詞)
( )
10
( )
10
( )
40
こと
(名詞)
( )
40
で
(動詞)
で
(助詞)
10
( )
( )
10
22
形態素解析結果

この(連体詞) ひとこと(名詞) で(動詞)

この(連体詞) ひとこと(名詞) で(助詞)
23
日本語と英語の形態素解析ツール
日本語
http://chasen.naist.jp/hiki/ChaSen/
http://www.kc.t.u-tokyo.ac.jp/nl-resource/juman-form.html
 英語
HMM: parcftp.xerox.com:/pub/tagger
A supervised pos tagger: ftp.cs.jhu.edu/pub/brill/Programs/
Decision tree tagger:
http://www.ims.unistuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTa
gger.html

24
Viterbi アルゴリズム 例題

与えられた単語列に対してViterbiアルゴリズ
ムを適用し、得られる形態素結果を求めなさ
い。
25
Viterbi アルゴリズム 例題
time
0.6
文頭
flies
0.3
名詞
0.6
名詞
0.1
like
0.4
0.1
0.4
an
動詞
0.7
0.2
0.2
動詞
0.2
前置詞
1.0
arrow
冠詞
1.0
0.7
名詞
0.3
0.3
0.1
0.1
0.2
0.2
形容詞
1.0
26
本日の到達目標
1.
2.
3.
4.
形態素解析とは
日本語の形態素解析
優先規則 (コスト)
Viterbiアルゴリズム
27