自然言語対話特論 後期 水曜日 2時限 後半

自然言語対話特論
後期 水曜日 2時限 後半
鈴木良弥
授業の予定







12月01日
12月08日
12月15日
12月22日
01月12日
01月19日
01月26日
形態素解析,構文解析
意味解析
就職関連の説明(日立製作所のOB)
談話解析
文章生成
辞書
コーパスベースの技術
授業資料

http://ir.cs.yamanashi.ac.jp/~ysuzuki/taiwa/
power point file (ppt) と pdf file (pdf)

自然言語処理 –基礎と応用—




出版:電子情報通信学会
監修:田中穂積
ISBN:4-88552-160-2
授業のねらい


自然言語で使われている技術について理解し,そ
れぞれの研究に役立てる
最新の研究については触れません.
授業の評価


関口先生の評価:50点+鈴木の評価:50点
鈴木の評価:合計50点


出席した回のレポート点:6回×7点=42点
講演会のレポート点:1回×8点
12月01日
形態素解析,構文解析
形態素解析


形態素 = 意味を担う最小の言語要素
形態素解析

単語の出現形から原形を求める処理(英語など)




solving → solve + ing (進行形)
easier → easy + er (比較級)
problems → problem + s (複数)
単語分割と語の活用(日本語など)



日本的 → 日本 + 的
言語モデル → 言語 + モデル
使い込む → 使う + 込む
形態素解析の応用

仮名漢字変換プログラム

ここではきものをぬぐ



ここで|はきもの|を|ぬぐ → ここで履物を脱ぐ
ここで|は|きもの|を|ぬぐ → ここでは着物を脱
ぐ
きしゃのきしゃがきしゃできしゃした

貴社の記者が記者で帰社した
形態素解析の手法




最長一致法
分割数最小法
接続コスト最小法
など
例:畜産物価格安定法
畜産物|価格|安定|法
畜
産
物
価
名詞
名詞
格
安
名詞
名詞
動詞
語幹
接尾辞
名詞
名詞
名詞
定
名詞
形容詞
語幹
名詞
法
名詞
名詞
名詞
最長一致法

文字列の先頭から解析を始め,後続する可能性
がある単語が複数あるときは,最長の単語を選
択して先に進む
3


2
2
1
○ (8) 畜産物|価格|安定|法
× (4) 畜産
価
安
分割数最小法





入力文字列を構成する単語の総数が最小
になる解釈を優先する方法
例:言語学入門講座
○ (3) 言語学|入門|講座
× (4) 言語|学|入門|講座
× (4) 言語学|入|門|講座
品詞接続表
最長一致法や分割数最小法だけでは形態素解析
の曖昧性が残る→曖昧性解消のために利用される
後 名詞
助詞
形容詞 副詞
助動詞 動詞
前
名詞
○
○
×
×
○
×
助詞
○
×
○
○
×
○
形容詞 ○
×
×
×
○
×
副詞
○
×
×
×
×
○
助動詞 ○
×
×
×
○
○
動詞
×
×
×
○
○
○
統計的言語モデルに基づく形態
素解析

品詞接続表のように接続を○×では表せない


口語,様々な文脈
→接続コストを利用する
接続コスト最小法


JUMAN, 茶筌,多くのかな漢字変換アルゴリズ
ムで使用されている.
品詞接続コスト,単語コストを利用する



品詞接続コスト:接続がまれな品詞間のコストは大き
い
単語コスト:単語の出現頻度が小さいほどコストは大
きい
統計的言語モデルの利用
形態素解析の定式化
長さ mの文字列C  c1 cmからなる入力文が
長さ nの単語列W  w1 wnに分割されることを考
える
形態素解析:与えられ た文字列に対する単語列の
条件付確率P(W | C )を最大化する単語列 Wˆ を求める問題
Wˆ  arg max P(W | C )  arg max P(W )
W
P(W ) : 単語分割モデル
W
単語分割モデルP(w)
マルコフモデル
単語列W  w1 wnの同時確率
n
P(W )   P( wi | w1  wi 1 )
i 1
N 1重マルコフ過程近似( n  gramモデル)
P( wi | w1 wi1 )  P( wi | wi N 1 wi 1 )
bigramモデル
n
n
C ( wi 1, wi )
P(W )   P( wi | wi 1 )  
C ( wi 1 )
i 1
i 1
C()は単語列の出現頻度
単語分割モデルP(w)
隠れマルコフモデル
単語列W  w1 wn 観測可能
品詞列T  t1 tn
観測不可能
n
P(W )   P(ti | ti 1 )P( wi | ti )
i 1
C (ti 1 , ti )
P(ti | ti 1 ) 
,
C (ti 1 )
C ( wi , ti )
P( wi | ti ) 
C (ti )
マルコフモデル (wは単語)
P( w1 | w1)
P( w2 | w2)
P( w2 | w1)
w1
w2
P( w1 | w2)
隠れマルコフモデル
(wは単語,tは品詞)
P(t 2 | t 2)
P(t1 | t1)
P(t 2 | t1)
t1
 P( w1 | t1) 
 P( w2 | t1)


t2
P(t1 | t 2)
 P( w1 | t 2) 
 P( w2 | t 2)


構文解析
構文木
(一郎が速いボールを軽々と投げた)
文
動詞句
後置詞句
後置詞句
名詞句
名詞 助詞 形容詞 名詞
一郎
が
速い
ボール
動詞句
助詞 副詞
を
軽々と
動詞
投げた
CYKアルゴリズム


チョムスキーの標準形の文脈自由文法を
対象とした構文解析法
チョムスキーの標準形


A→BC (A,B,C∈Vn)
A→a (A∈Vn, a∈Vt)
チョムスキーの標準形の例
「急いで走る一郎を見る」








(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
s→pp v
s→adv vp
vp→pp v
vp→adv v
np→vp n
np→v n
np→np p
pp→n p





(9) adv→急いで
(10) n→一郎
(11) p→を
(12) v→走る
(13) v→見る
CYK構文解析の概要
1.急いで 2.走る 3.一郎 4.を 5.見た
T2,5: 走る一郎を見た
1.急いで
2.走る
T2,2: 走る| T35: 一郎を見た
T2,2
T2,3
T2,4
T2,5
3.一郎
T3,5
4.を
T4,5
5.見た
T5,5
T2,3: 走る一郎| T4,5 を見た
T2,4: 走る一郎を| T5,5 見た
CYKアルゴリズム
A→aの形の規則を用いて主対角線上の要素を求める.
1.

for i=1 to N

Ti,i={A|A→wi}
A→BCの形の規則を用いて2番目以降の対角線上の
要素を求める
2.

for k=1 to N-1

for i=1 to N-k
k
Ti ,i k  {A | A  BC, B  Ti ,i  j 1, C  Ti  j ,i k }
j 1
3.
S T1,N であれば,w1 wn は開始記号Sから導出可能
CYK構文解析表
1.急いで 2.走る
1.急いで
2.走る
3.一郎
4.を
5.見た
adv→急いで vp→adv v
v→走る
3.一郎 4.を
np→vp n
pp→np p
np→v n
pp→np p
n→一郎
pp→n p
5.見た
vp→pp v
s→pp v
s→adv vp
vp→pp v
s→pp v
vp→pp v
s→pp v
p→を
v→見た
文脈自由文法に基づく構文木
s
s
pp
vp
np
pp
vp
adv
np
v
n
p
v
急いで 走る 一郎 を 見た
adv
v
n
p
v
急いで 走る 一郎 を 見た
第1回 レポート
締め切り 12月8日10:30
[email protected]宛
サブジェクトは自然言語対話特論
最長一致法と分割数最小法を使って
「畜産物価格安定法」を形態素解析するプログラ
ムを作成せよ




説明つきプログラム
結果
考察