自然言語対話特論 後期 水曜日 2時限 後半

1月26日
コーパスベースの技術


知識の獲得
コーパスの利用
アナウンス

先週NSWの説明資料「IT系ビジネス 実際の現
場から」を全部見せられなかったので,時間があ
れば途中から最後まで見せます.
知識の獲得
テキストコーパス
既存の言語知識
新たな言語知識
•文字のn-gram統計を用いた単語・定型表現の抽出
•共起知識の抽出
•動詞の格フレームの獲得
•単語の意味分類の抽出
•翻訳知識の獲得
共起知識の抽出
相互情報量を用いた単語間の共起の
度合いの測定
相互情報量:
事象x及びyの生起確率がそれぞれ
P(x),P(y)であり,x,yの共起確率がP(x,y)
であるときに,xとyの相互情報量I(x,y)は

P( x, y )
I ( x, y )  log2
P( x ) P( y )
f ( x)
f ( y)
f ( x, y )
P( x ) 
, P( y ) 
, P( x, y ) 
N
N
N
f () : 頻度, N :コーパスの総単語数
単語の意味分類の抽出
Hindleの手法
f ( v, n )
N
Cobj (v, n )  log2
f (v ) f (n)
N
N
SIMobj (vi , n j , nk ) 
 min(Cobj (vi , n j ), Cobj (vi , nk )) Cobj (vi , n j )  0かつ Cobj (vi , nk )  0の場合

 max(Cobj (vi , n j ), Cobj (vi , nk )) Cobj (vi , n j )  0かつ Cobj (vi , nk )  0の場合
0 それ以外の場合

N
SIM(n1, n2)  {SIMsubj (vi , n1 , n2 ) SIMobj (vi , n1 , n2 )}
i 0
対訳コーパスからの翻訳知識獲
得の過程
日英対訳テキスト
日本語テキスト
統語的推定
英語テキスト
対訳辞書,
統計的手法
文対応推定
日本語文
構文解析
単語・句対応の
統計的推定
構文解析
日本語統語構造
英語文
文法,辞書
英語統語構造
構造照合
翻訳規則
単語類似度
•対訳辞書,シソーラ
ス
•統計的手法
コーパスの利用



品詞タグ付け
前置詞句の修飾先の曖昧性解消
単語の意味的曖昧性の解消
品詞タグ付け
(He can table the motion.)
He
can
table
the
motion
NNP
固有名詞
PRP
人称代名詞
MD
法助動詞
NN
単数名詞
VB
動詞原形
NN
単数名詞
VB
動詞原形
VBP
DT
限定詞
NN
単数名詞
VB
動詞原形
VBP
VBP
動詞現在形非
三人称単数
動詞現在形非
三人称単数
動詞現在形非
三人称単数
ベイズの定理の適用
P(品詞タグ列 | 単語列)は直接計算できないので,
P(品詞タグ列 | 単語列)
P(品詞タグ列) P(単語列 | 品詞タグ列 )

P(単語列)
を計算する
前置詞句の修飾先の曖昧性解消








I ate a fish with a fork. 動詞を修飾
I ate a fish with bones. 名詞句を修飾
前置詞句の修飾先の決定に影響を及ぼすもの
動詞(v),名詞句(目的語)中の主要名詞(n1),前置詞
(p),前置詞句中の主要名詞(n2)とする.
前置詞句の修飾先(m) 前置詞句が動詞を修飾する場
合:0,名詞句を修飾する場合:1とする.
(v,n1,p,n2,m)のデータを集める.
例:(eat, fish, with, fork, 0), (eat, fish, with, bones, 1)
ぴったりの例が無い場合はワイルドカードを利用してス
ムージングする
単語の意味的曖昧性の解消

plantの意味:植物,工場

yarowskyの手法の特徴


多義語の意味は同一テキスト内では一定の意味に
固定されやすいという性質を利用
コーパス中の多義語への意味付与の補正を行いな
がら,共起表現に基づくコーパス中の多義語への意
味付与と,コーパスからの多義語の各意味の共起表
現抽出を繰り返す.
第7回 レポート
締め切り 2月2日10:30


指定されたコーパスを使って「首相」の類義語を
調べよ
レポートの項目




手法の説明(工夫した点を含む)
結果
考察
プログラム
レポート用コーパス

毎日新聞(94年 1年分)


Webに掲載する期間


plain text (EUC)
1月26日~1月28日
大学内で行うこと(契約の関係で)
タグの説明
<DOC>
<DOCNO>940101001</DOCNO>
<SECTION>1面</SECTION>
<AE>無</AE>
<HEADLINE>[余禄]変化</HEADLINE>
<WORDS>6410</WORDS>
<TEXT> フランスのルイ十六世はずぼら
だったが、
日記だけはきちんとつけた。
本文の終わり </TEXT>
文書の終わり </DOC>
文書の始まり
文書番号
掲載面
写真・図の有無
ヘッドライン
単語数
本文の始まり
掲載面の種類
1面
社説
総合
科学
2面
国際
家庭
芸能
3面
経済
文化
スポーツ
解説
特集
読書
社会