自然言語処理2012

自然言語処理2012
東京工科大学
コンピュータサイエンス学部
亀田弘之
今日の内容
1.
2.
3.
4.
5.
6.
7.
tf・idf法の考え方(復習)
意味について
言語処理システム(デモと説明)
未知語獲得システム(デモと説明)
文法獲得システム(デモと説明)
これからの進むべき道
補講の予告(一緒に試験を勉強します)
tf・idf法の考え方(復習)
• 問題意識
– キーワード検索における文書のランキング
– 各文書(document)を特徴づける単語(キーワー
ド)はどれだろうか?
問題設定
下記の各文書におけるキーワードはそれぞれどれ?
文書
Doc1
言語
コンピュータ
Doc2
コンピュータ
問題
Doc3
言語
問題
情報
Doc4
問題
情報
問題
情報
問) まずは自分で考えてみよう!
NLP2011 Tokyo University of Technology
4
考察
• 行と列を入れ替える
キーワード
文書
言語
Doc1 Doc3
コンピュータ
Doc1 Doc2
問題
Doc1 Doc2 Doc3 Doc4
情報
Doc2 Doc3 Doc4
問) この表から何がわかる?
もう少し情報を付け加えてみよう
TF
Doc1
Doc2
Doc3
Doc4
言語
2
0
1
0
コンピュータ
1
1
0
0
問題
2
2
3
1
情報
0
1
2
1
(注)出現頻度の情報を追加。
考察) 上記の各文書におけるキーワードは結局それぞれどれ?
ポイント
• 多くの文章に万遍なく現れる単語は、その文
章を特徴づけるものになっていないのでは?
• その文書だけに集中して現れる単語は、その
文書を特徴づける単語になってるであろう。
• その文章において出現頻度の高い単語は、
その文書を特徴づける単語と考えていいので
はないか?
知見) 単語の重要度=TF×IDF
TF(term frequency): 当該単語の出現個数
DF(document frequency): 当該単語が含まれる文書の総数
IDF(inverse document frequency)
TF-IDF法(1)
TF
Doc1
Doc2
Doc3
Doc4
言語
2
0
1
0
コンピュータ
1
1
0
0
問題
2
2
3
1
情報
0
1
2
1
IDF
文書総数
IDF 
語が出現する文書の総 数
NLP2011 Tokyo University of Technology
8
tf・idf法 (2)
TF・IDF
Doc1
Doc2
Doc3
Doc4
言語
コンピュータ
問題
情報
NLP2011 Tokyo University of Technology
9
問題)TF-IDF法の長所と短所は?
発展問題)
• 通常の教科書によれば、tf-idf法は以下の式
により計算される。なぜか?


N
tf  idf  tf   log  1
df


2.意味について
• 言語学における意味論
• 哲学(言語哲学・分析哲学) など
– 認識論(ロック、ヒューム、カント)
課題) “意味”という単語の意味を、辞書で調べてみてください。
言語について(補足)
• ラング(langue)
• ランガージュ(langage)
• パロール(parole)
各種デモ
• 今まで学んだことで、こんなことができるんだ、
ということを知ってください。