自然言語処理2012 東京工科大学 コンピュータサイエンス学部 亀田弘之 今日の内容 1. 2. 3. 4. 5. 6. 7. tf・idf法の考え方(復習) 意味について 言語処理システム(デモと説明) 未知語獲得システム(デモと説明) 文法獲得システム(デモと説明) これからの進むべき道 補講の予告(一緒に試験を勉強します) tf・idf法の考え方(復習) • 問題意識 – キーワード検索における文書のランキング – 各文書(document)を特徴づける単語(キーワー ド)はどれだろうか? 問題設定 下記の各文書におけるキーワードはそれぞれどれ? 文書 Doc1 言語 コンピュータ Doc2 コンピュータ 問題 Doc3 言語 問題 情報 Doc4 問題 情報 問題 情報 問) まずは自分で考えてみよう! NLP2011 Tokyo University of Technology 4 考察 • 行と列を入れ替える キーワード 文書 言語 Doc1 Doc3 コンピュータ Doc1 Doc2 問題 Doc1 Doc2 Doc3 Doc4 情報 Doc2 Doc3 Doc4 問) この表から何がわかる? もう少し情報を付け加えてみよう TF Doc1 Doc2 Doc3 Doc4 言語 2 0 1 0 コンピュータ 1 1 0 0 問題 2 2 3 1 情報 0 1 2 1 (注)出現頻度の情報を追加。 考察) 上記の各文書におけるキーワードは結局それぞれどれ? ポイント • 多くの文章に万遍なく現れる単語は、その文 章を特徴づけるものになっていないのでは? • その文書だけに集中して現れる単語は、その 文書を特徴づける単語になってるであろう。 • その文章において出現頻度の高い単語は、 その文書を特徴づける単語と考えていいので はないか? 知見) 単語の重要度=TF×IDF TF(term frequency): 当該単語の出現個数 DF(document frequency): 当該単語が含まれる文書の総数 IDF(inverse document frequency) TF-IDF法(1) TF Doc1 Doc2 Doc3 Doc4 言語 2 0 1 0 コンピュータ 1 1 0 0 問題 2 2 3 1 情報 0 1 2 1 IDF 文書総数 IDF 語が出現する文書の総 数 NLP2011 Tokyo University of Technology 8 tf・idf法 (2) TF・IDF Doc1 Doc2 Doc3 Doc4 言語 コンピュータ 問題 情報 NLP2011 Tokyo University of Technology 9 問題)TF-IDF法の長所と短所は? 発展問題) • 通常の教科書によれば、tf-idf法は以下の式 により計算される。なぜか? N tf idf tf log 1 df 2.意味について • 言語学における意味論 • 哲学(言語哲学・分析哲学) など – 認識論(ロック、ヒューム、カント) 課題) “意味”という単語の意味を、辞書で調べてみてください。 言語について(補足) • ラング(langue) • ランガージュ(langage) • パロール(parole) 各種デモ • 今まで学んだことで、こんなことができるんだ、 ということを知ってください。
© Copyright 2024 ExpyDoc