音声情報処理:第3回

自然言語処理:第1回
1.講義の進め方
2.自然言語処理とは
1.講義の進め方
講義スライドはあらかじめホームページに
アップロードされる(.pptと.pdf)
http://www.info.kindai.ac.jp/NLP
全部で7回のレポートがある
それぞれ、100文字以上200字程度までで、
メールで提出
提出期限は、2週間後の10:30まで
[email protected]
1.講義の進め方
レポート50点 7回各7点(最終回のみ8点)
• 減点1:今までの講義から、
誤りと解るものを一部含む
• 減点2:今までの講義から、誤りと解る内容のもの
:提出期限遅れ
• 減点3:出題意図と異なる解答
• 減点7:Webページ等の丸コピー
• 減点10:他人のコピーをした(させた)
1.講義の進め方
レポートの書き方
• とにかく、自分で考えてみる
• その結果、間違っていても、減点はない
1.講義の進め方
レポートの解答例
課題
カレーに醤油はありか?理由とともに答えよ
1.講義の進め方
良い解答例(字数は無視)
あり。
醤油は万能調味料である。
合わない料理は存在しない。
1.講義の進め方
悪い解答例(字数は無視)
なし。
カレーに醤油とかキモすぎる
理由になっていない
あり。
コクが出ているうえ、辛味が抑え
られてマイルドな味わいに
よさそうに思えるが、Webのコピー
1.講義の進め方
試験50点 ノートPCを含め、持ち込みあり
• 正誤問題 30点
10問中、1問間違えるごとに3点減点
ただし減点は最大15点まで
• 記述問題 10点2問
レポートおよびその解説に関連する所から出題
2.自然言語処理とは
自然言語とは
人工言語
人と人とのコミュニケーションを取る為に作られた言語
- 国際補助語、架空言語、空想言語など
コンピュータで用いるコンピュータ言語
自然言語
人間どうしのコミュニケーションのために、自然発生
的にできあがった言語
2.自然言語処理とは
自然言語処理とは
自然言語をコンピュータ処理するための技術
自然言語処理 = 計算言語学
言語学 ≠ 計算言語学
自然言語を対象にする点が同じだが
-ヒトの言語を客観的に記述すること
文科系
2.自然言語処理とは
なぜ、自然言語処理が必要なのか?
・webは現状では最大の情報源(の一つ)
・ただし、web中のほとんどの情報は言葉で書かれ
ている。
・言葉の中から必要な情報が取り出せなければ
webの情報のほとんどが使えない。
2.自然言語処理とは
自然言語処理をコンピュータ処理するためには
単語(形態素) ∈ 文 ∈ 文章(ドキュメント)
文や文章をまるごと一つの単位として取り扱うのは
無理(種類が多すぎる、長すぎる)
もっと小さな単位に区切る
単語の並びが文、文のならびが文章
2.自然言語処理とは
単語?
目的:文をもっと細かい単位に区切る
どんな区切り方でもよいのか?
今 / 日は / 良い天 / 気だ
今日 / は / 良い / 天気 / だ
でたらめに区切ると
種類が多くなる
単語と意味、使い方の関連がなくなる
2.自然言語処理とは
形態素?
英語における単語
I go to …….
I’m going ……
「go」の原形
「go」 + 「ing」 (進行形)
What time ….
2 times 3 ……
時間と意味の名詞
掛けるという意味の動詞
「time」の三人称単数現在
2.自然言語処理とは
形態素とは
単語の原形(辞書の見出し語)に
変化形(活用形等)と
品詞の情報を加えたもの
茶筅
最も一般的に用いられている形態素解析
(文を形態素の列に分解する)のツールの一つ
2.自然言語処理とは
構文解析
形態素解析  文を形態素の列に変換
形態素と形態素の間の関係は?
文脈自由文法
形態素の列を文法解析する
正規文法
この(連体詞)
名詞句
名詞句
本(名詞)
文
を(助詞)
読む(動詞原形)
2.自然言語処理とは
係り受け解析
日本語では、構文解析の代わりに使われる
ことが多い
構文解析  形態素が単位
係り受け解析  文節が単位
文節  一つの内容語+機能語の列
各文節が後ろのどの文節に関係しているか
2.自然言語処理とは
係り受け解析
日本語 / では / 、 / 構文解析 / の / 代わり /
に / 使わ / れる / こと / が / 多い
構文解析  形態素が単位
係り受け解析  文節が単位
文節  一つの内容語+機能語の列
各文節が後ろのどの文節に関係しているか
2.自然言語処理とは
係り受け解析
日本語では、 構文解析の 代わりに 使わ
れる ことが 多い
構文解析  形態素が単位
係り受け解析  文節が単位
文節  一つの内容語+機能語の列
各文節が後ろのどの文節に関係しているか
2.自然言語処理とは
意味解析
構文解析、係り受け解析
 形態素(文節)間の関係の有無を調べる
どんな意味関係(主語と述語等)にあるかは
見ていない
ねこ と 飛ぶ 鳥
(ねこ) と (飛ぶ 鳥)
(ねこ と 飛ぶ) 鳥 ×
2.自然言語処理とは
文脈解析
構文解析、係り受け解析
 一つの文の中の構造
文章全体で何が書かれているか
前後関係がわからないとできないもの
 代名詞が何を指しているか
非常に難しい問題
対話制御もここに属する
2.自然言語処理とは
コーパス
構文解析  文法が必要
意味解析  それぞれの単語の細かい意味が必要
「鳥」は飛ぶが「ねこ」は飛ばない等
全部人手で作るのか?
コンピュータで自動的に作れないか
コーパス⇔そのためにコンピュータに与える知識
構文解析や意味解析 を行った例のかたまり
2.自然言語処理とは
コーパスと統計処理
コーパス⇔そのためにコンピュータに与える知識
コーパスを統計量というコンピュータ処理向きの
形に変換
代表  N-gram 言語モデル
前の単語から次に出てきやすい単語を予測
構文解析
 形態素と形態素の間の関係を文法で調べる
N-gram 形態素間の関係は場所の近さだけで良い
2.自然言語処理とは
自然言語処理システム
自然言語処理の技術を使った役に立つシステム
仮名漢字変換
自動要約
音声認識
OCR
テキストマイニング
機械翻訳
2.自然言語処理とは
1回「自然言語処理の概要」
2回「自然言語処理システム、単語と形態素、文節と係り受け」
3回「構文解析、格文法」
4回「オントロジー、言語コーパス」
5回「統計的言語モデル」
6回「平滑化」
7回「クラスモデルとクラスタリング」
8回「言語モデル適応」
9回「文法と有限状態オートマトン」
10回「音声認識概論」
11回「機械翻訳概論」
12回「自動要約」
13回「テキストマイニング」
14回「自然言語処理のまとめと復習1」
15回「自然言語処理のまとめと復習2」
質問
[email protected]
http://www.info.kindai.ac.jp/NLP