NLP-2

自然言語処理:第2回
1.自然言語処理システム
2.単語と形態素
3.文節と係り受け
2.自然言語処理とは
自然言語処理システム
自然言語処理の技術を使った役に立つシステム
音声認識
仮名漢字変換
OCR
1.自然言語処理システム
その他の自然言語処理システム
情報検索
文やキーワードを提示して、それに関連し
た情報をWebから自動的に探してくる
Google 検索の賢いやつ
入力が文の場合は、自動的にキーワードを
見つける必要がある
1.自然言語処理システム
その他の自然言語処理システム
自動要約、情報抽出(テキストマイニング)
今の社会では、情報はたくさんあるが、多すぎて
全部を見ることができない
必要あるいは重要な部分だけ、自動的に抽出
してくれると便利
対話システム
情報メディアプロジェクトⅡで
1.自然言語処理システム
機械翻訳
ルールベース翻訳
ちゃんと構文解析や意味解析して、そ
の結果から翻訳をする
統計翻訳
対訳関係にある文のペア(パラレルコーパス)を
大量に集め、そこから得られる統計量を利
用する
2.単語と形態素
単語とは?
① 文の要素
② 文字の列からなる
③ 意味や機能と対応がとれる
英語の「I」が単語なら、
同じ意味の日本語「私は」も単語?
bookとbooksでは?
単語という言葉はちゃんと定義されていない
2.単語と形態素
形態素の定義
意味や機能に対応した文字の並び
「私は」は形態素?
「私」  意味がある
「は」  直前の形態素は主語であることを表す
機能
「運動」は形態素?
「運」、「動」  漢字としての意味しかない
2.単語と形態素
内容語と機能語
形態素  意味や機能に対応した文字の並び
内容語  意味
単独で文になれる
「明日」「走る」「本」「大きい」「もっと」
機能語  機能
内容語と一緒になることではじめて文になれる
「は」「から」「です」
2.単語と形態素
形態素と品詞
品詞  内容語、機能語を使い方で分類したもの
単独で主語になれる  名詞、代名詞
動詞、形容詞を修飾する  副詞
直前の動詞の意味を補う  助動詞
色々な品詞の定義のしかた(品詞体系)があるが
Unidicの品詞体系を紹介
2.単語と形態素
Unidicの品詞体系
大分類
内容語
名詞、代名詞、形状詞、連体詞、
副詞、接続詞、感動詞、動詞、
形容詞
機能語
助詞、助動詞、接頭辞、接尾辞、
記号
2.単語と形態素
名詞の小分類
名詞  主語になれる
述語になれるか?
名詞+「だ」  OK
名詞+「する」  ?
後ろに「な」が付けられるか?
後ろに直接形容詞や動詞がくるか?
実は多くの名詞は動詞(サ変動詞)や形容動詞、
副詞としての使い方ができる
2.単語と形態素
形態素解析
与えられた文を形態素に分解する
字面が同じでも、品詞が違えば、別形態素
品詞も意味も同じでも、字面が違う(活用)
品詞、意味、字面が同じでも読みが違う
音声認識
仮名漢字変換
形態素解析
音声 形態素列
仮名 形態素列
文字列 形態素列
2.単語と形態素
与えられた文を形態素に分解する
与え・与える・動詞・下一段・未然
られ・られる・助動詞・下一段・連用
た・た・助動詞・特殊・連体
文・名詞・一般
を・助詞・格助詞
形態素・名詞・一般
に・助詞・格助詞
分解・名詞・サ変
する・する・動詞・サ変・終止形
2.単語と形態素
形態素解析の実行方法
形態素に分解する
「形」「形態」「形態素」 「形態素に」...
が形態素として存在するかどうかを調べる
(辞書を引く)
形態素に分解する  行き詰る(態素が×)
最後まで、辞書にある単語に分けられれば成功
複数の分け方があったら?
2.単語と形態素
形態素解析の実行方法
複数の分け方があったら?
1)文法チェック
「ない」の前は必ず未然形
2)分け方に対するスコア
形態素の並びとして自然かどうか
言語モデル N-gram
2.単語と形態素
形態素解析の例題
すごいねこのカレー
2.単語と形態素
形態素解析の例題
すごいねこのカレー
一見簡単そうに見えるが
2.単語と形態素
形態素解析の例題
すごい/ね/この/カレー
2.単語と形態素
形態素解析の例題
すごい/ねこ/の/カレー
2.単語と形態素
形態素解析の例題
すごい/ねこ/の/カレー
2.単語と形態素
形態素解析の例題
すごい/ねこ/の/カレー
答えが一意に決ま
るとは限らない
3.文節と係り受け
文節とは?
一つの内容語とそれに関係している機能語
の集まり
今日の実験は大失敗だ。
今日/の/実験/は/大/失敗/だ/ 。 /
今日/の/実験/は/大/失敗/だ/ 。 /
内容語を一つだけ含むので、意味の単位
3.文節と係り受け
各形態素が他のどの形態素と関係をもっているか?
文の構造を調べる
テーブルのコップを持つ
文の構造が分らないと、「持つ」のは「コップ」
なのか「テーブル」なのかわからない
内容語と機能語の関係は簡単  文節
内容語と内容語の関係は  係り受け解析
3.文節と係り受け
日本語の係り受け解析
各文節がどの文節を修飾しているか
テーブルのコップを持つ
係り受けルール① (どの言語でも共通)
係り受けを示す矢印は交差しない
うなぎを浜松に食べに行く
3.文節と係り受け
日本語の係り受け解析
係り受けルール② (日本語固有)
係り受けを示す矢印は常に前から後ろ
なぜ?
日本語では、動詞(句)が最後に来る
日本語は膠着語と呼ばれ、内容語と内容語を
機能語という膠(にかわ)でくっつける
機能語が、次に続く形態素を制約する
3.文節と係り受け
係り受け解析の例題
抽選結果は11月に、申し込んだ全員に通知される。
3.文節と係り受け
係り受け解析の例題
抽選結果は11月に、申し込んだ全員に通知される。
3.文節と係り受け
係り受け解析の例題
抽選結果は11月に、申し込んだ全員に通知される。
レポート
今日は天気が良くない
文節に区切った場合、どちらが正しいか
理由と共に述べよ
① 今日は天気が良くない
② 今日は天気が良くない
ヒント
文節には必ず一つだけ内容語が含まれる
レポート提出のメールの件名は
NLP-1-学籍番号 で
質問&レポート
[email protected]
http://www.info.kindai.ac.jp/NLP