自然言語対話特論 後期 水曜日 2時限 後半 鈴木良弥 授業の予定 12月01日 12月08日 12月15日 12月22日 01月12日 01月19日 01月26日 形態素解析,構文解析 意味解析 就職関連の説明(日立製作所のOB) 談話解析 文章生成 辞書 コーパスベースの技術 授業資料 http://ir.cs.yamanashi.ac.jp/~ysuzuki/taiwa/ power point file (ppt) と pdf file (pdf) 自然言語処理 –基礎と応用— 出版:電子情報通信学会 監修:田中穂積 ISBN:4-88552-160-2 授業のねらい 自然言語で使われている技術について理解し,そ れぞれの研究に役立てる 最新の研究については触れません. 授業の評価 関口先生の評価:50点+鈴木の評価:50点 鈴木の評価:合計50点 出席した回のレポート点:6回×7点=42点 講演会のレポート点:1回×8点 12月01日 形態素解析,構文解析 形態素解析 形態素 = 意味を担う最小の言語要素 形態素解析 単語の出現形から原形を求める処理(英語など) solving → solve + ing (進行形) easier → easy + er (比較級) problems → problem + s (複数) 単語分割と語の活用(日本語など) 日本的 → 日本 + 的 言語モデル → 言語 + モデル 使い込む → 使う + 込む 形態素解析の応用 仮名漢字変換プログラム ここではきものをぬぐ ここで|はきもの|を|ぬぐ → ここで履物を脱ぐ ここで|は|きもの|を|ぬぐ → ここでは着物を脱 ぐ きしゃのきしゃがきしゃできしゃした 貴社の記者が記者で帰社した 形態素解析の手法 最長一致法 分割数最小法 接続コスト最小法 など 例:畜産物価格安定法 畜産物|価格|安定|法 畜 産 物 価 名詞 名詞 格 安 名詞 名詞 動詞 語幹 接尾辞 名詞 名詞 名詞 定 名詞 形容詞 語幹 名詞 法 名詞 名詞 名詞 最長一致法 文字列の先頭から解析を始め,後続する可能性 がある単語が複数あるときは,最長の単語を選 択して先に進む 3 2 2 1 ○ (8) 畜産物|価格|安定|法 × (4) 畜産 価 安 分割数最小法 入力文字列を構成する単語の総数が最小 になる解釈を優先する方法 例:言語学入門講座 ○ (3) 言語学|入門|講座 × (4) 言語|学|入門|講座 × (4) 言語学|入|門|講座 品詞接続表 最長一致法や分割数最小法だけでは形態素解析 の曖昧性が残る→曖昧性解消のために利用される 後 名詞 助詞 形容詞 副詞 助動詞 動詞 前 名詞 ○ ○ × × ○ × 助詞 ○ × ○ ○ × ○ 形容詞 ○ × × × ○ × 副詞 ○ × × × × ○ 助動詞 ○ × × × ○ ○ 動詞 × × × ○ ○ ○ 統計的言語モデルに基づく形態 素解析 品詞接続表のように接続を○×では表せない 口語,様々な文脈 →接続コストを利用する 接続コスト最小法 JUMAN, 茶筌,多くのかな漢字変換アルゴリズ ムで使用されている. 品詞接続コスト,単語コストを利用する 品詞接続コスト:接続がまれな品詞間のコストは大き い 単語コスト:単語の出現頻度が小さいほどコストは大 きい 統計的言語モデルの利用 形態素解析の定式化 長さ mの文字列C c1 cmからなる入力文が 長さ nの単語列W w1 wnに分割されることを考 える 形態素解析:与えられ た文字列に対する単語列の 条件付確率P(W | C )を最大化する単語列 Wˆ を求める問題 Wˆ arg max P(W | C ) arg max P(W ) W P(W ) : 単語分割モデル W 単語分割モデルP(w) マルコフモデル 単語列W w1 wnの同時確率 n P(W ) P( wi | w1 wi 1 ) i 1 N 1重マルコフ過程近似( n gramモデル) P( wi | w1 wi1 ) P( wi | wi N 1 wi 1 ) bigramモデル n n C ( wi 1, wi ) P(W ) P( wi | wi 1 ) C ( wi 1 ) i 1 i 1 C()は単語列の出現頻度 単語分割モデルP(w) 隠れマルコフモデル 単語列W w1 wn 観測可能 品詞列T t1 tn 観測不可能 n P(W ) P(ti | ti 1 )P( wi | ti ) i 1 C (ti 1 , ti ) P(ti | ti 1 ) , C (ti 1 ) C ( wi , ti ) P( wi | ti ) C (ti ) マルコフモデル (wは単語) P( w1 | w1) P( w2 | w2) P( w2 | w1) w1 w2 P( w1 | w2) 隠れマルコフモデル (wは単語,tは品詞) P(t 2 | t 2) P(t1 | t1) P(t 2 | t1) t1 P( w1 | t1) P( w2 | t1) t2 P(t1 | t 2) P( w1 | t 2) P( w2 | t 2) 構文解析 構文木 (一郎が速いボールを軽々と投げた) 文 動詞句 後置詞句 後置詞句 名詞句 名詞 助詞 形容詞 名詞 一郎 が 速い ボール 動詞句 助詞 副詞 を 軽々と 動詞 投げた CYKアルゴリズム チョムスキーの標準形の文脈自由文法を 対象とした構文解析法 チョムスキーの標準形 A→BC (A,B,C∈Vn) A→a (A∈Vn, a∈Vt) チョムスキーの標準形の例 「急いで走る一郎を見る」 (1) (2) (3) (4) (5) (6) (7) (8) s→pp v s→adv vp vp→pp v vp→adv v np→vp n np→v n np→np p pp→n p (9) adv→急いで (10) n→一郎 (11) p→を (12) v→走る (13) v→見る CYK構文解析の概要 1.急いで 2.走る 3.一郎 4.を 5.見た T2,5: 走る一郎を見た 1.急いで 2.走る T2,2: 走る| T35: 一郎を見た T2,2 T2,3 T2,4 T2,5 3.一郎 T3,5 4.を T4,5 5.見た T5,5 T2,3: 走る一郎| T4,5 を見た T2,4: 走る一郎を| T5,5 見た CYKアルゴリズム A→aの形の規則を用いて主対角線上の要素を求める. 1. for i=1 to N Ti,i={A|A→wi} A→BCの形の規則を用いて2番目以降の対角線上の 要素を求める 2. for k=1 to N-1 for i=1 to N-k k Ti ,i k {A | A BC, B Ti ,i j 1, C Ti j ,i k } j 1 3. S T1,N であれば,w1 wn は開始記号Sから導出可能 CYK構文解析表 1.急いで 2.走る 1.急いで 2.走る 3.一郎 4.を 5.見た adv→急いで vp→adv v v→走る 3.一郎 4.を np→vp n pp→np p np→v n pp→np p n→一郎 pp→n p 5.見た vp→pp v s→pp v s→adv vp vp→pp v s→pp v vp→pp v s→pp v p→を v→見た 文脈自由文法に基づく構文木 s s pp vp np pp vp adv np v n p v 急いで 走る 一郎 を 見た adv v n p v 急いで 走る 一郎 を 見た 第1回 レポート 締め切り 12月8日10:30 [email protected]宛 サブジェクトは自然言語対話特論 最長一致法と分割数最小法を使って 「畜産物価格安定法」を形態素解析するプログラ ムを作成せよ 説明つきプログラム 結果 考察
© Copyright 2025 ExpyDoc