今日の内容 自然言語処理システム特論 意味解析の基礎 • 意味解析とは? Natural Language Processing Systems 第3回 • 名詞の意味 • 動詞の意味 2015/4/21 芝浦工業大学 工学部 情報工学科 杉本 徹 [email protected] 実験課題の補足 • グループワーク(話し合い) 復習: 自然言語の解析処理の流れ 意味解析とは? 入力文 「太郎は本を読んだ。」 ① 形態素解析 太郎 は 本 を 読ん だ ② 構文解析 名 助 名 助 動 助動 太郎 は 本 を 読ん だ ③ 意味解析 agent taro ④ 文脈解析 意味表現の例(グラフ構造) 例: 「太郎は面白い本を読んだ.」 read interesting taro object 「太郎は本を読んだ.」 注: 入力文に対する論理式表現やグラフの構造,ラベル名の与え方は 一つに決まっているわけではない 複数の文に またがる処理 「太郎は本を読んだか?」 statement object book object book 意味表現(命題+発話行為) content agent read ask content read agent read object taro book agent taro object book 発話行為(Speech Act): 発話を一種の行為(action)ととらえる. 陳述,依頼,質問,命令,許可,約束,感謝 などの種類がある. 1 意味解析の手法(単純化した処理手順) • 例:「太郎が生協の食堂でカレーを食べた.」 係り受け木 食べた 1.単語辞書を参照して 意味表現 eat / 文節の主辞を概念に変換 live 生協の agent 名詞の意味 dining / curry / taro cafeteria Calais 太郎が 食堂で カレーを eat / live co-op 複数の 概念候補 place object 3.意味役割付与 taro dining / curry / 2.語義曖昧性解消 cafeteria Calais 単語の概念を1つに 深層格を求める 絞り込む possessor co-op 名詞の意味を捉える方法 • 定義文の記述 – 例:「学校」 一定の場所に設けられた施設に,児童・生徒・学生を集めて, 教師が計画的・継続的に教育を行う機関.(大辞林) 表現(単語)と意味(概念) • 自然言語の表現(単語)とそれが持つ意味 (概念)の関係は,多対多の関係 「少女」 • 用例を集める – 例: 学校の試験があるが,準備の勉強もできないまま登校した. 4駅先のマンションから学校に通う.(朝日新聞) • 他の語との関連の記述 – – – – 同義語・類義語 上位語 下位語 関連語 学び舎,学府,スクール 教育機関,公共施設 小学校,大学,大学院,・・・ 教室,授業,教師,卒業,・・・ シソーラス 概念体系 単語(or 単語が表しうる概念)の体系化 girl (単語) 「女の子」 (概念) daughter 「娘」 多義語 ・・・ 1つの単語が複数の意味(概念)を持つ 同義語 ・・・ 複数の単語が同じ意味(概念)を持つ シソーラスの例: 分類語彙表(抜粋) • シソーラス(thesaurus) 体 – 単語を意味的関係(同義語,上位語,下位語など) に基づいて分類・整理したもの(類語辞書) 関係 主体 用 活動 相 生産物 自然 – 例:分類語彙表(国語研): 10万語の日本語シソーラス Word Net(Princeton大): 10万語の英語シソーラス 人間 家族 社会 機関 • 概念体系 – 単語が表しうる意味(概念)を主に上位・下位関係 (一般・特殊)関係に基づいて分類・整理したもの 男女 老少 夫婦 子(孫) 学校など 店など – 例:EDR 概念体系辞書: 41万個の概念からなる体系 日本語語彙体系(NTT): 3000種の意味素からなる体系 男性 淑女 ミセス 少年 兄さん 翁 亭主 奥様 皇后 娘 お嬢さん 皇太子 大学 私学 母校 コンビニ デパート 学食 2 EDR 概念体系(抜粋) 3d017c 物事 概念識別子 凡例: 3aa966 概念の説明 概念 444d86 もの 30f7e4 3aa911 3d017c 事象 人間・主体 物事 (次ページに続く) 30f7e5 30f801 30f83e 3aa963 現象 移動 行為 状態 30f832 30f802 3f9736 3f9871 情報の移動 空間移動 加える 性状・性向 444e40 30f6ae 抽象物 具体物 444e3f 具体的あるいは 抽象的存在物 3aa941 30f6f0 30f780 30f6bf 444d57 システム 器具 情報媒体 動物 作品 3bc732 3cdcc5 4448ab 10c9bb 30f6c5 3be65c プログラム ワープロ 光ディスク 郵便物 哺乳類 映画 30f7c8 物事に対する 評価 3f96e6 3f96e7 3cff8a 0fe35d 30f7b7 444db1 3bc043 情報の発信 情報の受信 発送する 追加する 人の気持ち 事物の属性 価値が高い 0e910d 1034ee 1e887c 3cf8db 0fbcfb 書き記す 読む うれしい 悲しい 空間的に高い 201de9 アプリケー ション 3c1f9e ソフトウェア 3c6726 70009d コンパクト ディスク デジタルビデ オディスク 0f272b 0f6441 3bdc67 101b25 3ccae4 手紙 暑中見舞い 犬 猫 アニメ映画 共起辞書(EDRなど) • ある単語(または概念)と一緒に使われる単語 (概念)のリスト (⇒ 関連語) 動詞の意味 例: 「学校」という名詞と共起する名詞 いじめ,帰り道,学生,教科書,教室,行事,グラウンド, 校歌,校舎,校長,講堂,試験,宿題,職員室,授業, 成績,生徒,先生,卒業,体育館,図書館,友達,勉強 など 格(case)構造 格フレーム辞書の例(EDR) • 格: 文中の動詞に対して他の語が果たす役割 – 表層格: 「が」格,「を」格,「に」格 など – 深層格: agent, object, goal, source, place など 「が」 「を」 「に」 「から」 agent source 自動物,器具,等 建物,場所,等 agent source 人間,動物 場所 object 具体物,情報媒体等 太郎は その本を 友達に 表層格 「が」格 「を」格 「に」格 深層格 agent object goal 貸した 動詞 • 動詞によって,文中でどのような格を取るか 大体決まっている(格フレーム,文型パターン) object goal 人間,動物,天体等 位置-方向 object goal source 具体物 人間,組織 人間,組織 object 情報媒体,音楽,等 object source 現象,行為 具体物,等 「出る」 内から外へ行く 「出る」 かえりみないで 放っておく 「出る」 品物がよく 売れる 「出る」 姿を現すこと 「出る」 与えられる 「出る」 発行される 「出る」 事態が新たに 生じる • 赤字は格要素に対する意味的制約(選択制限) 3 動詞の意味を分析的に捉える • 例: 「次郎は太郎に勉強を教わった」 受ける ⇔ 「太郎は次郎に勉強を教えた」 授ける • 語彙意味論,語彙概念構造 – 動詞の意味を,BE, BECOME, MOVE, AT, TO など の基本的な意味素の組み合わせに還元 – 例: 「教わる」 [BECOME [x BE[WITH [y MOVE [FROM z] [TOWARD x]]]]] ここまでのまとめ • 意味解析の基礎 – 意味解析とは? – 名詞の意味 – 動詞の意味 続きは第6回(統計的意味解析)に! • 概念依存理論(Schank 1975) – 動詞の意味を,PTRANS(物理的移動),ATRANS(抽象的 移動)など少数の意味素の組み合わせに還元 実験課題について • 3~4人でチームを作って,自然言語データを 自作プログラムで分析する実験に取り組む 実験課題の補足 – チームは杉本がランダムに決定(済) – 課題は後述の4つの課題の中からチームごとに 1つを杉本が指定(済) – 各チームはメンバー間で分担して与えられた課題 の実験に取り組む – プログラム作成だけでなく,完成したプログラムを 用いて自然言語データを分析し,その結果の評価 ・考察も行うこと 日程 • 第2回 参加アンケート(済) • 第3回 グループ分け発表,話し合い • 第4回 実験の構想発表(プレゼン) – 実験の目的,作成するシステムの機能(入力と出力の 仕様など),処理内容・手順,使用予定のデータ,評価 方法,分担 • 第8~10回 実験の結果報告(プレゼン) – 実験の目的,システムの機能,アルゴリズムの説明, 使用したデータ,使用したツール,実験結果,考察, 分担,参考文献 注意事項 • グループの全メンバーがそれぞれ,実験課題の実施 (プログラム作成,データ作成,評価実験)と結果報告 (発表資料作成,発表)の両方に関与すること. • 与えられた課題を直接解決する機能をもったツール (言語,ソフト)は使わないこと.具体的には, 課題1 → かな漢字変換ソフト 課題2 → N-gram作成ツール 課題3 → 単語の類似度計算ツール 課題4 → 文章を入力とする分類ツール(素性集合を入力 する分類ツールはOK) • 課題解決やデータ作成のための処理過程の一部を 行うツールは使用してよい(例:形態素解析ツール) – ツールを使用した場合,結果報告プレゼンで言及すること 4 ヒント: コーパスの作成方法 課題1(かな漢字変換)の補足 1.無料で入手できる文章データを収集する – 青空文庫,Wikipedia記事,研究論文,ニュースサイト記事 などから手作業でデータ構築する 2.形態素解析ツールを用いて,収集した文章データを 単語列に分解する • 実験を始めやすいように,近日,青空文庫をデータ源 とする小規模コーパス(50~100万単語)を提供予定 – 各自でより大規模なコーパスを作成して使うとよい • 参考: 既存の主なコーパスやテキストデータのサイズ 無料) 青空文庫(1~10万語/作品),Wikipedia記事(全体で約2億語?) 有料) EDRコーパス(約500万語),新聞記事(約3000万語/年), 現代日本語書き言葉均衡コーパス(約1億語) 課題2(N-gramデータの作成と利用)の補足 • ごく小さいコーパスからのN-gramデータ作成例 太郎 は 学生 です 。 花子 も です 。 太郎 は 音楽 が 好き 。 花子 は 映画 が 好き です 学生 です 。 1-gram(unigram) 2-gram(bigram) 1-gram確率の例 1-gram 回数 2 太郎 3 は 2 学生 ... ... 2-gram 回数 2 太郎,は 1 は,学生 2 学生,です ... ... P(太郎)=2/24=0.08 2-gram確率の例 P(学生|は) =1/3 =0.33 課題4(文章のカテゴリ分類)の補足 • ここでは Naïve Bayes分類器について説明 • 問題: 文章 d が単語 w1, w2, …, wn からなるとき, この文章 d をカテゴリ c1, c2, …, ck のいずれ か1つに分類する • 前回の資料の訂正 「形態素解析ツールなど既存の言語処理ツールは利用不可」 ⇒入力文に対する変換処理の一部として使用するのは不可 だが,解析に必要なデータ(例:コスト値)を事前に準備する 際に利用するのは構わない • 入力文と単語辞書の照合の際に,動詞などの活用を 考慮する必要あり – 入力文例:「ラーメンを食べた。」 ⇒ 「食べ」をどう扱うか? – MeCab付属のIPA辞書(Windows版,csv形式)には, このような語形変化後の表記が見出し語として1つずつ 登録されているので便利 課題3(単語の類似度計算)の補足 • 方法1.シソーラスに基づく類似度計算 – 計算により得られた類似度の値の適切さをどう やって評価すればよいか考えてみるとよい • 方法2.単語の分布類似度の計算 – 共起単語の例 • 「ラーメン」 ⇒ { 「食べる」,「作る」,「注文する」,… } • 「うどん」 ⇒ { 「食べる」,「作る」,「ゆでる」,… } – 共起単語集合の重なり具合を測る尺度 • Jaccard係数,Simpson係数,Cosine類似度など 問題: 条件付き確率 P(cj | w1…wn) が最大となる カテゴリ cj を求める • Bayes の法則より P(cj | w1…wn) = P(w1…wn | cj)×P(cj) P(w1…wn) – 分母は cj の選び方に依存しないので無視できる • 各wi の出現が互いに独立である と仮定すると n P(w1…wn | cj) = Π P(wi | cj) i=1 n – したがって, P(cj | w1…wn) ∝ P(cj)× Π P(wi | cj) i=1 • 赤枠内の式の値が最大となる cj を選べばよい 5 コーパスデータに基づく確率の最尤推定 コーパス = カテゴリ分類済みの文章の集合(文章群) P(cj) = P(wi | cj) = (コーパス中でカテゴリ cj に分類された文章数) (コーパス中の全文章数) 次回の構想発表に向けた 話し合い(グループワーク) (コーパス中でカテゴリ cj に分類された文章で, 単語 wi を含むものの数) ※1 (コーパス中でカテゴリ cj に分類された文章数) ※1 wi が1回も出現しない場合は,確率 P(wi | cj) を 0 にせず, 微小な数値を割り当てる(smoothing) 次回(4/28)の予定 • 実験課題の構想発表 – 1グループあたり,発表5分,質疑5分 – 発表用ファイルをUSBメモリに入れて持参 – 以下のような内容を含めること • • • • • • 実験の目的 作成するシステムの機能(入力と出力の仕様など) 処理内容・手順 使用予定のデータ 評価方法 分担 – 聴衆からのフィードバック 参考文献 • 「日本語入力を支える技術」 徳永拓之,技術評論社,2012 – かな漢字変換 • 「確率的言語モデル」 北研二,東大出版会,1999 – N-gramモデル,smoothing(discounting) • 「Nグラムモデルによる,日本語単語の並べ換え実験」 丸山宏, 情報処理学会全国大会,1994 – bag translation • 「自然言語処理の基礎」 奥村学,コロナ社,2010 – シソーラスに基づく類似度計算,文章分類など • 「言語処理のための機械学習入門」 高村大也,コロナ社,2010 – 文書分類 • “Introduction to Information Retrieval” Manning et.al., Cambridge, 2008 (邦訳あり) – 文書分類 6
© Copyright 2024 ExpyDoc