意味解析の基礎 - 芝浦工業大学

今日の内容
自然言語処理システム特論
意味解析の基礎
• 意味解析とは?
Natural Language Processing Systems
第3回
• 名詞の意味
• 動詞の意味
2015/4/21
芝浦工業大学 工学部 情報工学科
杉本 徹
[email protected]
実験課題の補足
• グループワーク(話し合い)
復習: 自然言語の解析処理の流れ
意味解析とは?
入力文
「太郎は本を読んだ。」
① 形態素解析
太郎 は 本 を 読ん だ
② 構文解析
名 助 名 助 動 助動
太郎 は 本 を 読ん だ
③ 意味解析
agent
taro
④ 文脈解析
意味表現の例(グラフ構造)
例: 「太郎は面白い本を読んだ.」
read
interesting
taro
object
「太郎は本を読んだ.」
注: 入力文に対する論理式表現やグラフの構造,ラベル名の与え方は
一つに決まっているわけではない
複数の文に
またがる処理
「太郎は本を読んだか?」
statement
object
book
object
book
意味表現(命題+発話行為)
content
agent
read
ask
content
read
agent
read
object
taro
book
agent
taro
object
book
発話行為(Speech Act): 発話を一種の行為(action)ととらえる.
陳述,依頼,質問,命令,許可,約束,感謝 などの種類がある.
1
意味解析の手法(単純化した処理手順)
• 例:「太郎が生協の食堂でカレーを食べた.」
係り受け木
食べた
1.単語辞書を参照して 意味表現
eat /
文節の主辞を概念に変換
live
生協の
agent
名詞の意味
dining / curry /
taro cafeteria
Calais
太郎が 食堂で カレーを
eat /
live
co-op
複数の
概念候補
place object
3.意味役割付与 taro dining / curry / 2.語義曖昧性解消
cafeteria Calais 単語の概念を1つに
深層格を求める
絞り込む
possessor
co-op
名詞の意味を捉える方法
• 定義文の記述
– 例:「学校」
一定の場所に設けられた施設に,児童・生徒・学生を集めて,
教師が計画的・継続的に教育を行う機関.(大辞林)
表現(単語)と意味(概念)
• 自然言語の表現(単語)とそれが持つ意味
(概念)の関係は,多対多の関係
「少女」
• 用例を集める
– 例: 学校の試験があるが,準備の勉強もできないまま登校した.
4駅先のマンションから学校に通う.(朝日新聞)
• 他の語との関連の記述
–
–
–
–
同義語・類義語
上位語
下位語
関連語
学び舎,学府,スクール
教育機関,公共施設
小学校,大学,大学院,・・・
教室,授業,教師,卒業,・・・
シソーラス
概念体系
単語(or 単語が表しうる概念)の体系化
girl
(単語) 「女の子」
(概念)
daughter
「娘」
多義語 ・・・ 1つの単語が複数の意味(概念)を持つ
同義語 ・・・ 複数の単語が同じ意味(概念)を持つ
シソーラスの例: 分類語彙表(抜粋)
• シソーラス(thesaurus)
体
– 単語を意味的関係(同義語,上位語,下位語など)
に基づいて分類・整理したもの(類語辞書)
関係
主体
用
活動
相
生産物
自然
– 例:分類語彙表(国語研): 10万語の日本語シソーラス
Word Net(Princeton大): 10万語の英語シソーラス
人間
家族
社会
機関
• 概念体系
– 単語が表しうる意味(概念)を主に上位・下位関係
(一般・特殊)関係に基づいて分類・整理したもの
男女
老少
夫婦
子(孫)
学校など
店など
– 例:EDR 概念体系辞書: 41万個の概念からなる体系
日本語語彙体系(NTT): 3000種の意味素からなる体系
男性
淑女
ミセス
少年
兄さん
翁
亭主
奥様
皇后
娘
お嬢さん
皇太子
大学
私学
母校
コンビニ
デパート
学食
2
EDR 概念体系(抜粋)
3d017c
物事
概念識別子
凡例:
3aa966
概念の説明
概念
444d86
もの
30f7e4
3aa911
3d017c
事象
人間・主体
物事
(次ページに続く)
30f7e5
30f801
30f83e
3aa963
現象
移動
行為
状態
30f832
30f802
3f9736
3f9871
情報の移動
空間移動
加える
性状・性向
444e40
30f6ae
抽象物
具体物
444e3f
具体的あるいは
抽象的存在物
3aa941
30f6f0
30f780
30f6bf
444d57
システム
器具
情報媒体
動物
作品
3bc732
3cdcc5
4448ab
10c9bb
30f6c5
3be65c
プログラム
ワープロ
光ディスク
郵便物
哺乳類
映画
30f7c8
物事に対する
評価
3f96e6
3f96e7
3cff8a
0fe35d
30f7b7
444db1
3bc043
情報の発信
情報の受信
発送する
追加する
人の気持ち
事物の属性
価値が高い
0e910d
1034ee
1e887c
3cf8db
0fbcfb
書き記す
読む
うれしい
悲しい
空間的に高い
201de9
アプリケー
ション
3c1f9e
ソフトウェア
3c6726
70009d
コンパクト
ディスク
デジタルビデ
オディスク
0f272b
0f6441
3bdc67
101b25
3ccae4
手紙
暑中見舞い
犬
猫
アニメ映画
共起辞書(EDRなど)
• ある単語(または概念)と一緒に使われる単語
(概念)のリスト (⇒ 関連語)
動詞の意味
例: 「学校」という名詞と共起する名詞
いじめ,帰り道,学生,教科書,教室,行事,グラウンド,
校歌,校舎,校長,講堂,試験,宿題,職員室,授業,
成績,生徒,先生,卒業,体育館,図書館,友達,勉強
など
格(case)構造
格フレーム辞書の例(EDR)
• 格: 文中の動詞に対して他の語が果たす役割
– 表層格: 「が」格,「を」格,「に」格 など
– 深層格: agent, object, goal, source, place など
「が」
「を」
「に」
「から」
agent
source
自動物,器具,等
建物,場所,等
agent
source
人間,動物
場所
object
具体物,情報媒体等
太郎は
その本を
友達に
表層格
「が」格
「を」格
「に」格
深層格
agent
object
goal
貸した
動詞
• 動詞によって,文中でどのような格を取るか
大体決まっている(格フレーム,文型パターン)
object
goal
人間,動物,天体等
位置-方向
object
goal
source
具体物
人間,組織
人間,組織
object
情報媒体,音楽,等
object
source
現象,行為
具体物,等
「出る」
内から外へ行く
「出る」
かえりみないで
放っておく
「出る」
品物がよく
売れる
「出る」
姿を現すこと
「出る」
与えられる
「出る」
発行される
「出る」
事態が新たに
生じる
• 赤字は格要素に対する意味的制約(選択制限)
3
動詞の意味を分析的に捉える
• 例: 「次郎は太郎に勉強を教わった」 受ける
⇔ 「太郎は次郎に勉強を教えた」 授ける
• 語彙意味論,語彙概念構造
– 動詞の意味を,BE, BECOME, MOVE, AT, TO など
の基本的な意味素の組み合わせに還元
– 例: 「教わる」
[BECOME [x BE[WITH [y MOVE [FROM z] [TOWARD x]]]]]
ここまでのまとめ
• 意味解析の基礎
– 意味解析とは?
– 名詞の意味
– 動詞の意味
続きは第6回(統計的意味解析)に!
• 概念依存理論(Schank 1975)
– 動詞の意味を,PTRANS(物理的移動),ATRANS(抽象的
移動)など少数の意味素の組み合わせに還元
実験課題について
• 3~4人でチームを作って,自然言語データを
自作プログラムで分析する実験に取り組む
実験課題の補足
– チームは杉本がランダムに決定(済)
– 課題は後述の4つの課題の中からチームごとに
1つを杉本が指定(済)
– 各チームはメンバー間で分担して与えられた課題
の実験に取り組む
– プログラム作成だけでなく,完成したプログラムを
用いて自然言語データを分析し,その結果の評価
・考察も行うこと
日程
• 第2回 参加アンケート(済)
• 第3回 グループ分け発表,話し合い
• 第4回 実験の構想発表(プレゼン)
– 実験の目的,作成するシステムの機能(入力と出力の
仕様など),処理内容・手順,使用予定のデータ,評価
方法,分担
• 第8~10回 実験の結果報告(プレゼン)
– 実験の目的,システムの機能,アルゴリズムの説明,
使用したデータ,使用したツール,実験結果,考察,
分担,参考文献
注意事項
• グループの全メンバーがそれぞれ,実験課題の実施
(プログラム作成,データ作成,評価実験)と結果報告
(発表資料作成,発表)の両方に関与すること.
• 与えられた課題を直接解決する機能をもったツール
(言語,ソフト)は使わないこと.具体的には,
課題1 → かな漢字変換ソフト
課題2 → N-gram作成ツール
課題3 → 単語の類似度計算ツール
課題4 → 文章を入力とする分類ツール(素性集合を入力
する分類ツールはOK)
• 課題解決やデータ作成のための処理過程の一部を
行うツールは使用してよい(例:形態素解析ツール)
– ツールを使用した場合,結果報告プレゼンで言及すること
4
ヒント: コーパスの作成方法
課題1(かな漢字変換)の補足
1.無料で入手できる文章データを収集する
– 青空文庫,Wikipedia記事,研究論文,ニュースサイト記事
などから手作業でデータ構築する
2.形態素解析ツールを用いて,収集した文章データを
単語列に分解する
• 実験を始めやすいように,近日,青空文庫をデータ源
とする小規模コーパス(50~100万単語)を提供予定
– 各自でより大規模なコーパスを作成して使うとよい
• 参考: 既存の主なコーパスやテキストデータのサイズ
無料) 青空文庫(1~10万語/作品),Wikipedia記事(全体で約2億語?)
有料) EDRコーパス(約500万語),新聞記事(約3000万語/年),
現代日本語書き言葉均衡コーパス(約1億語)
課題2(N-gramデータの作成と利用)の補足
• ごく小さいコーパスからのN-gramデータ作成例
太郎 は
学生 です 。
花子 も
です 。
太郎 は
音楽 が
好き
。
花子 は
映画 が
好き です
学生
です
。
1-gram(unigram) 2-gram(bigram) 1-gram確率の例
1-gram 回数
2
太郎
3
は
2
学生
...
...
2-gram
回数
2
太郎,は
1
は,学生
2
学生,です
...
...
P(太郎)=2/24=0.08
2-gram確率の例
P(学生|は) =1/3
=0.33
課題4(文章のカテゴリ分類)の補足
• ここでは Naïve Bayes分類器について説明
• 問題:
文章 d が単語 w1, w2, …, wn からなるとき,
この文章 d をカテゴリ c1, c2, …, ck のいずれ
か1つに分類する
• 前回の資料の訂正
「形態素解析ツールなど既存の言語処理ツールは利用不可」
⇒入力文に対する変換処理の一部として使用するのは不可
だが,解析に必要なデータ(例:コスト値)を事前に準備する
際に利用するのは構わない
• 入力文と単語辞書の照合の際に,動詞などの活用を
考慮する必要あり
– 入力文例:「ラーメンを食べた。」 ⇒ 「食べ」をどう扱うか?
– MeCab付属のIPA辞書(Windows版,csv形式)には,
このような語形変化後の表記が見出し語として1つずつ
登録されているので便利
課題3(単語の類似度計算)の補足
• 方法1.シソーラスに基づく類似度計算
– 計算により得られた類似度の値の適切さをどう
やって評価すればよいか考えてみるとよい
• 方法2.単語の分布類似度の計算
– 共起単語の例
• 「ラーメン」 ⇒ { 「食べる」,「作る」,「注文する」,… }
• 「うどん」 ⇒ { 「食べる」,「作る」,「ゆでる」,… }
– 共起単語集合の重なり具合を測る尺度
• Jaccard係数,Simpson係数,Cosine類似度など
問題: 条件付き確率 P(cj | w1…wn) が最大となる
カテゴリ cj を求める
• Bayes の法則より
P(cj | w1…wn) =
P(w1…wn | cj)×P(cj)
P(w1…wn)
– 分母は cj の選び方に依存しないので無視できる
• 各wi の出現が互いに独立である と仮定すると
n
P(w1…wn | cj) = Π P(wi | cj)
i=1
n
– したがって, P(cj | w1…wn) ∝ P(cj)× Π P(wi | cj)
i=1
• 赤枠内の式の値が最大となる cj を選べばよい
5
コーパスデータに基づく確率の最尤推定
コーパス = カテゴリ分類済みの文章の集合(文章群)
P(cj) =
P(wi | cj) =
(コーパス中でカテゴリ cj に分類された文章数)
(コーパス中の全文章数)
次回の構想発表に向けた
話し合い(グループワーク)
(コーパス中でカテゴリ cj に分類された文章で,
単語 wi を含むものの数) ※1
(コーパス中でカテゴリ cj に分類された文章数)
※1 wi が1回も出現しない場合は,確率 P(wi | cj) を 0 にせず,
微小な数値を割り当てる(smoothing)
次回(4/28)の予定
• 実験課題の構想発表
– 1グループあたり,発表5分,質疑5分
– 発表用ファイルをUSBメモリに入れて持参
– 以下のような内容を含めること
•
•
•
•
•
•
実験の目的
作成するシステムの機能(入力と出力の仕様など)
処理内容・手順
使用予定のデータ
評価方法
分担
– 聴衆からのフィードバック
参考文献
• 「日本語入力を支える技術」 徳永拓之,技術評論社,2012
– かな漢字変換
• 「確率的言語モデル」 北研二,東大出版会,1999
– N-gramモデル,smoothing(discounting)
• 「Nグラムモデルによる,日本語単語の並べ換え実験」 丸山宏,
情報処理学会全国大会,1994
– bag translation
• 「自然言語処理の基礎」 奥村学,コロナ社,2010
– シソーラスに基づく類似度計算,文章分類など
• 「言語処理のための機械学習入門」 高村大也,コロナ社,2010
– 文書分類
• “Introduction to Information Retrieval” Manning et.al.,
Cambridge, 2008 (邦訳あり)
– 文書分類
6