自然言語処理 - 芝浦工業大学

はじめに: 最近のニュースから
自然言語処理
Natural Language Processing
第8回
2016/11/16
芝浦工業大学 工学部 情報工学科
杉本 徹
• Google翻訳 https://translate.google.com/ が英日・日英翻
訳に新しい翻訳方式(ニューラル翻訳)を導入
⇒ 第13回の授業で説明する予定
• 「ロボットは東大に入れるか」プロジェクト2016成果報告会
-「東ロボくん」東大合格を断念,苦手科目を克服できず(朝日11/14)
-「東ロボくん」有名私大合格にA判定…模試結果
(読売11/15)
- 東ロボくん 模試でMARCH,関関同立「圏内」
(毎日11/14)
参考動画
前回の問題の解説
• 文の係り受け構造が満たすべき条件
1. (文末の文節を除く)各文節は,自分より後ろにある文節
のどれか1つに係る
2. 係り受け関係どうしが交差しない(非交差性)
3. 文法的に適切(述語の活用形が適切,など)
4. 意味的に適切(文節間の意味的関係が理解可能)
• 問題文 「黒い 目の 大きな 猫」
4個の文節からなるので,条件1 を満たす係り受け構造
の数は 3×2×1 = 6 個
黒い 目の 大きな 猫
黒い 目の 大きな 猫
黒目が大きい
目が黒い & 大きい
黒い 目の 大きな 猫
黒い 目の 大きな 猫
×文法的に不適(連体形の
形容詞が用言に係っている)
×係り受けが交差している
黒い 目の 大きな 猫
黒い 目の 大きな 猫
黒い & 目が大きい
×意味的に不適(「目の猫」にお
いて目と猫の関係が理解不能)
今日の内容
• 意味解析(1) 意味の表現
– 意味解析の概要
再掲: 授業内容の構成
達成目標3
応用技術
⑫応用(1)
情報検索
達成目標2
基本技術
④⑤形態素
解析
⑬応用(2)
機械翻訳
⑭応用(3)
対話システム
– 単語の意味(概念)
– 文中の単語間の意味的関係(格構造)
• 格文法
達成目標1
日本語表現
⑥⑦構文 ⑧⑨意味 ⑩文脈
解析
解析
解析
⑪文章
生成
②③日本語の構造(単語・文・文章)
1
復習: 自然言語の解析処理の流れ
入力文
意味解析の概要
第4,5回 ① 形態素解析
第6,7回
② 構文解析
第8,9回
③ 意味解析
「太郎は本を読んだ。」
太郎 は 本 を 読ん だ
名 助 名 助 動 助動
太郎 は 本 を 読ん だ
agent
read
taro
第10回
④ 文脈解析
– 文中の各単語の意味の特定
– 文中の単語間の意味的関係の同定
意味理解
• 機械翻訳
– 入力文の意味を理解し,同じ意味内容をもつ目的言語
の文を生成する
• 意味に基づく次世代の情報検索
• 意味の伝達(communication)
伝えたい
意味内容
複数の文に
またがる処理
意味解析の応用
意味解析 (Semantic Analysis)
• 構文解析で得られた構文構造を基に,文の意味
内容を表す意味構造を求める
object
book
– 蓄積した文書の意味を事前に解析しておき,検索質問と
意味的に適合する文書を選んで出力する
言語(文)
言語生成
言語理解
(符号化)
(復号化)
伝わる
意味内容
• 対話システム
– 入力文を意味解析することにより,ユーザの意図を認識
し,協調的な応答を生成する
共有された
文脈・知識
意味構造(意味表現)
構文構造と意味構造の関係(1)
• 意味構造の表現形式としては様々な形式が考え
られるが,いずれも次の2つの要素を含む
• 基本的には,意味構造は構文構造(特に係り受け
構造)に対応している
1. 文中の各単語が表している意味(概念)
2. 文中の単語間の意味的関係(格関係など)
• 例:「太郎が生協の食堂でカレーを食べた.」
– 意味表現1(有向グラフ)
agent
taro
意味表現
係り受け木
• 例:「太郎が図書館で本を借りた.」
borrow place
食べた
agent
object
book
library
– 意味表現2(述語論理式)
∃x∃y (book(x)∧library(y)∧borrow(taro, x, y))
太郎が 食堂で カレーを
taro
eat
place
cafeteria
object
curry
possessor
生協の
co-op
2
構文構造と意味構造の関係(2)
• 構文構造と意味構造がぴったりと対応しない場合
もある.特に,異なる構文構造をもつ2つの文が
同じ意味表現をもつ場合がある.
• 例: 「昨日図書館で借りた本を今日読んだ.」
「今日読んだ本は昨日図書館で借りた.」
どちらの文も意味表現は下図のようになる.
read
borrow
time
place
object
time
book
today
yesterday library
述語論理式による意味表現
• 文の意味内容を述語論理式で表現すると,個体と
総称(性質)の区別や限量化(全称,存在)を明確に
示すことができる
例1 「太郎は本を借りた」 ∃x (book(x)∧borrow(taro, x))
例2 「犬が吠える」
∃x (dog(x)∧bark(x))
「犬は吠える」
∀x (dog(x) ⇒ bark(x))
• 日本語では名詞句の定性や総称性が明示されない
ので,述語論理式への変換は一般に難しい
例 「リンゴはミカンより大きい」
この文の「リンゴ」は特定のリンゴ?それとも総称?
この後の説明内容
1.「単語の意味」 を扱う方法
– 概念
単語の意味(概念)
– シソーラス,概念体系
2.「文中の単語間の意味的関係」 を扱う方法
– 格文法(格構造,格フレーム)
単語の意味を捉える方法
• 定義文の記述
– 例:「学校」
一定の場所に設けられた施設に,児童・生徒・学生を集めて,
教師が計画的・継続的に教育を行う機関.(大辞林)
表現(単語)と意味(概念)
• 自然言語の表現(単語)とそれが持つ意味(概念)
の関係は,多対多の関係
「少女」
• 用例を集める
girl
– 例: 学校の試験があるが,準備の勉強もできないまま登校した.
4駅先のマンションから学校に通う.(朝日新聞)
同義語・類義語
上位語
下位語
関連語
学び舎,学府,スクール
教育機関,公共施設
小学校,大学,大学院,・・・
教室,授業,教師,卒業,・・・
シソーラス
概念体系
(概念)
「女の子」
「娘」
• 他の語との関連の記述
–
–
–
–
(単語)
daughter
多義語 ・・・ 1つの単語が複数の意味(概念)を持つ
同義語 ・・・ 複数の単語が同じ意味(概念)を持つ
3
シソーラスの例: 分類語彙表(抜粋)
単語(または単語が表す概念)の体系化
体
用
相
• シソーラス(thesaurus)
– 単語を意味的関係(同義語,上位語,下位語など)に基づい
て分類・整理したもの(類語辞書)
関係
– 例:分類語彙表(国語研): 10万語の日本語シソーラス
Word Net(Princeton大): 10万語の英語シソーラス
主体
人間
活動
生産物
家族
自然
社会
機関
• 概念体系
– 単語が表しうる意味(概念)を主に上位・下位関係(一般・
特殊)関係に基づいて分類・整理したもの
– 例: EDR 概念体系辞書: 41万個の概念からなる体系
日本語語彙大系(NTT): 3,000種の意味素からなる体系
男女
老少
夫婦
子(孫)
学校など
店など
男性
淑女
ミセス
少年
兄さん
翁
亭主
奥様
皇后
娘
お嬢さん
皇太子
大学
私学
母校
コンビニ
デパート
学食
EDR 概念体系(抜粋)
3d017c
物事
凡例:
概念識別子
3aa966
概念の説明
概念
444d86
もの
30f7e4
3aa911
3d017c
事象
人間・主体
物事
(次ページに続く)
30f7e5
30f801
30f83e
3aa963
現象
移動
行為
状態
30f832
30f802
3f9736
3f9871
情報の移動
空間移動
加える
性状・性向
444e40
30f6ae
抽象物
具体物
444e3f
具体的あるいは
抽象的存在物
3aa941
30f6f0
30f780
30f6bf
444d57
システム
器具
情報媒体
動物
作品
30f7c8
物事に対する
評価
3f96e6
3f96e7
3cff8a
0fe35d
30f7b7
444db1
3bc043
情報の発信
情報の受信
発送する
追加する
人の気持ち
事物の属性
価値が高い
3bc732
3cdcc5
4448ab
10c9bb
30f6c5
3be65c
プログラム
ワープロ
光ディスク
郵便物
哺乳類
映画
201de9
アプリケー
ション
0e910d
1034ee
1e887c
3cf8db
0fbcfb
書き記す
読む
うれしい
悲しい
空間的に高い
共起辞書(EDRなど)
• ある単語(または概念)と一緒に使われる単語
(概念)のリスト (⇒ 関連語)
例: 「学校」という名詞と共起する名詞
帰り道,学生,教科書,教室,行事,グラウンド,校歌,校舎,
校長,講堂,試験,宿題,職員室,授業,成績,生徒,先生,
卒業,体育館,図書館,友達,勉強
など
3c1f9e
ソフトウェア
3c6726
70009d
コンパクト
ディスク
デジタルビデ
オディスク
0f272b
0f6441
3bdc67
101b25
3ccae4
手紙
暑中見舞い
犬
猫
アニメ映画
シソーラス(または概念体系)の応用例
• 単語(概念)間の意味的距離
– 単語(概念) w1 と w2 のシソーラス(概念体系)上の最短
経路の長さを両者の間の距離 d(w1, w2) と定義する
– 概念体系上の d(w1, w2) は距離の公理を満たす
(1) d(w1,w2)≧0. d(w1,w2) = 0 ⇔ w1 = w2
(2) d(w1,w2) = d(w2,w1)
(3) d(w1,w2) + d(w2,w3) ≧ d(w1,w3)
– 例: d(犬, 猫) = 2
d(犬, ワープロ) = 5
具体物
器具
動物
ワープロ
哺乳類
犬
猫
4
参考: オントロジー(Ontology)
参考:単語の意味への異なるアプローチ
Ontology = 存在論
• 単語の意味の分散表現(distributed representation)
• 概念化の明示的な仕様
– 対象領域にどんな概念が存在して,概念間にどんな
関係が成り立つのかを明確に表現する
– それにより,システムの相互運用性やソフトウェアの
再利用性,信頼性を確保する
• オントロジーの種類
– Upper ontology
※ 分布仮説 [Harris 1954]:似ている意味の単語は似ている
文脈で出現(似ている単語と共起)する
• 分布類似度
すべての概念に関わる最上位構造
– Domain ontology 特定の領域に限定して構築する
– Task ontology
– 単語が出現する文脈の統計的特徴をコーパスから学習し,
得られた特徴ベクトルをその単語の意味表現と見なす
行為やプロセスを表現する
– 共起単語ベクトルの類似度により単語の類似度を測る
• 分散意味表現 [Mikolov 2013]
– ニューラルネットワークを用いて単語ベクトルを学習する
Word2vec [Mikolov 2013]
• 大規模コーパスを入力すると,ニューラルネットワーク
により単語ベクトルを学習して出力するオープンソース
のツール
• 得られた単語ベクトル
は加法構成性をもつ
(例えば類推が可能)
文中の単語間の意味的関係
(格構造)
例:
vec(“Tokyo”)-vec(“Japan”)
+vec(“France”)
≒ vec(“Paris”)
Mikolov et.al., "Distributed Representations of Words
and Phrases and their Compositionality", Figure 2.
格文法 (Case Grammar)
深層格の例
[Fillmore 1968]
動作主格(agent)
動作を引き起こすもの
• 単語間の意味的関係を,述語を中心にとらえる
経験者格(experiencer) 心理現象を体験するもの
• 格(case): 述語に対して他の単語が果たす役割
道具格(instrument)
動作における道具や手段,
出来事の原因
• 表層格と深層格
対象格(object)
動作や変化の影響を受ける対象,
属性をもつ対象
源泉格(source)
移動における起点,
変化における初期状態
目標格(goal)
移動における終点,
変化における最終状態
場所格(place)
出来事が起こる場所や位置
時間格(time)
出来事が起こる時間
– 表層格(surface case) 構文的な手がかり(日本語は
格助詞,英語は語順)から決まる構文的な役割
– 深層格(deep case) 述語に対する意味的な役割
• 必須格と任意格
– 必須格: 必ず存在する(無いと不自然な)格(対象格など)
– 任意格: 存在してもしなくてもよい格(場所格,時間格など)
5
表層格と深層格の関係
格構造 (Case Structure)
• 文の意味構造を,述語とその格要素(述語と格関係
にある単語)の関係の集合としてとらえる
• 例1:「太郎が彼女に本を貸した.」
表層格
深層格
太郎が
「が」格
agent
彼女に
「に」格
goal
本を
「を」格
object
• 1対1の対応関係ではない
• 例:
貸した
表層格
深層格
lent
動詞
her
与格
goal
太郎が
「が」格
agent
彼女に
「に」格
goal
表層格
深層格
太郎が
「が」格
agent
6時に
「に」格
time
動詞
• 例2: “Taro lent her a book.”
Taro
主格
agent
表層格
深層格
a book
目的格
object
格フレーム (Case Frame)
「が」
• 格フレームの種類
「に」
「を」
source
自動物,器具,等
建物,場所,等
agent
source
人間,動物
場所
具体物,情報媒体等
object
goal
人間,動物,天体等
位置-方向
object
goal
source
具体物
人間,組織
人間,組織
情報媒体,音楽,等
飲食物
表層・深層格
動詞
を(object)
食べる
その他の意味的関係
• 例として,「AのB」(A,Bは名詞句)という形の句
におけるAとBの意味的関係の分類を挙げる
(参考文献: 森田良行著 「日本語文法の発想」 ひつじ書房)
所有主 「私の鉛筆」
11.
対象 「プログラミングの知識」
12.
成因 「火事の後始末」
13.
所属・分担 「国民の義務」
14.
所在(ニアル) 「豊洲のららぽーと」 15.
主体(ニオケル) 「川の流れ」
16.
所在の時 「3時のおやつ」
17.
数値 「時速60キロのスピード」
18.
順序 「2回目の挑戦」
19.
数量 「3冊のノート」
20.
「を」格
source
動詞
「から」
agent
object
格要素の選択制限(概念,意味カテゴリなどで指定)
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
× 自宅を ×出発した
object
– 表層格フレーム: 表層格の情報のみ含む
– 深層格フレーム: 深層格の情報のみ含む
– 表層格・深層格フレーム: 両方の情報(対応関係も)を含む
人間,動物 が(agent)
動詞
格フレーム辞書の例(EDR)
(1) どの格を持つか
(2) 表層格と深層格の対応関係
(3) 格要素となる名詞の意味的制約(選択制限)
表層・深層格
貸した
• 深層格を求める処理(格解析,意味役割付与)が
必要 ⇒ 次回の授業で説明
• 動詞ごとに,次のような格構造パターンを記述したもの
• 格フレームの例
本を
「を」格
object
目的(タメノ) 「試験の勉強」
名称(トイウ) 「日本の国」
同格(デアル) 「弟の次郎」
属性主 「次郎の弱虫!」
形成物・材料 「ガラスの靴」
性質・属性 「緑のシャツ」
様態・程度 「日の出の勢い」
人指示 「ビールの人!」
時・所指示 「授業の後」
事指示 「仕事のこと」
object
source
現象,行為
具体物,等
「出る」
内から外へ行く
「出る」
かえりみないで
放っておく
「出る」
品物がよく
売れる
「出る」
姿を現すこと
「出る」
与えられる
「出る」
発行される
「出る」
事態が新たに
生じる
• 赤字は格要素に対する意味的制約(選択制限)
今日のまとめ
• 意味解析(1) 意味の表現
– 意味解析の概要
• 意味構造(有向グラフで表現)の構築
– 単語の意味
• 概念,シソーラス,概念体系
– 文中の単語間の意味的関係
• 格文法(格構造,格フレーム)
次回: 意味解析(2) 解析手法
意味構造の構築,曖昧性への対処
6