eguchi-NL-193 - 松本研究室

日本語文章の事象に対する
判断情報アノテーション
奈良先端科学技術大学院大学
江口 萌, 松吉 俊, 佐尾 ちとせ, 乾 健太郎, 松本 裕治
2009/09/28
NL-193-5
1
背景

文には事象だけではなく、事象に対する態度表明
者の表明する態度や価値判断、真偽判断(モダリ
ティ情報)が含まれている
山口県に旅行に行きたいなぁ。
噂によると太郎は旅行に行ったらしい。
明日雨が降ったら、外出しません。
仮想的なこと?
欲求?叙述?
働きかけ?
実際に起きたこと?
誰の発言?
これから起こりそうなこと?
2
モダリティ情報解析の重要性
製品Eには発がん性がある
製品Eには発がん性があるのかもしれない。
N博士によると製品Eには発がん性があるらしい。
製品Eには発がん性があるって噂だよね。
製品Eには発がん性があるんじゃないかな。
製品Eには発がん性があるのはたしかだ。
おそらく製品Eには発がん性があるのだろう。


推量
伝聞
伝聞
推量
断定
推量
情報に対する確信度ごとに分類可能
情報抽出や質問応答、含意認識など
3
システム構築の順序

モダリティ情報を解析するシステムの構築
Step1:モダリティ情報タグ体系の設計

過度に複雑な体系ではなく、広範囲の自然言語
処理に有用で、現実的なタグ体系
Step2:タグ付与コーパスの構築
Step3:解析モデルの構築
4
システム構築の順序

モダリティ情報を解析するシステムの構築
Step1:モダリティ情報タグ体系の設計

過度に複雑な体系ではなく、広範囲の自然言語
処理に有用で、現実的なタグ体系
Step2:タグ付与コーパスの構築
Step3:解析モデルの構築
5
言語学におけるモダリティと肯定・否定

モダリティの分類[現代日本語文法4, 益岡2007]
種
類
真偽判断
価値判断
表現類型
丁寧さ
伝達態度
説明

説
明
断定か、推量かの確信度
必要か、許可できるか、そうでないか
叙述、意志、疑問、感嘆、行動要求、勧誘
普通体か、丁寧体か
聞き手の存在に対する話し手の意識のありよう
文と先行文脈の関係づけ
肯定と否定[現代日本語文法3]
種
類
肯否極性
説
明
事象の成立、不成立
6
情報の信憑性判断に有用な項目
種 類
態度表明者
時制
仮想性
真偽
アスペクト
焦点
説
明
態度を表明している人物や団体など
未来、過去、現在かどうか
仮想世界の話であるのかどうか
真偽が一方から他方へ変化するアスペクトを持っ
ているかどうか
どの部分が否定、推量や疑問の焦点となっている
のか
7
関連研究
タグ
真偽
否定の
確信 価値 表現 肯否 態度
時制 仮想性
付与対象 度 判断 類型 極性 表明者
アスペクト 焦点
Rubinら
語や句
TimeML
事象
Prasadら
談話関係
と事象
Medlockら
語や句
Bioscope
語や句
FactBank
事象
川添ら
語や句
○
○
×
推量の
焦点
×
×
×
×
○ × ○ ○ ×
○ ○ × ○ ○
×
×
×
○
×
○ ○ ○
○
○
○
○
× × ×
×
×
×
○
×
×
×
×
×
×
× ×
×
×
×
×
○ × × ×
○ ○ ○ ○ ○
× ○ ○ × ○
×
×
×
×
×
×
×
×
8
関連研究
タグ 確信
価値 表現
表現 肯否
肯否 態度
態度
真偽
否定の 推量の
推量の
タグ
真偽
否定の
確信 価値
時制 仮想性
仮想性
時制
付与対象 度
度 判断
判断 類型
類型 極性
極性 表明者
表明者
アスペクト 焦点
焦点
焦点
付与対象
アスペクト
焦点
TimeML
Rubinら
TimeML
Prasadら
事象
語や句
事象
談話関係
と事象
Medlockら
語や句
Bioscope
語や句
FactBank
事象
川添ら
語や句
× ○
○ ×× ○
○×
○ ○
○ ×
○
○
○ × ○ ○ × ○ ○
×
×
×
×
×
×
×
×
×
文中の事象、時間情報、事象間の関係を表
× ○ ○ ○ × ×
×
○すためのマークアップ言語
○ ×
× must
× not
× teach
× twice.
× ×
×
×
×
○John
John must not
× × teach</EVENT>
×
×
×
○<EVENT>
○ × × ×
<MAKEINSTANCE tense=“PRESENT” modality =“must”/>
× ○ ○ ○ ○ ○
×
×
×
○twice.
× × ○ ○ × ○
×
×
×
○・表現類型(modality)は、述語に接続する助動詞を
直接記述
・日本語に直接適用できない
9
関連研究
タグ
タグ
真偽
否定の 推量の
推量の
確信 価値 表現 肯否 態度
否定の
時制仮想性
仮想性 真偽
付与対 確信 価値 表現 肯否 態度 時制
付与対
判断類型
類型極性
極性表明者
表明者
アスペクト 焦点
焦点 焦点
焦点
度度 判断
アスペクト
象象
事象
FactBank 語や句
Rubinら
TimeML
事象
Prasadら
談話関係
と事象
Medlockら
語や句
Bioscope
語や句
FactBank
川添ら
事象
語や句
○ ×× ○
○ ×○ ○
○○
○ ×○
○
○ × ○ ○ × ○ ○
××
××
××
×
×
×
文中の事象に対して態度表明者ごとに
× ○ 肯否極性>を記述
×
○<確信度,
○ ○ × ×
○
- TimeMLの体系の上に付与
×
×
×
×
○ × × × × × ×
to follow the rules.
× ○ × × ×
×
×
×
○She×failed
<確信度, 肯否極性> = <CT(断定的), -(否定)>
×
×
×
○ × ○ ○ ○ ○ ○
× × ○ ○ × ○
×
×
×
○・否定の焦点や推量の焦点を扱っていない
10
関連研究
タグ
真偽
否定の
確信 価値 表現 肯否 態度
時制 仮想性
付与対象 度 判断 類型 極性 表明者
アスペクト 焦点
Rubinら
語や句
TimeML
事象
Prasadら
談話関係
と事象
Medlockら
語や句
Bioscope
語や句
FactBank
事象
川添ら
本研究
語や句
事象
○
○
×
推量の
焦点
×
×
×
×
○ × ○ ○ ×
○ ○ × ○ ○
×
×
×
○
×
○ ○ ○
○
○
○
○
× × ×
×
×
×
○
×
×
×
×
×
×
× ×
×
×
×
×
○ × × ×
○ ○ ○ ○ ○
× ○ ○ × ○
×
×
×
×
×
×
×
×
○○○○ ○ ○ ○ ○
○ ○
11
本研究のタグ体系
確信度
価値
判断
表現
類型
態度
表明者
肯否
極性
時制
態度
表明者
仮想性
項目
態度
表明者
時制
態度
仮想性
真偽
アスペクト
真偽判断
否定の
焦点
価値判断
推量の
焦点
焦点
説明
対象とする事象の成否の判断や、他者への働きかけや問いかけをし
ている人物や団体など
時制
態度表明時から見た、対象事象の相対的な時制
仮想
仮定された条件の有無
態度
叙述、意志、働きかけ、問いかけなどの伝達的態度
真偽判断 態度表明者による対象事象の真偽判断
価値判断 態度表明者による対象事象の価値判断
焦点
対象事象に関する否定や疑問などの焦点
12
本研究のタグ付与対象・タグ付与例

文に存在する事象を対象とする


事象:行為、出来事、状態の総称
情報抽出への応用を考慮
①
②
③
来週から この雑誌の購入 を中止 しようと思う
①事象[この雑誌を購入するコト]
②事象[来週からこの雑誌の購入を中止するコト]
③事象[来週からこの雑誌の購入を中止しようと思うコ
ト]
13
本研究のタグ付与対象・タグ付与例

文に存在する事象を対象とする


事象:行為、出来事、状態の総称
情報抽出への応用を考慮
③
②
①
来週から この雑誌の購入 を中止 しようと思う
①事象[この雑誌を購入するコト]
態度表明者
時制
仮想
態度
wr
非未来
0
意志
真偽判断
価値判断
高確率から低確率 ネガティブ
焦点
0
②事象[来週からこの雑誌の購入を中止するコト]
態度表明者
時制
仮想
態度
真偽判断
価値判断
焦点
wr
未来
0
意志
高確率
ポジティブ
0
③事象[来週からこの雑誌の購入を中止しようと思うコ
態度表明者
時制
仮想
態度
真偽判断
価値判断
焦点
ト]
wr
非未来
0
叙述
成立
0
0
14
<態度>(8種類)

態度表明者の中心的な態度を表す
タグ
例文
叙述
意志
欲求
働きかけ-直接
働きかけ-間接
働きかけ-勧誘
許可
問いかけ
京都には銀閣寺がありますし、歴史を感じます。
今夏、京都に行く予定です。
私は舞妓さんを見に行きたい。
ぜひ心の都、京都に来て下さい!
この京菓子をみんなに食べてもらいたい。
是非私と一緒に古都へ行きましょう。
明日、あなたは京都タワー見学を休んでもよい。
あの店には何種類の金平糖があるのでしょうか。
15
<真偽判断>(9種類)

真偽判断のモダリティと肯否極性、一部のアスペ
クト情報を表す

事象の真偽に対する態度表明者の確信度を表現する
“成立から不成立”
“不成立から成立”
“成立”
“高確率”
“0”
“低確率”
“不成立”
肯定の断定
肯定の推量
詳細不明
否定の推量
否定の断定
“高確率から低確率”
“低確率から高確率”
タグ
不成立
0
高確率
成立から不成立
例文
私は山口県には行ってません。
竜王山に行きたいです。
今夏、山口県に行く予定です。
今後の山口県での活動は中止しました。
16
<焦点>(7種類)

対象事象の否定や推量などの焦点を表す
太郎は仕事で行ったのではない。
事象[太郎が仕事で行くコト]は不成立
事象[太郎が行くコト]は成立

推量等の焦点になっている部分を除いた事象は成立してい
ることが含意されることがある

含意認識への応用を考慮すると有用
タグ
例文
真偽判断
否定(仕事で)
不成立
太郎は山口に仕事で行ったのではない。
推量(誰が)
この夏みかんは誰が届けてくれたのだろうか。詳細不明
問いかけ(何を) あの時、彼は何をお土産に買ったのですか? 詳細不明
17
タグ付与例
それ以来、医師たちはその薬を使い始めました。
態度表明者
時制
仮想
態度
真偽判断
価値判断
焦点
wr
非未来
0
叙述
不成立から成立
0
0
あの時彼女に真実を伝えるべきだった。
態度表明者
時制
仮想
態度
真偽判断
価値判断
焦点
wr
非未来
0
叙述
不成立
ポジティブ
0
おそらく3月から薬の使用をしていたと思われる。
態度表明者
時制
仮想
態度
真偽判断
価値判断
焦点
wr
非未来
0
叙述
高確率
0
推量(3月から)
18
システム構築の順序

モダリティ情報を解析するシステムの構築
Step1:モダリティ情報タグ体系の設計

過度に複雑な体系ではなく、広範囲の自然言語
処理に有用で、現実的なタグ体系
Step2:タグ付与コーパスの構築
Step3:解析モデルの構築
19
モダリティ情報タグ付与コーパス

3種類のテキストを対象としてコーパスを構築
対象テキスト
ブログ記事
一般Web
記事
村上らの
コーパス
事象数
20,000
(5,687文)
4,858
(4,858文)
14,402
(2,878文)
タグ付対象数
19,259(100%)
4,428(100%)
13,674(100%)
叙述
18,303(95%)
4,202(95%)
13,060(96%)
意志
394(2%)
89(2%)
244(2%)
欲求
261(1%)
21(0%)
51(0%)
働きかけ-直接
85(0%)
23(1%)
22(0%)
働きかけ-間接
131(1%)
53(1%)
218(2%)
働きかけ-勧誘
26(0%)
15(0%)
18(0%)
3(0%)
0(0%)
7(0%)
56(0%)
25(1%)
54(0%)
態
度
許可
問いかけ
20
タグ付与の一致度


ランダムに選択された300事象に対してもう一名
がタグ付与を行った
Κ統計量は高い一致率を示した
態度
表明者
0.69
時制
0.76
仮想
態度
0.68
0.66
真偽
判断
0.70
価値
判断
0.72
Κ統計量
一致の度合の目安
0.0~0.4
低い
0.4~0.6
中程度の一致
0.6~0.8
良い一致
0.8~1.0
ほぼ完全な一致
焦点
0.75
左記の
平均
7つ組
全体
0.71
0.58
21
タグ体系の問題点

動詞の可能形の扱い

態度表明者の意志が含まれていることがある
アレルギーのため彼は酒が飲めません。
態度表明者
時制
仮想
態度
真偽判断
価値判断
焦点
wr
非未来
0
叙述
不成立
0
0
明日出張で今日は飲めません。
態度表明者
時制
仮想
態度
真偽判断
価値判断
焦点
wr
非未来
0
叙述
不成立
0
0
「今日は飲まないことにする」という意志
22
まとめと今後の課題

まとめ
 モダリティ情報タグ体系の提案


〈態度表明者, 時制, 仮想, 態度, 真偽判断, 価値判断, 焦点〉

仕様書を公開中(http://cl.naist.jp/nltools/modality/)
モダリティ情報タグ付与コーパスの構築
39,260事象(13,423文)
 今後公開予定


今後の課題
 国語研究所の日本語書き言葉コーパス(約5000万語)
へのタグ付け
 モダリティ情報解析器の構築と洗練
23