Automatic Labeling of
Semantic Roles
Bernard Lamers
2002年6月15日
今日取り上げる論文
Automatic Labeling of Semantic Roles
Gildea, D. and Jurafsky, D. 2001.
To appear in Computational Linguistics
http://www.colorado.edu/linguistics/
jurafsky/pubs.htmlからダウンロード可能
本発表の流れ
システムの背景について
訓練データについて
システムが使っている知識リソースや確率推
定法の紹介
上位レベルの意味を獲得する方法
システムを訓練データに現れない述語に対応
させる
この論文と自分の研究に関する考察
背景:既存の意味解釈システム
例:航空券の予約システム
Semantic roles: ORIG_CITY、DEST_CITY、
DEPART_TIME
以上のsemantic rolesの適用範囲が限られ
ている。ドメインずつロールを定義する必要が
ある。もっと一般的なロールを割り当てたい。
Fillmore(1976)が提案するフレームモデル
Fillmore(1976)が提案する
フレームモデル
フレーム:
judgment
フレームエレメント (ロール): judge,
evaluee,
reason
このフレームを適用している動詞:blame,
admire, appreciate, disapprove
例:[judge She] blames [evaluee the Government] [reason for failing to support the poor]
ロールの一般化の重要性(1)
フレームモデルによってロールの一般化が得
られるので、異なる動詞の要素をお互いに結
びつけることが可能になる。
[sender Which party] sent [goods absentee
ballots] [receiver to voters]?
[receiver Both Democratic and Republican
voters] received [goods absentee ballots]
[sender from their party].
ロールの一般化の重要性(2)
semantic rolesが有益な情報になる例:
Word-sense disambiguation: センスずつ動詞ま
たは名詞が割り当てるロールが違う。
Statistical machine translation:単語のロールが
本来の言語と目標言語で一致することが多い。
Text summarization
Text data mining
本論文の目標:ロールを自動的に割り当てる
システムの構築
訓練データについて
訓練データ: FrameNet データベース
FrameNetはロールタグつきのコーパス。大き
さ:50000文、由来がBritish National Corpus
FrameNetは12個のドメーンをまたがる67個
のフレームタイプを定義する。
ドメーン
cognition
フレームタイプ
awareness
judgment
invention
例
understand
blame, admire
coin, invent
システムが使っている知識リソース
知識リソースはfeature(素性)の形で表現す
る。
Phrase type
Governing category
Parse tree path
Position
Voice
Head word
Feature 1: phrase type
入力:ロールタグつきの文。それらの文を統
計パーサー(Collins 1997)で構文解析
S
NP
NNP
Farrell
THEME
VP
VBD
approached
TARGET
NP
PP
PRP
IN
him
GOAL
from
NP
behind
SOURCE
Feature 2: governing category
Agentが主語として実現されることが非常に
多い
構文情報がロールの予測にも
役立つ。
Governing category featureはNPノードの親
ノードを確保している。可能な値:S, VP
Feature 3: parse tree path(1)
Parse tree pathはtargetから特定の構文要
素までのpath
PATH:
VB↑VP↑S↓NP
S
NP
PRP
VP
NP
VB
DT
he
ate
TARGET
some
NN
pancakes
Feature 3: parse tree path(2)
頻度
解釈
path
14.2% VB↑VP↓PP
PP argument
11.8% VB↑VP↑S↓NP
主語
10.1% VB↑VP↓NP
目的語
7.9%
VB↑VP↑VP↑S↓NP
主語(埋め込み節)
Feature 4: position
Positionはフレームエレメントがtargetの前ま
たは後ろに現れるかを確保している。可能な
値:前、後ろ。
なぜ、positionが採用されたか
統計パーサーの制度が87%。つまり、パースの
13%が正しくない
governing category,
parse tree pathが正しくないことも随分あり得る。
単純な素性でどれだけの成果が得られるかを検
査
Feature 5: voice
Activeの目的語のロールはpassiveの主語の
ロールと一致することが多い。
He bought a car.
The car was bought by him.
activeとpassiveを区別する必要がある
10個のpassive発見パターン:
To be … hit, eaten, openedなど
To get … hit, eaten, openedなど
Feature 6: head word
NP
head word
NP
PP
Det
N
the
girl
with a hat
コミュニケーションフレーム:
Speaker: Bill, brother, he
Topic: proposal, story, question
selectional restrictionsを獲得
システムが使っている確率推定法
目標: P(r|pt, gov, ptp, pos, voice, head, t)
スパースネスのせいで、
#(r, pt, gov, ptp, pos, voice, head, t)
P ≠
#(pt, gov, ptp, pos, voice, head, t)
素性の部分集合をいくつか組み合わせて
[P(r|t), P(r|pt, gov, t), P(r|h, pt, t)など]、Pを
推定する
例:P(r|pt, gov, t)
#(r, pt, gov, t)
P(r|pt, gov, t) =
#(pt, gov, t)
P
Count
P(r=AGT|pt=NP, gov=S, t=abduct)=0.46
6
P(r=THM|pt=NP, gov=S, t=abduct)=0.54
7
P(r=THM|pt=NP, gov=VP, t=abduct)=1
9
P(r=AGT|pt=PP, t=abduct)=0.33
1
P(r=THM|pt=PP, t=abduct)=0.33
1
素性の部分集合の組み合わせ方法:
linear interpolation
P(r|constituent)=
λ1P(r|t) + λ2P(r|pt, t) +
λ3P(r|pt, gov, t) + λ4P(r|pt, pos, voice) +
λ5P(r|pt, pos, voice, t) + λ6P(r|h) +
λ7P(r|h,t) + λ8P(r|h, pt, t)
where Σi λi = 1
素性の部分集合の組み合わせ方法:
geometric mean
geometric mean = average log probability
P(r|constituent) = 1/z exp {
λ1log P(r|t) + λ2log P(r|pt, t) +
λ3log P(r|pt, gov, t) + λ4log P(r|pt, pos, voice)+
λ5log P(r|pt, pos, voice, t) + λ6log P(r|h) +
λ7log P(r|h, t) + λ8log P(r|h, pt, t) }
z is a normalizing constant ensuring that
Σr P(r|constituent) =1
素性の部分集合の組み合わせ方法:
backoff
P(r|h, pt,t)
P(r|pt, gov, t) P(r|pt, pos,voice, t)
P(r|h, t)
P(r|pt, t)
P(r|h)
P(r|t)
P(r|pt, pos,voice)
システムが採用する組み合わせ方法:
backoff with linear interpolation 制度80.4%
(baseline 40.9%)
上位レベルの意味:
selectional restrictions
Head wordが非常に重要な情報。P(r|h, pt,
t)はロールの予測が一番制度が高い。
残念ながら、headの値域が広く、P(r|h, pt, t)
が直接使わない場合が多い
P(r|h, pt,
t)を間接的に導く。
Automatic clustering
WordNet
Bootstrapping
Automatic clustering(1)
目標:動詞のsel. restrictionsを獲得
仮定:動詞と目的語という変数が独立
P(n,v) = P(n)P(v) =Σc P(c)P(n|c)P(v|c)
EMでP(c),P(n|c),P(v|c)を推定
訓練データにおけるNPのhead wordがどの
クラスターに属するかが計算される
P(h|c)P(c)
P(n|c)P(c)
P(c|h) =
=
P(h)
Σc’ P(n|c’)P(c’)
Automatic clustering(2)
次は、クラスターcのターゲットtがロールαを
割り当てる確率を計算する(ptはNP)。
Σ j:ptj=pt, tj=t, rj=rαP(c|hj)
P(rα|c,pt,t)=
Σ j:ptj=pt, tj=t P(c|hj)
テスティングのとき、ロールαが割り当てられ
る確率を以下のように計算する(ptは常にNP)
P(rα|h, pt, t) =ΣcP(rα|c, pt, t)P(c|h)
Automatic clustering(3)
Distribution
Cov.
Acc.
Perf.
Direct lexical statistics:
P(r|h, pt, t)
41.6
87.0
36.1
Clustered statistics:
ΣcP(r|c, pt, t)P(c|h)
97.9
79.7
78.0
WordNet(1)
SENSE:
上位語
下位語
furniture
financial institution
bank
bench
sofa
CityBank
訓練データを用いる準備のプロセス
各NPのhead wordの各上位senseについて#(r,
s, pt, t)を表に登録する。
複数のsense(上位語)の場合、最初に登録され
ているsense(上位語)
WordNet(2)
テストデータにおけるNPのhead wordが訓練データ
に現れなかった場合、head wordの上位にある
senseのデータを利用する。
Distribution
Cov.
Acc.
Perf
Direct lexical statistics:
P(r|h, pt, t)
WordNet:
P(r|s, pt, t)
41.6
87.0
36.1
80.8
79.5
64.1
Bootstrapping:準備
フレームエレメントの境界を自動的に認識する
入力は今までフレームエレメントの境界を含めた。今、
フレームエレメントの境界のデータを入力から除く実験
を行う。
まず、パースを行い、素性を獲得する。
各構文要素に関してこの要素がフレームエレメントであ
る確率feを計算する。
P(fe|path), P(fe|path, t), P(fe|h, t)
feが0.5以上であれば、構文要素をフレームエレメントと
みなす。
Bootstrapping:活用編
入力はタグなしの英語の文章
自動的に認識されたフレームエレメントに先ほど説
明したシステムでロールを割り当てる。
以上のシステムでロールが割り当てられた文
章は訓練データとして使う。勿論、この訓練
データはパース、ロールなどの誤りが多数あ
る。しかし、訓練データが増えるので、
coverageが高まる。
Bootstrapping:結果
Distribution
Cov.
Acc.
Perf.
Ptrain(r|h, pt, t)
41.6
87.0
36.1
Pauto(r|h, pt, t)
48.2
81.0
39.0
Ptrain+auto(r|h, pt, t)
54.7
81.4
44.5
Ptrain, backoff to Pauto
54.7
81.7
44.7
Verb argument structure:
frame element group (FEG)
今までのシステムでは、あるフレームエレメンットに
どのロールが割り当てられるかの決定が周り
のフレームエレメントに割り当てられたロールから
独立
あるターゲットが常にあるロールを要求してい
るなどの情報をシステムに組み入れる。
FEG: 例 blame {EVALUEE}, {JUDGE,
EVALUEE, REASON}, {JUDGE,
EVALUEE}
Verb argument structure:
ロールの最適の割り当て
r* = argmax r1…n P(r1…n | t, f1…n)
説明:ページ29
r * = argmax r1…n P({r1…n } | t)Πi
P(ri | fi,t)
P(ri|t)
スパースネスの問題が起きたので、上のr*が
スムージングされた。
λP({r1…n }|t) + (1-λ)[Π P(r∈FEG|t)
Π P(r¬∈FEG|t)]
フレームエレメント境界の識別システムと
ロール割り当てシステムの合体
argmax r1…nP({r 1…n}|t)Πi
P(ri|fi,fei ,t)P(fei|fi)
P(ri|t)
unlabeled
labeled
method
prc. rec.
prc.
Boundary id + role labeler
72.6 63.1 67.0 46.8
Boundary id + FEG labeler
72.6 63.1 65.9 46.2
integrated
74.0 70.1 64.6 61.2
rec.
FEGと他のfeature
実験としてsubcatのfeatureを定義し、FEGを
利用しているシステムにsubcatも付け加える。
実は精度が上がらない。
FEGはsubcatの情報も確保している。
FEGをpassive,positionと組み合わせると精
度が落ちる
データのフラグメント化が
原因
システムを訓練データに現れない
述語に対応させる
FrameNetが利用しているロールが特殊すぎ
るので、まずFrameNetのロールをもっと一般
的なロールに写像する。(一覧はp. 36)
訓練データに現れない述語αに対応させるた
めには次の方法が考えられる:
述語αが所属するフレームを使うこと
フレームのデータがない場合、フレームの特徴を
まわりのフレームから推定する。
ドメーンのデータがない場合、ドメーンの特徴をま
わりのドメーンから推定する。
述語αが所属するフレームを使う
前提:述語αが所属しているフレームが明らか
であることなおかつそのフレームに関する
データが存在すること
制度:79.4% (元のシステム:82.1%)
結論:ひとつのフレームを成す動詞は意味要
素を共通している。この実験から一つのフ
レームの動詞はargument structureも共通し
ていることがわかった
linking theory
の予測と一致している
フレームの特徴をまわりの
フレームから推定する
一つのフレームを取り除き、フレームの特徴
を同じドメーンのフレームから推定する。
制度:51.0%
結論:一つのドメーンに属するすべてのフレー
ムがargument structureを共通していること
が言えない。
ドメーンの特徴をまわりの
ドメーンから推定する
一つのドメーンを取り除き、ドメーンの特徴を
まわりのドメーンから推定する。
制度:39.8%
まとめ
フレームエレメントの境界が与えられた場合、制度
が82.1%
フレームエレメントの境界が与えられていない場合、
precisionが65%、recallが61%
結論
Lexical statisticsは訓練データに現れたデー
タに関しては精度が高い。問題はcoverage。
手で作られたリソース(WordNet)と自動習得
リソース(clustering)を比べると、後方のほう
がcoverageが広いので、有利。
システムがまだ不完全:所属するフレームな
どのデータがない動詞に関してはロール割り
当てがうまくできない。
考察(1)
Merlo and Stevensonの目標は動詞をクラス
に分類する。
Gildea and Jurafskyの目標はロール割り当
てシステムの構築。
一つのクラスの動詞が同じロールを割り当て
ると仮定する。したがって、M&SとG&Jの間
に共通点があると考えられる。
考察(2)
M&Sが使っているfeatureとG&Jが使ってい
るfeatureは共通点が少ないように見える。た
だし、M&SのTRANSはG&JでFEGで表され
ている。Featureの理想な組み合わせは今後
の課題にする。
クラス分類ができても、そのクラスの特徴
(ロール割り当て)を具体化できなければ、研
究の意味が限られている。G&Jのように出発
点を知識リソースにするのが賢明かも。
© Copyright 2026 ExpyDoc