勉強会8月9日 - Top Page | 中川研究室

勉強会8月9日
Bernard Lamers
今日取り上げる論文

Schulte im Walde, Sabine and Brew,
Chris. 2002. Inducing German Semantic
Verb Classes from Purely Syntactic
Subcategorisation Information.
Proceedings ACL.
Inducing German Semantic
Verb Classes

概要:




対象はドイツ語
動詞を格フレームの確率分布に基づいて
clustering
格フレームは2500万語のコーパスから自動
取得、clusteringはk-means方法で行う。
結果を手で製作された動詞分類と比較し、評
価する。
ドイツ語の動詞クラス


格フレームは多くとも三つのargumentを取
る。可能なargument: nominative(n),
dative(d), accusative(a), reflexives(r),
prepositional phrases(p), expletive es(x),
non-finite clauses(i) etc.
フレームはnaiなどで表す。ドイツ語には38
種類のフレームが存在する。
格フレームの確率分布の例

glauben (思う、信じる)
フレーム
ns-dass
ns-2
np
n
na
ni
確率
0.27945
0.27358
0.09951
0.08811
0.08046
0.05015
動詞のクラスの例


実験後の結果を分析するため、前もって人
が作ったクラスを用意する。
57個の動詞を14個のクラスに。例:


Announcement: ankundigen(知らせ
る),bekanntgeben(告知する),eroffnen(打ち
明ける),verkunden(布告する)
Manner of motion: fahren(運転す
る),fliegen(飛ぶ),rudern(漕ぐ),segeln(帆走
する)
Clustering方法

K-meansアルゴリズム:n個のデータオブ
ジェクトをちょうどk個のクラスタに割り当て
る教師なしのclustering方法



1:各動詞が一番近いクラスタに割り当てられ
る。
2:クラスタの新しいcentroidが計算され、ス
テップ1にいく。
動詞がすべて別のクラスタに割り当てられなく
なる次第、終了
K-meansの弱点:starting
clustersに依存

Starting clustersの選択:


Random
Agglomerative hierarchical clustering:




最初は各動詞にクラスタを割り当てる
一番近い二つのクラスタを mergeする
k個のクラスタが残るまで繰り返す
Merge方法:single-linkage, complete-linkage,
average verb distance, distance between
cluster centroids and Ward’s method
距離をいかに測るか


距離:cosine、ユークリッド距離、KullbackLeibler divergence (relative entropy)
KL-divergenceを利用:



Information radius: d(v1, v2) = D(p ||
(p+q)/2 ) + D(q || (p+q)/2)
Skew divergence: d(v1 , v2) = D(p || w*q
+ (1-w)*p)
以上のものは確率分布qの中でzero value
があっても問題ない。
Clustering evaluation: MI(A, B)



個別のclusterの質をcluster purity ABijで
表す。ABijは同一のクラスBjに写像される
クラスAiのメンバーの数。
全体的なclusteringの評価:式(4)
MI(A, B)にはありがたくない性質もある
別の評価方法としてAPPを導入する。
Clustering evaluation: APP

APP: adjusted pairwise precision。




個別のclusterの場合:式(5)
全体的なclusteringの場合:式(6)。
MIの範囲:0.229-0.493
APPの範囲:0.017-0.291
実際のclustering



結果は表1と2
実際の得られたclusteringの例:6節
その例の評価のとき、どのフレームは
clusteringにどう影響するかを検討。
結論

自動的に得られた動詞分類は直感的に存
在するクラスと一致。


ドイツ語の場合はsyntaxだけで意味の要素を
とることが可能である。
これからの道:

selectional restrictionsを利用する。