勉強会8月9日 Bernard Lamers 今日取り上げる論文 Schulte im Walde, Sabine and Brew, Chris. 2002. Inducing German Semantic Verb Classes from Purely Syntactic Subcategorisation Information. Proceedings ACL. Inducing German Semantic Verb Classes 概要: 対象はドイツ語 動詞を格フレームの確率分布に基づいて clustering 格フレームは2500万語のコーパスから自動 取得、clusteringはk-means方法で行う。 結果を手で製作された動詞分類と比較し、評 価する。 ドイツ語の動詞クラス 格フレームは多くとも三つのargumentを取 る。可能なargument: nominative(n), dative(d), accusative(a), reflexives(r), prepositional phrases(p), expletive es(x), non-finite clauses(i) etc. フレームはnaiなどで表す。ドイツ語には38 種類のフレームが存在する。 格フレームの確率分布の例 glauben (思う、信じる) フレーム ns-dass ns-2 np n na ni 確率 0.27945 0.27358 0.09951 0.08811 0.08046 0.05015 動詞のクラスの例 実験後の結果を分析するため、前もって人 が作ったクラスを用意する。 57個の動詞を14個のクラスに。例: Announcement: ankundigen(知らせ る),bekanntgeben(告知する),eroffnen(打ち 明ける),verkunden(布告する) Manner of motion: fahren(運転す る),fliegen(飛ぶ),rudern(漕ぐ),segeln(帆走 する) Clustering方法 K-meansアルゴリズム:n個のデータオブ ジェクトをちょうどk個のクラスタに割り当て る教師なしのclustering方法 1:各動詞が一番近いクラスタに割り当てられ る。 2:クラスタの新しいcentroidが計算され、ス テップ1にいく。 動詞がすべて別のクラスタに割り当てられなく なる次第、終了 K-meansの弱点:starting clustersに依存 Starting clustersの選択: Random Agglomerative hierarchical clustering: 最初は各動詞にクラスタを割り当てる 一番近い二つのクラスタを mergeする k個のクラスタが残るまで繰り返す Merge方法:single-linkage, complete-linkage, average verb distance, distance between cluster centroids and Ward’s method 距離をいかに測るか 距離:cosine、ユークリッド距離、KullbackLeibler divergence (relative entropy) KL-divergenceを利用: Information radius: d(v1, v2) = D(p || (p+q)/2 ) + D(q || (p+q)/2) Skew divergence: d(v1 , v2) = D(p || w*q + (1-w)*p) 以上のものは確率分布qの中でzero value があっても問題ない。 Clustering evaluation: MI(A, B) 個別のclusterの質をcluster purity ABijで 表す。ABijは同一のクラスBjに写像される クラスAiのメンバーの数。 全体的なclusteringの評価:式(4) MI(A, B)にはありがたくない性質もある 別の評価方法としてAPPを導入する。 Clustering evaluation: APP APP: adjusted pairwise precision。 個別のclusterの場合:式(5) 全体的なclusteringの場合:式(6)。 MIの範囲:0.229-0.493 APPの範囲:0.017-0.291 実際のclustering 結果は表1と2 実際の得られたclusteringの例:6節 その例の評価のとき、どのフレームは clusteringにどう影響するかを検討。 結論 自動的に得られた動詞分類は直感的に存 在するクラスと一致。 ドイツ語の場合はsyntaxだけで意味の要素を とることが可能である。 これからの道: selectional restrictionsを利用する。
© Copyright 2024 ExpyDoc