勉強会8月9日 Bernard Lamers 今日取り上げる論文 Schulte im Walde, S. and Brew, C. 2002. Inducing German Semantic Verb Classes from Purely Syntactic Subcategorisation Information. Proceedings ACL. 中川哲治、工藤拓、松本祐治. 2001. Support Vector Machineを用いた未知語 の品詞推定. 自然言語処理141-13. Inducing German Semantic Verb Classes 概要: 対象はドイツ語 動詞を格フレームの確率分布に基づいて clustering 格フレームは2500万語のコーパスから自動 取得、clusteringはk-means方法で行う。 結果を手で製作された動詞分類と比較し、評 価する。 ドイツ語の動詞クラス ドイツ語の動詞自動分類システムはまだ 存在しない。 格フレームは多くとも三つのargumentを取 る。可能なargument: nominative(n), dative(d), accusative(a), reflexives(r), prepositional phrases(p), expletive es(x), non-finite clauses(i) etc. フレームはnaiなどで表す。ドイツ語には38 種類のフレームが存在する。 格フレームの確率分布の例 glauben (思う、信じる) フレーム ns-dass ns-2 np n na ni 確率 0.27945 0.27358 0.09951 0.08811 0.08046 0.05015 動詞のクラスの例 実験後の結果を分析するため、前もって人 が作ったクラスを用意する。 57個の動詞を14個のクラスに。例: Announcement: ankundigen(知らせ る),bekanntgeben(告知する),eroffnen(打ち 明ける),verkunden(布告する) Manner of motion: fahren(運転す る),fliegen(飛ぶ),rudern(漕ぐ),segeln(帆走 する) Clustering方法 K-meansアルゴリズム:n個のデータオブ ジェクトをちょうどk個のクラスタに割り当て る教師なしのclustering方法 1:各動詞が一番近いクラスタに割り当てられ る。 2:クラスタの新しいcentroidが計算され、ス テップ1にいく。 動詞がすべて別のクラスタに割り当てられなく なる次第、終了 K-meansの弱点:starting clustersに依存 Starting clustersの選択: Random Agglomerative hierarchical clustering: 最初は各動詞にクラスタを割り当てる 一番近い二つのクラスタを mergeする k個のクラスタが残るまで繰り返す Merge方法:single-linkage, complete-linkage, average verb distance, distance between cluster centroids and Ward’s method 距離をいかに測るか 距離:cosine、ユークリッド距離、KullbackLeibler divergence (relative entropy) KL-divergenceを利用: Information radius: d(v1, v2) = D(p || (p+q)/2 ) + D(q || (p+q)/2) Skew divergence: d(v1 , v2) = D(p || w*q + (1-w)*p) 以上のものは確率分布qの中でzero value があっても問題ない。 Clustering evaluation: MI(A, B) 個別のclusterの質をcluster purity ABijで 表す。ABijは同一のクラスBjに写像される クラスAiのメンバーの数。 全体的なclusteringの評価:式(4) MI(A, B)にはありがたくない性質もある 別の評価方法としてAPPを導入する。 Clustering evaluation: APP APP: adjusted pairwise precision。 個別のclusterの場合:式(5) 全体的なclusteringの場合:式(6)。 MIの範囲:0.229-0.493 APPの範囲:0.017-0.291 実際のclustering 結果は表1と2 実際の得られたclusteringの例:6節 その例の評価のとき、どのフレームは clusteringにどう影響するかを検討。 結論 自動的に得られた動詞分類は直感的に存 在するクラスと一致。 ドイツ語の場合はsyntaxだけで意味の要素を とることが可能である。 これからの道: Selectional restrictionsを利用する。
© Copyright 2025 ExpyDoc