日本語動詞の自動分類 Bernard Lamers May 1, 2002 先週の復習:vector template Vector template: [verb name, TRANS, PASS, VBN, CAUS, ANIM, class] 例: [opened, .69, .09, .21, .16, .36, unaccusative] 先週の復習:TRANS Transitive use: The door was opened. They flooded the rice fields. Non-transitive use: The door opened. His mailbox flooded with love letters. TRANS= transitive use transitive use + non-transitive use 先週の復習:PASS VBD-tag: main verb VBN-tag: active The door was painted recently He has painted his house PASS passive active passive use passive use + active use 先週の復習:VBN VBN= 動詞αのVBNタグの数 動詞αのVBNタグの数+VBDタグの数 先週の復習:CAUS 主語のmulti-set (bag): {a, a, a, b} cardinality: 4 目的語のmulti-set {a} cardinality: 1 overlap: {a, a, a} cardinality: 3 overlapのcardinality CAUS= 主語のcardinality+目的語のcardinality 先週の復習:ANIM I, you, he, she, theyなどの代名詞が常に生 物の実体を指していることを仮定 ANIM= 動詞αの代名詞である主語の数 動詞αのすべての主語の数 ANIMの設定にはWordNetなどの単語データ ベースが使われていない。 データの分析(ページ7、表4) 予測した結果 Unergative: TRANSが一番低い。Unaccusative, object-dropの順番で上がる。 Unaccusative: ANIMが一番低い、CAUSが一番 高い。 予測しなかった結果: Object-drop: CAUS ≠ 0 UnaccのPASS, VBN ≒ Object-dropの PASS,VBN 実験(1) 目的:動詞αのTRANS, PASS, VBN, CAUS とANIMが与えられたとき、動詞αのクラスを 返すシステム システムのトレーニングはC5.0を使って行わ れる。 Semantic featuresが一ずつどの程度 classificationに貢献するかを検査 1) 10-fold cross 2) single hold out 実験(2) 実験のbaseline (chance performance): 20/59 ≒ 33.9% 実験のmaximum accuracy: Theory: 100% Practice: 86.5% (分類タスクを専門家に任せた ときの精度) 10-fold cross validation ランダムに54個の動詞を選び、そのvectorを 計算し、classifierを訓練させる。 残りの5個の動詞を自動分類。 以上のプロセスを50回繰り返す。 結果は表8と9。 Single hold-out validation テストセットの大きさはN。 for (n = 1; n <= N; n++){ n番目の動詞を取って、保留する。残りの動詞で classifierを訓練させる。 保留された動詞を自動分類。 } 結果は表11と12。 結論 分類の全体的な精度は69.8%。Baseline: 33,9%, 専門家の成績86.5%。 ひとつだけのfeatureを使うときの精度と featureの組み合わせを使うときの精度の直 接の関係がない。 PASSを使わなくても、精度が変わらない。 日本語への適用(1) 日本語の場合でも動詞が属するクラスを知る ことが極めて有利な情報である(Miyagawa 1989などを参考) 英語では目的語があるかどうかを確かめる のは難しい。日本語の場合、もっと簡単(を) TRANSの精度が上がる可能性がある。 日本語の受身形(-られ-)が認識しやすい。し かし、日本語は自動詞でも受身形になりうる。 日本語への適用(2) 英語の自動詞/他動詞ペアは形がいっしょ。 日本語では「起きる/起こす」「焼ける/焼く」な どのペアが多い 形が違うので、CAUS をもっと高い精度で取れるかもしれない。 日本語では代名詞が頻繁に使われていない。 ANIMを計算するために、辞典等を使う。
© Copyright 2024 ExpyDoc