日本語動詞の自動分類 - Top Page | 中川研究室

日本語動詞の自動分類
Bernard Lamers
May 1, 2002
先週の復習:vector template
Vector template:

[verb name, TRANS, PASS, VBN, CAUS,
ANIM, class]
例:

[opened, .69, .09, .21, .16, .36, unaccusative]
先週の復習:TRANS
Transitive use:


The door was opened.
They flooded the rice fields.
Non-transitive use:


The door opened.
His mailbox flooded with love letters.
TRANS=
transitive use
transitive use + non-transitive use
先週の復習:PASS
VBD-tag: main verb
VBN-tag:


active
The door was painted recently
He has painted his house
PASS
passive
active
passive use
passive use + active use
先週の復習:VBN
VBN=
動詞αのVBNタグの数
動詞αのVBNタグの数+VBDタグの数
先週の復習:CAUS
主語のmulti-set (bag):

{a, a, a, b}
cardinality: 4
目的語のmulti-set

{a}
cardinality: 1
overlap: {a, a, a} cardinality: 3
overlapのcardinality
CAUS=
主語のcardinality+目的語のcardinality
先週の復習:ANIM
I, you, he, she, theyなどの代名詞が常に生
物の実体を指していることを仮定
ANIM=
動詞αの代名詞である主語の数
動詞αのすべての主語の数
ANIMの設定にはWordNetなどの単語データ
ベースが使われていない。
データの分析(ページ7、表4)
予測した結果


Unergative: TRANSが一番低い。Unaccusative,
object-dropの順番で上がる。
Unaccusative: ANIMが一番低い、CAUSが一番
高い。
予測しなかった結果:


Object-drop: CAUS ≠ 0
UnaccのPASS, VBN ≒ Object-dropの
PASS,VBN
実験(1)
目的:動詞αのTRANS, PASS, VBN, CAUS
とANIMが与えられたとき、動詞αのクラスを
返すシステム
システムのトレーニングはC5.0を使って行わ
れる。
Semantic featuresが一ずつどの程度
classificationに貢献するかを検査
1) 10-fold cross 2) single hold out
実験(2)
実験のbaseline (chance performance):
20/59 ≒ 33.9%
実験のmaximum accuracy:


Theory: 100%
Practice: 86.5% (分類タスクを専門家に任せた
ときの精度)
10-fold cross validation
ランダムに54個の動詞を選び、そのvectorを
計算し、classifierを訓練させる。
残りの5個の動詞を自動分類。
以上のプロセスを50回繰り返す。
結果は表8と9。
Single hold-out validation
テストセットの大きさはN。
for (n = 1; n <= N; n++){


n番目の動詞を取って、保留する。残りの動詞で
classifierを訓練させる。
保留された動詞を自動分類。
}
結果は表11と12。
結論
分類の全体的な精度は69.8%。Baseline:
33,9%, 専門家の成績86.5%。
ひとつだけのfeatureを使うときの精度と
featureの組み合わせを使うときの精度の直
接の関係がない。
PASSを使わなくても、精度が変わらない。
日本語への適用(1)
日本語の場合でも動詞が属するクラスを知る
ことが極めて有利な情報である(Miyagawa
1989などを参考)
英語では目的語があるかどうかを確かめる
のは難しい。日本語の場合、もっと簡単(を)
TRANSの精度が上がる可能性がある。
日本語の受身形(-られ-)が認識しやすい。し
かし、日本語は自動詞でも受身形になりうる。
日本語への適用(2)
英語の自動詞/他動詞ペアは形がいっしょ。
日本語では「起きる/起こす」「焼ける/焼く」な
どのペアが多い
形が違うので、CAUS
をもっと高い精度で取れるかもしれない。
日本語では代名詞が頻繁に使われていない。
ANIMを計算するために、辞典等を使う。