ˀ͉঱նɊʄɔ઴ވȶၢǨȃᜱᏊௌஈौ᛫ู

ˀ͉঱նɊʄɔ઴‫ވ‬ȶၢǨȃᜱᏊௌஈौ᛫ู
♥
1
ᗍၦ ୯ᓜ,♥ Francis Bond,♠ ᗍᥗ ஊТ ♥
{sanae,a.fujino}@cslab.kecl.ntt.co.jp, ♠ [email protected]
♥ NTT ɌɸɾɤɊʑɐʀʌᇒ‫ٮݯ‬ᆖᅛሇਪ, ♠ ঍‫پ‬ᣄ·ᅛሇഷഁ
ȓǼȥȏ
ᣄࡶǌ‫ۏ‬ǱȐᜯȑୁᐿȍȪȅȈႇȌȭᚩହȐᜯᏈȴ੽
ȆǍǵȮȫȐᜯᏈǭȫୁᐿȍयǺȈൿǹǦᜯᏈȴ᣹ੑ
ǻȭᜯᏈொஆॊᛩื (WSD) ȑǌᢡࢉǌഁୁᛩథ጖఩Ȑ
ൿᛩ᣹ੑ (Fujita et al., 2007) ȦǌഷಓᏠᜃ (Chan et al.,
2007) ȐዖࢠՕʾȍ௣ұȉǤȭǵȊǮᆟǷȮȈǦȭǍ
WSD ȍȆǦȈȑǌ‫ۏ‬ǱȐІᙦᅛሇǮǤȭǍ୩௵ᜯ
ȉȑǌଲ࡯ǤȬȐਯ෾ȍȑԨȒȌǦȤȐȐǌଲ࡯Ȍǹ
ȉ᮰Ǧዖࢠȴखȁǌੱࣥ Lesk ȴၠǦȭਯ෾ (Baldwin
et al., 2008) Ȧǌযմ঍‫پ‬Ȋഁୁ঍‫پ‬ȐˋୗȴၠǦȁଲ
࡯ǤȬȐਯ෾ (Tanaka et al., 2007) ȌȋǮૂ౮ǷȮȈǦ
ȭǍǹǭǹǌਔǏȑ WSD Ȑ጖఩ȴഁୁᛩథȍȤѵၠ
ǻȭȁȣǌ௵ᇵȉȑǌഁୁᛩథ጖఩ȴѵၠǹȌǦਯ෾
ȴૂ౮ǻȭǍ
WSD Ȑ᪣ǹǷȐԗ‫؟‬ȐʸȆȊǹȈǌᑭ‫۔‬ȌᥖȐᜯᏈ
ȴલ‫ކ‬ǻȭȁȣȍӰѧȌ‫ݯ‬ᏕɠʑɘȐഁ኉Ǯ᪣ǹǦȊ
ǦǨǵȊǮǤǴȫȮȭǍҥǪȈǌɈʂɒହǮᑭ‫۔‬ȉǤ
ȮȒǌ‫ۏ‬ǱȐഷಓ‫ݯ‬ᏕɝʑʄȑѵၠǮ‫آ‬᪣ȉǤȭǍǿ
Ȑȁȣǌૂ౮ਯ෾ȉȑ WSD ȴ 2 ඟ᩷ȍѧǳȭǍ 1 ඟ
᩷ᄑȉȑǌ˕͌, ‫ٿ‬ਪ, П͌ྤ, ਗ਼ឤྤȌȋȐ (ʾ͇) য
մɈʂɒȴલ‫ކ‬ǻȭǍযմɈʂɒȑᜯᏈȍතțȈହǮ
ȃǌʅɲʄ 2 ǭȫ 5 ȠȉȐযմɈʂɒ1 ȴၠǦȈ‫ފ‬ᮍȴ
ᙦȌǦǌᜯᏈொஆॊᛩืȍ௣ұȌʅɲʄȴ᜿౒ǻȭǍ
2.1 ᛹፛ᴄɡɔɣɢʓɚ
േɔʌɒɩʌɈȐФ‫ޗ‬ᜯȑǌ Lexeed ȐᜯᏈȍȪȅȈɘ
ɉ̝ǳǷȮȈǦȭǍǹǭǹǌ௵ሱȉȑǌ (ʾ͇) যմɈ
ʂɒȴલ‫ކ‬ǻȭȁȣǌേɔʌɒɩʌɈȐᜯᏈɘɉȴʾ
͇যմɈʂɒȚȊᎰ૆ǹǌᛷፙᴂɟɒɡɠʑɘȴ͓ਓ
ǻȭǍͣȊǹȈǌᣜᡜਯ 1 ȐᜯᏈୁȴୁ (1) ȍᆟǻǍୁ
(1) Ȑʿȍ cat ȉᆟǹȁᙦȑǌՋᜯᏈɘɉȍʃʌɈǷȮ
ȈǦȭᜯࣴ‫۔‬ያȐযմɈʂɒǌ lvl X ȉᆟǹȁᙦȑǌ
ʅɲʄ X ȍǬǳȭʾ͇যմɈʂɒȴᆟǹȈǦȭǍ௵ᇵ
ȉȑǌᜯᏈǮᚩହȐযմɈʂɒȍʃʌɈǷȮȈǦȭ‫ٿ‬
Ռǌ௠ѱȐযմɈʂɒȐȡȴၠǦȈǦȭǍ
ᙲ 1ȍǌᛷፙᴂɟɒɡɠʑɘȐହȴᆟǻǍᛷፙɠʑ
ɘ ȑǌ 1 ᜯ Ꮘ ࢈ ‫ ف‬5.1 ୁ (ͣ ୁ) ǭ ȫ 17.7 ୁ (KC) ȉ Ǥ
ȭǍǹǭǹǌʾ͇যմɈʂɒȍ᪕ዯǹȁ‫ٿ‬Ռǌʅɲʄ 5
ȉȤ 1 Ɉʂɒ࢈‫ ف‬340.9 ୁ (ͣୁ) ǭȫ 539.7 ୁ (KC) Ȋ
ȌȭǍǵȐȪǨȍǌʾ͇যմɈʂɒȍ᪕ዯǻȭ˲ȍȪ
ȬǌɠʑɘɒɪʑɒɦɒȍࣦǱȌȭǍ
ȑȭǭȍߋȌǦȁȣǌතᡤყߋȌǦ‫ݯ‬Ꮥɠʑɘǭȫȉ
ȤӰѧȌዖࢠȴखȭǵȊǮȉǯȭǍȠȁǌʾ͇যմɈ
ʂɒǮ‫ކ‬ȠȮȒǌᜯᏈǮʸযȍෘȠȭ˲Ȥ‫ۏ‬ǦǍ 2 ඟ
Corpus
᩷ᄑȉȑǌ 1 ඟ᩷ᄑȉલ‫ކ‬ǹȁযմɈʂɒȴၠǦȈᜯ
ᏈǿȐȤȐȴલ‫ކ‬ǻȭǍ
KC
ȌǬǌ‫ފ‬ᮍȍȑǌേɌʑɪɒ (Bond et al., 2006) ȴ
ၠǦȭǍേɌʑɪɒȑǌᢍ௘ (Lexeed(቎ԗȫ, 2004)) Ȑ
ᜯᏈୁǌͣୁǌ୕᏾ (̇‫۔‬Ɍʑɪɒǌ̥ʿǌ KC) ȍ޼ǻ
ȭɝʃʑɩʌɈǌǬȪȕǌɔʌɒɩʌɈǭȫഁਓǷȮ
ȭǍ ȠȁǌǵȐᢍ௘ȍȑǌᜯᏈඪȍ୩௵ᜯɐɖʑʂɒ
ȉǤȭ୩௵ᜯᜯࣴ‫۔‬ያ (ැԗȫ, 1997) ȐযմɈʂɒ (য
մ߬ॊ) Ǯ̝ˁǷȮȈǦȭǍ
2
ᜯᏈୁ
ͣୁ
Set
Train
Test
Train
Test
Train
Test
ୁହ
޼ឤᜯହ
Еᜯହ
67,202
4,942
106,528
8,942
141,968
5,408
175,709
15,932
133,616
12,416
211,567
12,581
613,216
54,276
432,514
41,019
947,298
53,703
ᙲ 1: ᛷፙ / ɟɒɡɠʑɘହ: ǵǵȉ޼ឤᜯȊȑǌ Lexeed
ȐᜯᏈȉɘɉ̝ˁǷȮȁᜯ
2.2 ‫ތ‬ᮏ: ˀ͉঱նɊʄɔȒ઴‫ވ‬
ഷ ಓ ‫ ݯ‬Ꮥ ਯ ෾ Ȋ ǹ Ȉǌ Maximum Entropy Method:
MEM(Nigam et al., 1999) ǬȪȕǌ Conditional Random
Fields: CRF(Suzuki et al., 2006) ȴၠǦȈ‫ފ‬ᮍȴᙦȌȅ
ˀ͉঱նɊʄɔȒ઴‫ވ‬
௵ሱȉȑǌʾ͇যմɈʂɒȐલ‫ކ‬ୗ෾ȍȆǦȈ᢬ț
ȭǍᜯࣴ‫۔‬ያȑǌ 2,710 ȐযմɈʂɒǭȫȌȬǌ๛Ƿ 0
ǭȫ 11 ȠȉȐ᩷߯ (ʅɲʄ) ȍѧǳȫȮȈǦȭǍǿȐǨ
1 য մ Ɉ ʂ ɒ ȑǌ ʅ ɲ ʄ 2 Ȑ ‫ ٿ‬Ռ �3: ˗ ͎� Ȧ �533: С
͎ ྦ� Ȍ ȋ 9 Ɉ ʂ ɒǌ ʅ ɲ ʄ 3 Ȑ ‫ ٿ‬Ռ �4: ̏� Ȧ �706: ཊ ၞ
ྦ� Ȍȋ 30 Ɉʂɒǌʅɲʄ 4 Ȑ‫ٿ‬Ռ �5: ̏ᨮ� Ȧ �760: ̏ࡖ
ྦ� Ȍȋ 136 Ɉʂɒǌʅɲʄ 5 Ȑ‫ٿ‬Ռ �6: ̏ᨮᴑ̏ᇠᴓ� Ȧ
�838: ᬽୋ� Ȍȋ 392 Ɉʂɒȍ᪕ዯǷȮȭǍ
- 568 -
(1) ᪬ᡔ 1
cat
lvl 5
lvl 4
lvl 3
lvl 2
�988: ˣȮྦ (௷͎ (ᇡҾ (ᩰ‫�)))ز‬
�986: ˣȮྦ�
�760: ̏ࡖྦ�
�706: ཊၞྦ�
�533: С͎ྦ�
Ȧ ᒈҼᡔ 1
�988: ˣȮྦ (௷͎ (ᇡҾ (ᩰ‫�)))ز‬
�986: ˣȮྦ�
�760: ̏ࡖྦ�
�706: ཊၞྦ�
�533: С͎ྦ�
-
ȁ2 ǍȌǬǌ௵ᇵȉȑǌᔀቜȍȪȭ΋ൿ๧ȡࣸ৆ዾᛩథ
጖఩ȴДҢȊǹȈѵၠǻȭǍ
̥ʿǌѵၠǻȭዾॊȍȆǦȈ᢬țȭǍ CRFȐዾॊȍ
ȑǌ uni-gram, bi-gram, ޼ឤᜯȐ҆ऑ 2 ᜯȐጎՌǽȴၠ
Ǧȭ (ᙲ 2)ǍMEMȐዾॊȍȑǌ޼ឤᜯᒈᡋȊǿȐ҆ऑ
Ȑᜯǌ޼ឤୁˏȐǻțȈȐФ‫ޗ‬ᜯǌǬȪȕǌ޼ឤᜯȐ
҆ऑ 3 ୁ‫ݥ‬ȠȉȐୁ‫ݥ‬ѰȴၠǦȭ (ᙲ 3)ǍCRFȊЕǱՐ
Ǻዾॊȴѵၠǹȁ‫ފ‬ᮍȤᙦȌȅȁǮǌ୻ȫǭȍዖࢠǮ
ʿǮȅȁȁȣǌǵǵȉȑȊȬǤǴȌǦǍᙲ 2, 3ȉǌ bk
ȑ k ႃᄑȐᜯȐԗࣸǌ wk ȑᙲ߯ࣸǌ p1k , p2k , p3k ȑ
ǿȮȀȮǌ֕ᜓ, ֕ᜓጅѧᬨ 1, ֕ᜓጅѧᬨ 2 ȴᆟǻǍ
Sample ȑǌୁ (1) Ȑ 5 ႃᄑȐᜯ (i = 5) ǖᣜᡜǗȴ޼ឤ
ᜯȊǹȁ‫ٿ‬ՌȐዾॊȐʸᤘȉǤȭǍ
Type
Template
uni- �bk �, �wk �,
gram �p1k �, �p2k �, �p3k �
ጎ
�bk , wk �, �bk , p1k �,
Ռ
�bk , p2k �, �bk , p3k �,
ǽ
�wk , p1k �, �wk , p2k �,
�wk , p3k �, �p1k , p2k �,
�p1k , p3k �, �p2k , p3k �
bi�bk , bk+1 �,
gram �wk , wk+1 �,
�p1k , p1k+1 �,
�p2k , p2k+1 �,
�p3k , p3k+1 �
Sample
�ᒈҼᡔ�, �ᒈҼᡔ�,
�Ցᜓ�, �Ցᜓ - ʸᒦ�
�ᒈҼᡔ, ᒈҼᡔ�,
�ᒈҼᡔ, Ցᜓ - ʸᒦ�,
�ᒈҼᡔ, Ցᜓ�,
�ᒈҼᡔ, Ցᜓ - ʸᒦ -*�,
�Ցᜓ, Ցᜓ - ʸᒦ -*�
�ᒈҼᡔ, ȴ�,
�ᒈҼᡔ, ȴ�,
�Ցᜓ, Ҩᜓ�,
�Ցᜓ - ʸᒦ, Ҩᜓ - ౦Ҩᜓ�,
�Ց - ʸᒦ -*, Ҩ - ౦Ҩᜓ - ʸᒦ�
ᙲ 2: CRF ȉѵၠǹȁዾॊ: ǵǵȉǌ i ႃᄑȐᜯǮ޼ឤᜯȊ
ǻȭȊǌ uni-gram ȊጎՌǽȉȑǌ k = i−2, ..., i+2ǌ bi-gram
ȉȑǌ k = i − 2, ..., i + 1Ǎ
ȴ ᣜᡜ 1
-
�2003: ଁ፪�
�1920: ұϜ�
�1560: ᙨ༸�
�1236: ̏ᨮยҾ�
�1235: ˴�
ǻȭ ̍ 4
-
�4: ̏�
�4: ̏�
�4: ̏�
�4: ̏�
�3: ˗͎�
ǖɢʂȽɩʑǗȊǦǨᜯȑǌʅɲʄ 2 ȉȑǌ �3: ˗͎�
ǭ �533: С͎ྦ� ǹǭԮȬखȌǦǍǹǭǹǌ௵ਯ෾ȉ
ȑǌ �388: ‫ځ‬ਬ� ȌȋȐɈʂɒȤ᣹ੑՀᐺȉǤȭǍǿ
ǵȉǌǵȐȪǨȌɁʂʑȴ΋ൿǻȭȁȣǌ௣ȬखȌǦ
ɈʂɒǮ᣹ੑǷȮȁ‫ٿ‬ՌǌCRFȉȑǌՀᐺȌɈʂɒȐ
ˏȉ௠ᬚȐɈʂɒȚȊ‫ۆ‬௕ǻȭǍȠȁǌMEMȉȑǌՀ
ᐺȌɈʂɒȐˏȉ௠Ȥᆂ࿲Ȑ᮰ǦɈʂɒȚȊ‫ۆ‬௕ǻ
ȭ3 Ǎᙲ 4ȍǬǦȈǌǖ΋ൿ҆Ǘȉᆟǹȁዖࢠȑǌલ‫ކ‬
጖఩ǿȐȠȠȐዖࢠȉǤȬǌǖ΋ൿऑǗȉᆟǹȁዖࢠ
ȑǌ௣ȬखȌǦɈʂɒȴ΋ൿǹȁ‫ٿ‬ՌȐዖࢠȉǤȭǍ
ᙲ 4Ȑ ΋ ൿ ҆ Ȑ ጖ ఩ ǭ ȫǌCRFȑ Ȫ Ȭ ๛ Ǧ ʅ
ɲ ʄ ȉ Ȑ ዖ ࢠ Ǯ ත ᡤ ყ ᮰ Ǧ ǵ Ȋ Ǯ ȱ ǭ ȭǍ ǹ ǭ
ǹǌCRFȑMEMȪ Ȭ ‫ ۏ‬Ǳ Ȑ ஓ ᨬ Ȋ ɺ ɻ ʃ ȴ न ᛋ Ȋ
ǻȭǍǿǵȉǌǦǱȆǭȐΥ (∗ ȴ̝ˁǹȁହΥ) ȑǌ
p2 ȴၠǦȌǦȉखȁǍͅǹǌ p2 ȴၠǦȌǦ‫ٿ‬Ռǌዖ
ࢠȑ 0.1-0.2 % ᇢࢠ঄ǱȌȭ4 Ǎ
ᙲ 4Ȑ ΋ ൿ ҆ Ȑ ጖ ఩ ȉ ȑǌ Ǧ Ǳ Ȇ ǭ Ȑ ఎ ̪
ȉǌMEMȐ ୗ ǮǌCRFȪ Ȭ ᮰ Ǧ ዖ ࢠ ȴ ѡ ǹ Ȉ Ǧ
ȭǍǹǭǹǌ΋ൿୗ෾ȑMEMȐୗǮ௣ѵȉǤȭȍȤᨲ
ȱȫǼǌ΋ൿऑȑǌCRFɲʑɒȐዖࢠȐୗǮЕȈ᮰Ǳ
ȌȅȈǦȭ5 Ǎ ΋ൿऑȑCRFȐୗǮЕȈ᮰ǱȌȅȁထၥ
ȊǹȈǌMEMȑ௠ѱǭȫᬚࢠȍᥔ༵ǮǬǭȮȁ‫ݯ‬Ꮥୗ
෾ȉǤȭȐȍ޼ǹǌCRFȑතᡤყያѰȊǹȈȐ‫ࣱ܋‬ॊ
ȍᥔ༵ǮǬǭȮȁ‫ݯ‬Ꮥୗ෾ȉǤȭȁȣǌᬚࢠȍȪȭ΋
ൿȑCRFȍ޼ǹȈȪȬұ఩ყȉǤȭȊǦǨထၥǮᏤǪ
ȫȮȭǍ
Sample
�᪬ᡔ�, �ᒈҼᡔ�, �̍�
�ᣜᡜ�, �ᣜᡜ�,
�Ցᜓ�, �Ցᜓ - Ɏ‫ۆ‬રጬ -*�
�ȴ�, �ᡔȴ�, �Ҽᡔȴ�
�ǻ�, �ǻȭ�, �ǻȭ̍�
ᙲ 4ǭȫǌ΋ൿऑȐዖࢠȑǌ΋ൿ҆ȍතțȈǌǦǼ
ȮȤʾ୷ǹȈǦȭǍǿȐȁȣǌ൨ሱȐᜯᏈொஆॊᛩื
ȉȑǌ΋ൿऑȐ጖఩ȴѵၠǻȭǍ
ᙲ 3: MEM ȉѵၠǹȁዾॊ: ǵǵȉǌ i ႃᄑȐᜯǮ޼ឤᜯ
ȊǻȭȊǌ uni-gram ȉȑǌ j = i − 1, ..., i + 1Ǎ
௵ሱȉȑǌ҆ሱȉ࿫खǹȁʾ͇যմɈʂɒȴၠǦȁᜯ
Ꮘொஆॊᛩื (WSD) ȍȆǦȈ᢬țȭǍȠǼǌ WSD Ȑ
Type
Template
�b
�
� l� � �
uni-gram �b j ,� w
� j ,�
p1 j , p3 j
ୁ‫ݥ‬Ѱ
�cb1i �, �cb2i �, �cb3i �
�ca1i �, �ca2i �, �ca3i �
Ф‫ޗ‬ᜯ
2.3 ጘఫȌឈᝊ: ˀ͉঱նɊʄɔ઴‫ވ‬
ʾ͇যմɈʂɒȐલ‫ކ‬጖఩ȴᙲ 4ȍᆟǻǍɲʑɒʂȽʌ
(BL) ȑǌᛷፙɠʑɘˏȐ௠ᬚȐযմɈʂɒȴ᣹ੑǹȁ
‫ٿ‬ՌȐዖࢠȉǤȭǍ௵ਯ෾ȉȑǌՋʅɲʄȠȉȐЕȈ
ȐɈʂɒǮ᣹ੑՀᐺȍȌȅȈǦȭȁȣǌᜯȍȪȅȈȑ
௣ȬखȌǦɈʂɒǮ᣹ੑǷȮȭ‫ٿ‬ՌǮǤȭǍͣǪȒǌ
2 ‫ފ‬᩾ȑǌ Support Vector Machine (SVM, (Chang and Lin,
2001)), ȉȤ‫ފ‬ᮍǹȁǮǌMEMȪȬዖࢠǮ͈ǱǌஓᨬȤ᫕ࡶȍ
ǭǭȅȁȁȣǵǵȉȑԮȬʾǴȌǦ
3
ᜱᏊௌஈौ᛫ู
ȁȣȐዾॊȍȆǦȈ᢬țȭǍ WSD ȐɌʌɟɒɡȉǤ
ȭ SENSEVAL-2 ୩௵ᜯᢍ௘ɘɒɈȍǬǦȈǌ௠Ȥ᮰Ǧ
ዖࢠȴखȁఆၤȫ (2003) Ȑɐɒɟɹ (̥ʿǌMRT) ȴȝ
ȞЩ‫ފ‬ᚓǹǌਔǏȐɐɒɟɹȊතᡤǻȭǍਔǏǮЩ‫ފ‬
ᚓǹȁɐɒɟɹ (̥ʿǌCRL) ȊǌMRTȐᣥǦȍȆǦȈ
ȑ̥ʿȍ᢬țȭǍ
3 MEMȉȑǌЕɈʂɒȐᆂ࿲ǮአӾȍ࿫खȉǯȁȁȣǍ
4 ∗ ȴ̝ˁǹȁఎ̪̥‫ی‬ȉතᡤǹȁ‫ٿ‬ՌǍ
5 ‫ފ‬᩾ȍȑǌMEMȐ጖఩ȴǌ CRF ȊՐഇȍǌՀᐺȌ௠ᬚ
ȐযմɈʂɒȍ΋ൿǻȭୗ෾Ȥ᜗ǹȁǮǌዖࢠȑȦȦʿǮȅ
ȁǍ
- 569 -
Corpus
Lvl
2
3
4
5
BL
91.3
83.5
79.2
70.1
ᜯᏈୁ
΋ൿ҆
CRF
96.0
92.0
90.6
85.9∗
MEM
95.4
90.8
89.3
85.1
΋ൿऑ
CRF
96.3
92.5
91.2
86.7∗
MEM
95.7
91.4
90.2
86.6
BL
87.4
80.1
76.7
67.7
ͣୁ
΋ൿ҆
CRF
88.7
84.0
82.0
77.9∗
KC
΋ൿऑ
MEM
89.4
84.3
80.8
75.4
CRF
92.0
87.6
85.7
81.9∗
MEM
91.8
87.4
84.9
81.0
BL
90.0
83.0
80.0
70.6
΋ൿ҆
CRF
93.3
89.8∗
88.2∗
MEM
95.3
91.8
89.4
86.6
΋ൿऑ
CRF
96.3
93.4∗
91.9∗
MEM
95.8
92.8
90.8
88.8
ᙲ 4: ʾ͇যմɈʂɒલ‫ކ‬጖఩ (CRF/MEM): ͅǹǌ ∗ ȴ̝ˁǹȁହΥȑǌ p2 ȴዾॊȊǹȈѵၠǹȈǦȌǦǍ
MRTȑǌᙲ 3Ȑዾॊ̥‫ی‬ȍǌ൨Ȑ (a)-(c) Ȑ঍‫پ‬ȴѵ
ၠǹȈዾॊȴ͓ਓǹȈǦȭǍ (a) KNP ȍȪȭഁୁᛩథ
጖఩ǌ (b) ‫ؤ‬௘᭗Ȍȋȉ௘ᬨȐѧᬨȍၠǦȫȮȭ‫ا‬᩾Ӱ
ᣏѧᬨ෾ (UDC) ȐɌʑɢǌ (c) ୩௵ᜯȐɐɖʑʂɒȉ
Ǥȭѧᬨᜯࣴᙲ (‫ا‬ሥ‫ا‬ᜯᅛሇਪ, 2004) ȐѧᬨႃՆǍ
ʾ᛺ (a)-(c) ȐǨȃǌ௵‫ފ‬ᮍȉȑ (a) Ȋ (b) ȑѵၠǹȌ
ǦǍ (a) ȴѵၠǹȌǦထၥȑǌ WSD Ȑ጖఩ȴഁୁᛩ
థȍѵၠǻȭȁȣǌഁୁᛩథȴ WSD Ȑ҆ѕထȊǹȈ
ȑᙦȌȱȌǦȁȣȉǤȭǍ (b) ȴѵၠǹȌǦထၥȑǌ
UDC ɌʑɢǮേɌʑɪɒȍȑ̝ˁǷȮȈǦȌǦȁȣȉ
ǤȭǍ
ǵǵȉǌ (c) Ȑѧᬨᜯࣴᙲȑ୩௵ᜯዯ 96,000 ᜯǮԬ
᧎ǷȮȈǬȬǌ๛Ƿ 5 Ȑ௲ഁᣈȍȌȅȈǦȭǍ௠ѱȐ
ʅɲʄȉȑ 4 ɈʂɒȍȱǳȫȮǌʅɲʄ 3 ȉ 95 Ɉʂ
ɒǌʅɲʄ 5 ȉ 895 ɈʂɒȍѧǳȫȮȭǍᜯࣴ‫۔‬ያȤ
ѧᬨᜯࣴᙲȤǌМȍ୩௵ᜯȐɐɖʑʂɒȉǤȭǮǌᜯ
ࣴ‫۔‬ያǮ˕ȍʸᒦՑᜓȴѧᬨǻȭȁȣȍ͓ȫȮȁȐ
ȍ޼ǹǌѧᬨᜯࣴᙲȑǌഷᐺᜯȴ՜ȢЕȈȐᜯȴѧᬨ
޼ឤȊǹȈǦȭǍ (c) ȍȆǦȈǌMRTȑǌʅɲʄ 3 Ȋ 5
ȐɈʂɒȴˋୗѵၠǹȈǦȭǍǹǭǹǌअȫȑ‫ݥ‬᫘ȍ
ɷɜɚǹȁ௠ѱȐɈʂɒȴѵၠǹȈǬȬǌ௵ᇵȐȪǨ
ȍȪȬᣱѨȌɈʂɒȴલ‫ކ‬ǻȭȪǨȌǵȊȑǹȈǦȌ
ǦǍᜯࣴ‫۔‬ያȊѧᬨᜯࣴᙲǭȫखȫȮȭɘȽɰȊዂࢠ
ȑႇȌȬǌྦྷȍѧᬨᜯࣴᙲȍȑഷᐺᜯǮ՜ȠȮȭǵȊ
ǭȫǌႇȌȭұ఩ǮखȫȮȭȊᏤǪȫȮȭȁȣǌਔǏ
Ȥ (c) ȐዾॊȑѵၠǻȭǍ
ȠȁǌMRTȑǌ JUMAN/RWC Ȑࣸ৆ዾᛩథ጖఩ȴ
ˋୗѵၠǹȈǦȭǮǌ௵ᇵȉȑᔀቜȍȪȭࣸ৆ዾᛩథ
጖఩ȐȡѵၠǹȈǦȭǍ
ȆȠȬǌCRL ၠȍȑѧᬨᜯࣴᙲǭȫ࿫खǹȁዾॊȴ
ᙲ 3ȍᢲҥǹǌਔǏȐɐɒɟɹȍȑǌѧᬨᜯࣴᙲǬȪȕ
લ‫ކ‬ǹȁʾ͇যմɈʂɒȍȪȭዾॊȴᢲҥǻȭǍǵȐ
ஓǌલ‫ކ‬ǹȁʅɲʄȪȬʾ͇ʅɲʄȐযմɈʂɒȤѵ
ၠǻȭǍͣǪȒǌ҆ሱȉʅɲʄ 3 ȐযմɈʂɒȴલ‫ކ‬
ǹȁ‫ٿ‬Ռǌʅɲʄ 2 ȐযմɈʂɒȤዾॊȊǹȈᢲҥǹ
ȈǦȭǍ
‫ފ‬ᮍȍȑǌ SENSEVAL-2 ȉȐ޼ឤᜯ (ՑᜓǌҼᜓՋ
50 ᜯ) ȴၠǦȁǍͅǹǌ Lexeed ȍȌǦ 2 ᜯǌǬȪȕǌ
ᛷፙ / ɟɒɡɠʑɘȐǦǼȮǭȍѡဎǹȌǭȅȁᜯȴᩣ
ǦȈǦȭǍ‫ފ‬᩾Ȑ޼ឤᜯହȴᙲ 5ȍᆟǻǍ
ਔǏȑǌMRTȊՐഇǌᜯȊ֕ᜓȐጎՌǽඪȐɻɠʄ
ȴ͓ਓǹȁǍȠȁǌMRTȑǌ SVM ȊɣȽʑɯɲȽɓ
ȐˋୗȴጎȡՌȱǽȈѵၠǹȈǦȭǮǌ௵‫ފ‬ᮍȉȑ
SVM(Chang and Lin, 2001) ȐȡȴѵၠǹȈǦȭǍ
ȠȁǌMRTȉȑǌ‫ۏ‬ᬇ࣑ɄʑɦʄȴѵၠǹȈǦȭǮǌ
ਔǏȐ‫ފ‬ᮍȉȑፍࣸɄʑɦʄȐୗǮዖࢠǮ᮰ǱȌȅȁ
ȁȣǌፍࣸɄʑɦʄȴѵၠǹȁǍ
Corpus
No.
ᜯᏈୁ
ͣୁ
KC
Ցᜓ
Wd
44
41
49
Pol
6.4
6.6
6.3
Ҽᜓ
Wd
46
46
49
Pol
9.6
9.4
10.4
Ռᛱ
Wd
90
87
98
Pol
8.1
8.1
8.4
ᙲ 5: WSD Ȑ޼ឤᜯହ:Wd ȑ޼ឤᜯହǌ Pol ȑ࢈‫ۏف‬Ꮘହ
3.1 ጘఫȌឈᝊᴏᜱᏊௌஈौ᛫ู
ᙲ 6 ȍ WSD Ȑ጖఩ȴᆟǻǍɲʑɒʂȽʌ (BL) ȑǌᛷ
ፙɠʑɘȐˏȉȐ௠ᬚᜯᏈȴ᣹ੑǹȁ‫ٿ‬ՌȐዖࢠȉǤ
ȭǍȠȁ BL2 ȑǌ҆ሱȉલ‫ކ‬ǹȁʾ͇যմɈʂɒȴຕ
ȁǻ௠ᬚᜯᏈȴ᣹ੑǹȁ‫ٿ‬ՌȐዖࢠȉǤȭǍ
ᙲ 6ȍ Ǭ Ǧ ȈǌSCRFȑCRFǌSMEMȑMEMȍ Ȫȅ
Ȉલ‫ ކ‬/ ΋ൿǹȁʾ͇যմɈʂɒȴၠǦȁɐɒɟɹȉǤ
ȭǍЕȈȐ጖఩ȑɲʑɒʂȽʌ (BL) ȪȬ௣যȍତᒼǷ
ȮȈǦȭǍᜯᏈୁȴᩣǯǌSCRF Ȑ጖఩Ǯ௠ȤȪǦǍ
ᙲ 6ǭȫǌʾ͇যմɈʂɒȴຕȁǻ௠ᬚᜯᏈȴ᣹ੑ
ǹȁ‫ٿ‬Ռ (BL2) ȉȤǌ᮰ǦዖࢠȉᜯᏈȴલ‫ކ‬ǻȭǵȊ
ǮȉǯȁǍʸᒦȍǌ᩷߯Ǯ๛ǱȌȭȊǌʾ͇যմɈʂ
ɒȐલ‫ކ‬ᒈ͌ȐዖࢠȑʿǮȭȍȤǭǭȱȫǼǌȪȬ๛
ǦʅɲʄȐযմɈʂɒȴၠǦȭୗǮǌ WSD Ȑዖࢠᒈ
͌ȑՕʾǹȈǦȭǍ
4
ឈᝊȌ̖ओȒ᜽ᬡ
௵ᇵȉȑǌ WSD ȍǬǳȭʾ͇যմɈʂɒલ‫ކ‬Ȑ௣ұ
ॊȴᆟǹȁǍǹǭǹǌʾ͇যմɈʂɒǮொஆॊȐ҃
๯ȍұ఩ǮȌǦ‫ٿ‬ՌȤ‫عݦ‬ǻȭǍͣǪȒǖȻȽʆʌǗ
ȑǌ ”ࡤ‫ػ‬ȐǹȱȴȐȒǻȐȍ͞ǨᦀᚥȐᥔǦǵȈǍ”
Ȋǌ “᮸ȐධȴȃȄȫǽȭᦀᚥȐǵȈǍ” Ȑ˳ȆȐযմ
ȴ੽ȆǍȻɧɟȽɘʑȑǵȮȫȐᜯᏈȴ‫ݿ‬ЕȍӬѳȉ
ǯȭǮǌˋୗȊȤǌ �915: ‫ࢥޗ‬ၢС� Ȋ �969: ᪮Ҥഹ
‫ �؀‬ȍʃʌɈǷȮȈǬȬǌযմɈʂɒǭȫᜯᏈȴጚȭ
ǵȊȑȉǯȌǦǍǹǭǹǌȝȊȵȋȐ‫ۏ‬Ꮘᜯȍ޼ǹȈ
ȑǌ௵ਯ෾ȑ௣ұȉǤȭǍ
- 570 -
Corpus
BL
CRL
BL2
(CRF
΋ൿऑ
ѵၠ)
BL2
(MEM
΋ൿऑ
ѵၠ)
SCRF
SMEM
Lvl
2
3
4
5
2
3
4
5
2
3
4
5
2
3
4
5
Ցᜓ
74.5
81.1
76.8
80.8
80.9
83.4
77.0
81.1
81.3
82.6
81.3
81.5
81.6
81.7
81.5
81.3
81.7
81.6
ᜯᏈୁ
Ҽᜓ ࢈‫ف‬
56.8
65.3
59.9
60.6
61.6
67.4
58.5
60.3
61.3
66.6
65.6
66.1
66.3
67.2
65.3
65.2
65.2
65.5
63.8
71.5
66.5
68.5
69.2
73.7
65.8
68.5
69.1
72.8
71.8
72.2
72.3
72.9
71.7
71.6
71.7
71.8
KC
Ցᜓ
ͣୁ
Ҽᜓ
࢈‫ف‬
Ցᜓ
Ҽᜓ
࢈‫ف‬
63.7
79.5
66.9
69.1
71.0
76.3
65.0
69.1
69.7
72.6
79.5
79.5
79.5
80.1
78.5
78.5
78.9
79.2
56.2
68.5
58.8
60.5
61.3
65.2
58.0
60.5
61.6
63.1
68.3
68.5
68.8
69.2
68.3
68.3
68.3
67.9
58.3
71.6
61.0
62.8
64.0
68.3
59.9
62.9
63.9
65.7
71.4
71.6
71.7
72.3
71.1
71.1
71.2
71.0
69.2
80.9
69.9
75.0
76.7
62.1
67.0
63.4
65.4
68.0
66.1
74.7
67.0
70.7
72.8
70.5
74.2
75.4
77.2
81.3
81.5
81.3
62.4
63.3
64.3
67.5
67.0
67.0
67.0
66.9
69.3
70.4
72.9
74.9
75.1
74.9
79.9
79.8
79.8
79.7
66.9
66.9
66.6
66.7
74.1
74.1
73.9
73.9
ᙲ 6: ᜯᏈொஆॊᛩื጖఩ (SVM)
Ƞȁǌʾ͇যմɈʂɒલ‫ކ‬Ȑ጖఩ȐȡȴഁୁᛩథȌ
ȋȍѵၠǻȭ˲ȤȉǯȭǍ‫ފ‬᩾ǌ Fujita et al. (2007) ȍ
ȪȭȊǌഁୁᛩథȐൿᛩ᣹ੑȍǬǦȈʅɲʄ 2 Ȑযմ
ɈʂɒǮ௠ȤዖࢠՕʾȍ‫ޜ‬ˁǹȈǦȭǍ
̔ऑȐ᜻ᬟȊǹȈȑǌᓦᜯቚȐ̛ȐᛮᜯȉȤՐഇȐ
ұ఩ȴखȫȮȭǭȋǨǭ‫ފ‬ᮍȴᙦȌǦȁǦǍȠȁǌ௵
ᇵȉȑǌɪɜɊʑɑӝǷȮȁ CRF Ȑ‫ݯ‬Ꮥɝʑʄȴၠ
ǦȁǮǌࣸ৆ዾᛩథɝʑʄȉǤȭ mecab(Kudo et al.,
2004) ȉȐ‫ފ‬ᚓȊՐഇȍǌՀᐺȌ‫ݥ‬᫘Ȋʾ͇যմɈʂɒ
ȐጎՌǽȴᢍ௘ȊǹȈრ᧎ǹǌጎȡՌȱǽȴѺᩛǻȭ
ǵȊȉǌዖࢠȊ‫ݯ‬ᏕᣇࢠȐՕʾȴȑǭȬȁǦǍ
5
ǮȳȮȏ
௵ᇵȉȑǌʾ͇যմɈʂɒલ‫ކ‬ȴၠǦȁᜯᏈொஆॊᛩ
ื (WSD) ୗ෾ȴૂ౮ǹȁǍ௵ਯ෾ȉȑǌȠǼʾ͇যմ
Ɉʂɒȴલ‫ކ‬ǹȈǭȫǌǿȐલ‫ކ‬጖఩ȴၠǦȈ WSD
ȴᙦȌǨǍʾ͇যմɈʂɒȐલ‫ކ‬ȉȑǌ CRF Ȋ MEM
ȴၠǦȁ‫ފ‬ᮍȴᙦȌǦǌМȍ᮰ǦዖࢠȴखȁǍȠȁǌ
WSD ȉȤǌ SENSEVAL-2 ȉ௠Ȥ᮰Ǧዖࢠȴѡǹȁୗ
෾ȪȬ᮰Ǧዖࢠȴखȭ˲ǮȉǯȁǍǵȮȍȪȬǌૂ౮
ਯ෾ȉǤȭʾ͇যմɈʂɒલ‫ކ‬ȴၠǦȁ WSD ȑұ఩
ყȉǤȭȊǦǪȭǍ
ᝮᢏ
௵ᅛሇȉѵၠǹȁ CRF Ȑ‫ݯ‬Ꮥɝʑʄȑǌ᥹௲໗භȍछૂͬǦ
ȁȂǦȁྤ (Suzuki et al., 2006) ȉǻǍǵȐ‫ٿ‬ȴΡȬȈǬᆠၧ
ǹʾǴȠǻǍ
ԦᏦୃ࿝
Timothy Baldwin, Su Nam Kim, Francis Bond, Sanae Fujita,
David Martinez, and Takaaki Tanaka. 2008. Mrd-based word
sense disambiguation: Further extending lesk. In The Third
International Joint Conference on Natural Language Processing (IJCNLP-2008).
Francis Bond, Sanae Fujita, and Takaaki Tanaka. 2006. The Hinoki syntactic and semantic treebank of Japanese. Language
Resources and Evaluation, 40(3–4):253–261.
Yee Seng Chan, Hwee Tou Ng, and David Chiang. 2007. Word
sense disambiguation improves statistical machine translation. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pages 33–40.
Chih-Chung Chang and Chih-Jen Lin. 2001. LIBSVM: a library
for support vector machines. Software available at http:
//www.csie.ntu.edu.tw/~cjlin/libsvm.
Sanae Fujita, Francis Bond, Stephan Oepen, and Takaaki
Tanaka. 2007. Exploiting semantic information for hpsg
parse selection. In ACL 2007 Workshop on Deep Linguistic Processing, pages 25–32.
Taku Kudo, Kaoru Yamamoto, and Yuji Matsumoto. 2004. Applying conditional random ﬁelds to Japanese morphological
analysis. In Dekang Lin and Dekai Wu, editors, Proceedings
of EMNLP 2004, pages 230–237.
Kamal Nigam, John Lafferty, and Andrew McCallum. 1999.
Using maximum entropy for text classiﬁcation. In IJCAI-99
Workshop on Machine Learning for Information Filtering,
pages 61–67.
Jun Suzuki, Erik McDermott, and Hideki Isozaki. 2006. Training conditional random ﬁelds with multivariate evaluation
measures. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting
of the Association for Computational Linguistics, pages 217–
224.
Takaaki Tanaka, Francis Bond, Timothy Baldwin, Sanae Fujita, and Chikara Hashimoto. 2007. Word sense disambiguation incorporating lexical and structural semantic information. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), pages
477–485.
ැԗ ॾ, ‫ ࠜސ‬᪔ࣙ, ტ˸ ᝕, ദߜ ஈၨ, ˏ߾ ฬ࡜, ߊΖ νۖᤒ,
‫ ߴ۔‬ᓐՃ, ధ ᒼࣹ. 1997. ୩௵ᜯᜯࣴ‫۔‬ያ. ߾ฅ௘࢜.
‫ا‬ሥ‫ا‬ᜯᅛሇਪ. 2004. ѧᬨᜯࣴᙲ CD-ROM (‫ښ‬ᚙତᛯ྘྘).
‫۔‬୩௵‫ؤ‬௘.
ఆၤ ᄠഭ, Фߴ ߂ۗ, ФЁ ๥ះ, ᭭ ᫐, ˸͊ԗ ‫ف‬. 2003. ੁᙩ។
୉ SENSEVAL-2J ᢍ௘ɘɒɈȉȐ CRL ȐԮȬጎȡ - ୩௵
ᜯӾᜯ‫ۏ‬ᏈॊᛩืȍǬǳȭᇭǏȐഷಓ‫ݯ‬Ꮥਯ෾Ȋዾॊ Ȑත
ᡤ. ᒈཊᛮᜯѕထ‫̸ݯ‬ᝈୁᜨ, 10(3):115–134.
቎ԗ ᛋ, ͊ᗋ ฬՃ, Francis Bond, ၤˏ ះᇑ, ᗋၤ ୭ᓚ, ᥘం ԩ
‫ݠ‬, ‫ە‬ᥕஈਓ. 2004. ǖ‫௵ٮ‬ᜯযմɠʑɘɲʑɒ:lexeedǗȐ
ഁ኉. 2004-NLC-159, pages 75–82.
- 571 -

Download Report

ˀ͉঱նɊʄɔ઴ވȶၢǨȃᜱᏊௌஈौ᛫ู

expydoc.com

Your ExpyDoc