古宮スライド

2014.6.10
SemEval2のデータとその後
古宮嘉那子
1.SemEval2のデータ
2.最終版
1
SEMEVAL2のデータ
2
1. SemEval2のデータ

Semeval-2010 Japanese WSD Task(=SemEval2)に利用

基本的に,BCCWJコーパスのコアデータに岩波国語辞典の
語義タグを振ったもの

現在は入手不可能(最終版はBCCWJを購入した人なら申し
込んでいただければ利用可能です.プロジェクト中に購入し
ていない方がいらっしゃる場合には、対策を考える必要があ
るそうです.)
3
1.
Semeval-2010 Japanese WSD Task
Semeval-2010 Japanese WSD Task=
SemEval-2 日本語タスクを中心とする日本語語義曖昧性解消
タスクの新しい特徴は,
(1)はじめての日本語の語義タグ付き均衡コーパスを使ったタスクで
ある
(2)新語義(辞書にない語義)も含まれている
という二点
4
1.
Semeval-2010 Japanese WSD Task
タスクの流れ
1. まず,サンプルデータを公開
2. 次に訓練データとスコアラを公開
3. そして,テストデータを公開
4. システムのサブミット
5. 最後に語義タグ付きコーパス(正解データ)を公開
4つの研究機関からの9システムが参加
5
1. SemEval2のReadMe
このファイルではsemeval2におけるデータの説明をしています。
それぞれのデータの詳細は、それぞれのreadmeを参照して下さい。
サンプルデータ: 白書・書籍・新聞のデータからなり、約1/10の語義
を公開したもの。
岩波国語辞典: 語義タグに使われた辞書。
訓練データ: 白書・書籍・新聞のデータからなり、白書・書籍・新聞・
Yahoo!知恵袋のコーパス(正解データ)中に100回以上出てくる
122単語について、50用例を残してマスキングしたもの。
6
1. SemEval2のReadMe
スコアラ: タスクのスコアラ
テストデータ: 白書・書籍・新聞・Yahoo!知恵袋のデータからな
る。 sense=“単語ID”というかたちで、50単語50用例ずつ、合
計2500の単語IDがふられており、これらを
sense="単語ID-A-B-C”
(Aは新語義ならX、新語義でなければ0、Bは大分類、C中分類)
のように、中分類まで曖昧性を解消していただくのがsemeval2の
タスクです.
50単語=名詞22,動詞23, 形容詞5
Yahoo!知恵袋はテストデータにしかないジャンル
7
1. SemEval2のデータ
つまり,
4636-0-0-1-0"のような"A-B-C-D-E"という語義idがあったとき、
Aは岩波国語辞典の見出しID、
Bは基本語には0、合成語のときは1をとる値
(例えば 社会だと0、社会科だと1ということになります)
Cは大分類
Dは中分類
Eは小分類
タスクは中分類までの曖昧性解消
AからDまでの一致を見る (つまり、Eは対象外)
8
1. SemEval2のReadMe
正解データ
白書・書籍・新聞・Yahoo!知恵袋のデータからなる。
テストデータの2500単語を含む全ての語義に語義タグが付与され
ているデータ。
2011.02.05
奥村先生のメールからの追記:
BCCWJのコアデータと言われるデータセット中,岩波国語辞典に
掲載されており,辞典中で複数の語義を持っている,名詞,
動詞,形容詞,副詞の用例にはすべて語義タグを付与している
9
サンプルデータの中
<sentence>
(中略)
<mor pos="名詞-普通名詞-副詞可能" rd="トジョー" >途上</mor>
<mor pos="接尾辞-名詞的-一般" rd="コク">国</mor>
<mor pos="助詞-格助詞" rd="カラ">から</mor>
<mor pos="動詞-一般" rd="モトメ" bfm="モトメル" sense="514090-0-2-0">求め</mor>
<mor pos="助動詞" rd="ラレ" bfm="ラレル">られ</mor>
<mor pos="助詞-接続助詞" rd="テ">て</mor>
<mor pos="動詞-非自立可能" rd="イル" bfm="イル">いる</mor>
(中略)
<mor pos="補助記号-句点" rd="。">。</mor>
10
</sentence>
1. 複合語の取り扱い
複合語の語義タグも振ってありますが、複合語の語義は直後
の単語から簡単に類推できることが予測されるため、テスト
データからはあえて外してある
11
1.実際の50単語












じょうほう【情報】
ばあい:あひ【場合】
と~る【取る・採る・執る・捕る】
はや~い【早い・速い】
あ~うあふ【合う・会う・遭う・△遇う・×逢う】
ぎじゅつ【技術】
かんが~えるかんがへる【考える】
つよ~い【強い】
ぶんか【文化】
はじめ【初め・始め】
いみ【意味】
も~つ【持つ】
12
1.実際の50単語












ひら~く【開く】
おし~えるをしへる【教える】
はい~るはひる【入る・×這入る】
た~つ【立つ・建つ・△発つ】
けいざい【経済】
でんわ【電話】
い~きる【生きる・△活きる】
みる【見る・△視る・△観る】
あ~げる【上げる・揚げる・挙げる】
もの
み~える【見える】
ひとつ【一つ】
13
1.実際の50単語












もと~める【求める】
たか~い【高い】
おおき~いおほきい【大きい】
こども【子供】
すす~める【進める・勧める・薦める・△奨める】
はじ~める【始める】
しじょう【市場】
よ~い【良い・善い・△好い】
かんけい【関係】
ほか【外・△他】
あた~えるあたへる【与える】
の~る【乗る・載る】
14
1.実際の50単語












 げんば【現場】
じかん【時間】
 みと~める【認める】
や~る【△遣る】
だ~す【出す】
かのう【可能】
い~れる【入れる・△容れる】
あいてあひ:【相手】
する【△為る】
て【手】
まえまへ【前】
でる【出る】
ばしょ【場所】
しゃかい【社会】
15
1.学習データの統計情報






OW 白書
平均
単語数
最小
最大
新語義
2.19 用例
364 種類
45206(ふそく【不足】:2語義) 1 用例
36105(どうきょ【同居】:3語義)
20 用例
25 用例
16
1.学習データの統計情報






PB 書籍
平均
単語数
最小
最大
新語義
2.56 用例
785 種類
31085 (ダイヤモンド:2語義)
1 用例
1707(言う・×云う・×謂う:4語義) 108 用例
8 用例
17
1.学習データの統計情報






PN 新聞
平均
2.03 用例
単語数
678 種類
最小
22675(しゅう[*集]シュウ(シフ) あつまる/あ
つめる つどう:2語義) 1 用例
最大
1707(言う・×云う・×謂う:4語義) 33 用例
新語義
15 用例
タスクの規模を決めるためのもので、まだYahoo!
のデータはタグ付けされていなかったので、統計情
報がありません
18
1.SemEval2のデータ

別ファイルへ
19
最終版
20
2.最終版
OC ... Yahoo!知恵袋
 OW ... 白書
 OY ... Yahoo!ブログ
 PB... 書籍
 PM ... 雑誌
 PN ... 新聞
この2つが付け加わったもの。

21
2.データ情報
単語数 平均 標準偏差 最少 最多
OC
Yahoo!知恵袋
22 157.77
153.77
53
666
OW
白書
5 79.20
21.01
60
119
OY
Yahoo!ブログ
9 245.22
431.84
64 1465
PB
書籍
35 158.91
204.97
51
PN
雑誌
26 284.92
872.53
50 4635
PM
新聞
25 92.28
78.08
50
1116
363
50用例以上ある語に絞った場合
22