2014.6.10 SemEval2のデータとその後 古宮嘉那子 1.SemEval2のデータ 2.最終版 1 SEMEVAL2のデータ 2 1. SemEval2のデータ Semeval-2010 Japanese WSD Task(=SemEval2)に利用 基本的に,BCCWJコーパスのコアデータに岩波国語辞典の 語義タグを振ったもの 現在は入手不可能(最終版はBCCWJを購入した人なら申し 込んでいただければ利用可能です.プロジェクト中に購入し ていない方がいらっしゃる場合には、対策を考える必要があ るそうです.) 3 1. Semeval-2010 Japanese WSD Task Semeval-2010 Japanese WSD Task= SemEval-2 日本語タスクを中心とする日本語語義曖昧性解消 タスクの新しい特徴は, (1)はじめての日本語の語義タグ付き均衡コーパスを使ったタスクで ある (2)新語義(辞書にない語義)も含まれている という二点 4 1. Semeval-2010 Japanese WSD Task タスクの流れ 1. まず,サンプルデータを公開 2. 次に訓練データとスコアラを公開 3. そして,テストデータを公開 4. システムのサブミット 5. 最後に語義タグ付きコーパス(正解データ)を公開 4つの研究機関からの9システムが参加 5 1. SemEval2のReadMe このファイルではsemeval2におけるデータの説明をしています。 それぞれのデータの詳細は、それぞれのreadmeを参照して下さい。 サンプルデータ: 白書・書籍・新聞のデータからなり、約1/10の語義 を公開したもの。 岩波国語辞典: 語義タグに使われた辞書。 訓練データ: 白書・書籍・新聞のデータからなり、白書・書籍・新聞・ Yahoo!知恵袋のコーパス(正解データ)中に100回以上出てくる 122単語について、50用例を残してマスキングしたもの。 6 1. SemEval2のReadMe スコアラ: タスクのスコアラ テストデータ: 白書・書籍・新聞・Yahoo!知恵袋のデータからな る。 sense=“単語ID”というかたちで、50単語50用例ずつ、合 計2500の単語IDがふられており、これらを sense="単語ID-A-B-C” (Aは新語義ならX、新語義でなければ0、Bは大分類、C中分類) のように、中分類まで曖昧性を解消していただくのがsemeval2の タスクです. 50単語=名詞22,動詞23, 形容詞5 Yahoo!知恵袋はテストデータにしかないジャンル 7 1. SemEval2のデータ つまり, 4636-0-0-1-0"のような"A-B-C-D-E"という語義idがあったとき、 Aは岩波国語辞典の見出しID、 Bは基本語には0、合成語のときは1をとる値 (例えば 社会だと0、社会科だと1ということになります) Cは大分類 Dは中分類 Eは小分類 タスクは中分類までの曖昧性解消 AからDまでの一致を見る (つまり、Eは対象外) 8 1. SemEval2のReadMe 正解データ 白書・書籍・新聞・Yahoo!知恵袋のデータからなる。 テストデータの2500単語を含む全ての語義に語義タグが付与され ているデータ。 2011.02.05 奥村先生のメールからの追記: BCCWJのコアデータと言われるデータセット中,岩波国語辞典に 掲載されており,辞典中で複数の語義を持っている,名詞, 動詞,形容詞,副詞の用例にはすべて語義タグを付与している 9 サンプルデータの中 <sentence> (中略) <mor pos="名詞-普通名詞-副詞可能" rd="トジョー" >途上</mor> <mor pos="接尾辞-名詞的-一般" rd="コク">国</mor> <mor pos="助詞-格助詞" rd="カラ">から</mor> <mor pos="動詞-一般" rd="モトメ" bfm="モトメル" sense="514090-0-2-0">求め</mor> <mor pos="助動詞" rd="ラレ" bfm="ラレル">られ</mor> <mor pos="助詞-接続助詞" rd="テ">て</mor> <mor pos="動詞-非自立可能" rd="イル" bfm="イル">いる</mor> (中略) <mor pos="補助記号-句点" rd="。">。</mor> 10 </sentence> 1. 複合語の取り扱い 複合語の語義タグも振ってありますが、複合語の語義は直後 の単語から簡単に類推できることが予測されるため、テスト データからはあえて外してある 11 1.実際の50単語 じょうほう【情報】 ばあい:あひ【場合】 と~る【取る・採る・執る・捕る】 はや~い【早い・速い】 あ~うあふ【合う・会う・遭う・△遇う・×逢う】 ぎじゅつ【技術】 かんが~えるかんがへる【考える】 つよ~い【強い】 ぶんか【文化】 はじめ【初め・始め】 いみ【意味】 も~つ【持つ】 12 1.実際の50単語 ひら~く【開く】 おし~えるをしへる【教える】 はい~るはひる【入る・×這入る】 た~つ【立つ・建つ・△発つ】 けいざい【経済】 でんわ【電話】 い~きる【生きる・△活きる】 みる【見る・△視る・△観る】 あ~げる【上げる・揚げる・挙げる】 もの み~える【見える】 ひとつ【一つ】 13 1.実際の50単語 もと~める【求める】 たか~い【高い】 おおき~いおほきい【大きい】 こども【子供】 すす~める【進める・勧める・薦める・△奨める】 はじ~める【始める】 しじょう【市場】 よ~い【良い・善い・△好い】 かんけい【関係】 ほか【外・△他】 あた~えるあたへる【与える】 の~る【乗る・載る】 14 1.実際の50単語 げんば【現場】 じかん【時間】 みと~める【認める】 や~る【△遣る】 だ~す【出す】 かのう【可能】 い~れる【入れる・△容れる】 あいてあひ:【相手】 する【△為る】 て【手】 まえまへ【前】 でる【出る】 ばしょ【場所】 しゃかい【社会】 15 1.学習データの統計情報 OW 白書 平均 単語数 最小 最大 新語義 2.19 用例 364 種類 45206(ふそく【不足】:2語義) 1 用例 36105(どうきょ【同居】:3語義) 20 用例 25 用例 16 1.学習データの統計情報 PB 書籍 平均 単語数 最小 最大 新語義 2.56 用例 785 種類 31085 (ダイヤモンド:2語義) 1 用例 1707(言う・×云う・×謂う:4語義) 108 用例 8 用例 17 1.学習データの統計情報 PN 新聞 平均 2.03 用例 単語数 678 種類 最小 22675(しゅう[*集]シュウ(シフ) あつまる/あ つめる つどう:2語義) 1 用例 最大 1707(言う・×云う・×謂う:4語義) 33 用例 新語義 15 用例 タスクの規模を決めるためのもので、まだYahoo! のデータはタグ付けされていなかったので、統計情 報がありません 18 1.SemEval2のデータ 別ファイルへ 19 最終版 20 2.最終版 OC ... Yahoo!知恵袋 OW ... 白書 OY ... Yahoo!ブログ PB... 書籍 PM ... 雑誌 PN ... 新聞 この2つが付け加わったもの。 21 2.データ情報 単語数 平均 標準偏差 最少 最多 OC Yahoo!知恵袋 22 157.77 153.77 53 666 OW 白書 5 79.20 21.01 60 119 OY Yahoo!ブログ 9 245.22 431.84 64 1465 PB 書籍 35 158.91 204.97 51 PN 雑誌 26 284.92 872.53 50 4635 PM 新聞 25 92.28 78.08 50 1116 363 50用例以上ある語に絞った場合 22
© Copyright 2024 ExpyDoc