Project Next NLP Project Next NLP 形態素解析 笹田 鉄郎, 京都大学 鉄郎, 京都大学 森 信介, 京都大学 最新情報: http://plata.ar.media.kyoto‐u.ac.jp/mori/research/topics/PST/NextNLP.html Project Next NLP 形態素解析, 笹田 et 森 1 利用デ タ 利用データ • BCCWJコアデータ – 60,305文 – 超短単位 (国語研短単位 + 活用語尾分割) • 未知語に強い – 単語分割, 品詞, 読み, 係り受け • 独自アノテーション – – – – – 様々な分野 約30,000文 超短単位 品詞未付与 (曖昧性の多くは単語分割) 部分的アノテーション (学習にのみ利用可) Project Next NLP 形態素解析, 笹田 et 森 2 BCCWJコアデ タ BCCWJコアデータ • 単語分割, 品詞, 読み, 係り受け 単語分割, 品詞, 読み, 係り受け • 深い言語処理を考慮し記事単位で分割 • テスト ト (IDリスト公開済み) リ ト公開済み – 係り受け付与済み – 構文解析班, 翻訳班と共通 – ClassA ClassA‐1: 1: 3,024文、136記事 3,024文、136記事 • 学習 – テスト以外のコアデータ テスト以外のコアデ タ • 6,406文係り受け付与済み [LREC2014, Mori, Ogura, Sasada] – 記事単位ではない (各文の出典記事は要確認) Project Next NLP 形態素解析, 笹田 et 森 3 主要諸元 Category #sent. #word #char. OC OW OY Other (Train) PB PM PN 小計 ClassA‐1 (Test) 57,281 OC 500 9,846 13,752 OW 504 23,952 34,203 OY 509 9,239 13,340 PB 511 11,792 16,512 PM 495 7,415 10,396 PN 505 12,621 18,456 3,024 , 74,865 , 106,661 , 小計 計 BCCWJ Project Next NLP 形態素解析, 笹田 et 森 4 独自アノテ ション 独自アノテーション • TWI: Twitter – 単語分割 • RCP: レシピ (CookPad) – 単語分割, レシピNE, 係り受け, フロ 単語分割 レシピNE 係り受け フローグラフ グラフ, 読み? 読み? • JNL: 論文抄録 (情処論?) – 単語分割, 係り受け? 単 分割 係 受 • NPT: 発明開示書 (NTCIR翻訳) ( ) – 単語分割 Project Next NLP 形態素解析, 笹田 et 森 5 主要諸元 Category BCCWJ #sent. #word #char. Train 57,281 Test 3 024 3,024 74 865 74,865 106 661 106,661 Train 662 12,008 18,174 Test 62 1,139 1,786 小計 724 13,147 19,961 Train 322 12,263 20,332 Test 32 1,116 1,868 小計 354 , 13,379 22,200 , Train 1,750 71,208 111,394 Test 250 10,497 16,409 小計 2 000 2,000 8 0 81,705 127,803 2 803 小計 Train TWI Test 小計 RCP JNL NPT 合計 Project Next NLP 形態素解析, 笹田 et 森 6 アノテ ション基準 アノテーション基準 例) 爆笑/名詞/名詞‐普通名詞‐サ変可能+/ばくしょう 例) 爆笑/名詞/名詞 普通名詞 サ変可能 /ばくしょう 1. 2. 3. 4. • 単語/品詞大分類/品詞細分類/読み 1. 単語: 超短単位 (未知語に強い) ( ) 2. 品詞大分類: 21種類 3 品詞細分類: 品詞細分類+活用型 3. 品詞細分類 品詞細分類 活用型 例) 移/…/動詞‐一般+五段‐サ行/… ⇒ 移す (移る) 4. 読み: 仮名漢字変換の入力記号列 (≒ 発音) – 仮名漢字変換、音声認識、音声合成 仮名漢字変換 音声認識 音声合成 Project Next NLP 形態素解析, 笹田 et 森 7 形態素解析 • 点予測 [LREC2010, Neubig, Mori] [ b ] – 柔軟な言語資源利用 • 部分的アノテーション – 文の一部のみ, 単語分割のみ, … • 複合語辞書 • オープンソース実装: KyTea http://www.phontron.com/kytea/index‐ja.html – グローバルモデルによる品詞推定 [ACL2011, Neubig, Nakata, Mori] – 単漢字辞書による未知語の読み推定 [InterSpeech2011, Mori, Neubig] Project Next NLP 形態素解析, 笹田 et 森 8 形態素解析実験 • 品詞(大分類)21種類 品詞(大分類) 種類 – <単語表記/品詞大分類> • グローバルモデル(train‐kytea ‐global 1) • 精度99.02 • (参考)自動単語分割+品詞推定: 97.49 • 品詞細分類 – <単語表記/品詞細分類+活用型> • 精度96.72 – アップデート待ち (Neubig さん) • 品詞大分類と品詞細分類タグ内の品詞大分類に 矛盾が出ないようにする Project Next NLP 形態素解析, 笹田 et 森 9 誤り分析 • To Do Project Next NLP 形態素解析, 笹田 et 森 10 参考文献 • [LREC2014, Mori, Ogura, Sasada] – “A Japanese Word Dependency Corpus,” Shinsuke Mori, Hideki Ogura, Tetsuro Sasada, LREC, pp.753‐758, 2014. • [InterSpeech2011, Mori, Neubig] – “A Pointwise Approach to Pronunciation Estimation for a TTS Front‐end,” Shinsuke Mori, Graham Neubig, I InterSpeech, 2011. S h 2011 • [LREC2010, Neubig, Mori] – “Word‐based Partial Annotation for Efficient Corpus Construction,” Graham Neubig,Shinsuke Mori, LREC, 2010. Project Next NLP 形態素解析, 笹田 et 森 11 • [ACL2011, Neubig, Nakata, Mori] – “Pointwise Prediction for Robust, Adaptable Japanese Morphological Analysis,” Graham Neubig, Yosuke Nakata, Shinsuke Mori, ACL‐HLT, 2011. Mori ACL HLT 2011 Project Next NLP 形態素解析, 笹田 et 森 12
© Copyright 2024 ExpyDoc