Project Next NLP 形態素解析 - 京都大学

Project Next NLP
Project
Next NLP
形態素解析
笹田 鉄郎, 京都大学
鉄郎, 京都大学
森 信介, 京都大学
最新情報: http://plata.ar.media.kyoto‐u.ac.jp/mori/research/topics/PST/NextNLP.html
Project Next NLP 形態素解析, 笹田 et 森
1
利用デ タ
利用データ
• BCCWJコアデータ
– 60,305文
– 超短単位 (国語研短単位 + 活用語尾分割)
• 未知語に強い
– 単語分割, 品詞, 読み, 係り受け
• 独自アノテーション
–
–
–
–
–
様々な分野
約30,000文
超短単位
品詞未付与 (曖昧性の多くは単語分割)
部分的アノテーション (学習にのみ利用可)
Project Next NLP 形態素解析, 笹田 et 森
2
BCCWJコアデ タ
BCCWJコアデータ
• 単語分割, 品詞, 読み, 係り受け
単語分割, 品詞, 読み, 係り受け
• 深い言語処理を考慮し記事単位で分割
• テスト
ト (IDリスト公開済み)
リ ト公開済み
– 係り受け付与済み
– 構文解析班, 翻訳班と共通
– ClassA
ClassA‐1:
1: 3,024文、136記事
3,024文、136記事
• 学習
– テスト以外のコアデータ
テスト以外のコアデ タ
• 6,406文係り受け付与済み [LREC2014, Mori, Ogura, Sasada]
– 記事単位ではない (各文の出典記事は要確認)
Project Next NLP 形態素解析, 笹田 et 森
3
主要諸元
Category
#sent.
#word
#char.
OC
OW
OY
Other
(Train)
PB
PM
PN
小計
ClassA‐1
(Test)
57,281
OC
500
9,846
13,752
OW
504
23,952
34,203
OY
509
9,239
13,340
PB
511
11,792
16,512
PM
495
7,415
10,396
PN
505
12,621
18,456
3,024
,
74,865
,
106,661
,
小計
計
BCCWJ
Project Next NLP 形態素解析, 笹田 et 森
4
独自アノテ ション
独自アノテーション
• TWI: Twitter
– 単語分割
• RCP: レシピ (CookPad)
– 単語分割, レシピNE, 係り受け, フロ
単語分割 レシピNE 係り受け フローグラフ
グラフ, 読み?
読み?
• JNL: 論文抄録 (情処論?)
– 単語分割, 係り受け?
単 分割 係 受
• NPT: 発明開示書 (NTCIR翻訳)
(
)
– 単語分割
Project Next NLP 形態素解析, 笹田 et 森
5
主要諸元
Category
BCCWJ
#sent.
#word
#char.
Train
57,281
Test
3 024
3,024
74 865
74,865
106 661
106,661
Train
662
12,008
18,174
Test
62
1,139
1,786
小計
724
13,147
19,961
Train
322
12,263
20,332
Test
32
1,116
1,868
小計
354
,
13,379
22,200
,
Train
1,750
71,208
111,394
Test
250
10,497
16,409
小計
2 000
2,000
8 0
81,705
127,803
2 803
小計
Train
TWI
Test
小計
RCP
JNL
NPT
合計
Project Next NLP 形態素解析, 笹田 et 森
6
アノテ ション基準
アノテーション基準
例) 爆笑/名詞/名詞‐普通名詞‐サ変可能+/ばくしょう
例) 爆笑/名詞/名詞
普通名詞 サ変可能 /ばくしょう
1.
2.
3.
4.
• 単語/品詞大分類/品詞細分類/読み
1. 単語: 超短単位 (未知語に強い)
(
)
2. 品詞大分類: 21種類
3 品詞細分類: 品詞細分類+活用型
3.
品詞細分類 品詞細分類 活用型
例) 移/…/動詞‐一般+五段‐サ行/… ⇒ 移す (移る) 4. 読み: 仮名漢字変換の入力記号列 (≒ 発音)
– 仮名漢字変換、音声認識、音声合成
仮名漢字変換 音声認識 音声合成
Project Next NLP 形態素解析, 笹田 et 森
7
形態素解析
• 点予測 [LREC2010, Neubig, Mori]
[
b
]
– 柔軟な言語資源利用
• 部分的アノテーション
– 文の一部のみ, 単語分割のみ, …
• 複合語辞書
• オープンソース実装: KyTea
http://www.phontron.com/kytea/index‐ja.html
– グローバルモデルによる品詞推定
[ACL2011, Neubig, Nakata, Mori]
– 単漢字辞書による未知語の読み推定
[InterSpeech2011, Mori, Neubig]
Project Next NLP 形態素解析, 笹田 et 森
8
形態素解析実験
• 品詞(大分類)21種類
品詞(大分類) 種類
– <単語表記/品詞大分類>
• グローバルモデル(train‐kytea ‐global 1)
• 精度99.02
• (参考)自動単語分割+品詞推定: 97.49
• 品詞細分類
– <単語表記/品詞細分類+活用型>
• 精度96.72
– アップデート待ち (Neubig さん)
• 品詞大分類と品詞細分類タグ内の品詞大分類に
矛盾が出ないようにする
Project Next NLP 形態素解析, 笹田 et 森
9
誤り分析
• To Do
Project Next NLP 形態素解析, 笹田 et 森
10
参考文献
• [LREC2014, Mori, Ogura, Sasada]
– “A Japanese Word Dependency Corpus,” Shinsuke Mori, Hideki Ogura, Tetsuro Sasada, LREC, pp.753‐758, 2014.
• [InterSpeech2011, Mori, Neubig]
– “A Pointwise Approach to Pronunciation Estimation for a TTS Front‐end,” Shinsuke Mori, Graham Neubig, I
InterSpeech, 2011.
S
h 2011
• [LREC2010, Neubig, Mori]
– “Word‐based Partial Annotation for Efficient Corpus Construction,” Graham Neubig,Shinsuke Mori, LREC, 2010.
Project Next NLP 形態素解析, 笹田 et 森
11
• [ACL2011, Neubig, Nakata, Mori]
– “Pointwise Prediction for Robust, Adaptable Japanese Morphological Analysis,” Graham Neubig, Yosuke Nakata, Shinsuke Mori, ACL‐HLT, 2011.
Mori ACL HLT 2011
Project Next NLP 形態素解析, 笹田 et 森
12