プレゼンテーションのダウンロード

部分形態素解析を用いた
コーパスの品詞体系変換
奈良先端科学技術大学院大学
自然言語処理学講座
松田 寛
http://cl.aist-nara.ac.jp/
1999/11/25
NL研@北大
1
Contents
• 品詞体系変換とは
• 変換規則の抽出
• 部分形態素解析
• 実験 (京大 ⇒ RWC)
1999/11/25
NL研@北大
2
品詞体系変換
• 品詞タグ付きコーパスのタグを他の品詞体系の
もので置き換えるというタスク
• 日本語の場合は単語境界も品詞体系依存
• 形態素解析システム等による単純な再解析では,
変換元コーパスの情報を全く活かせない
• 変換元コーパスのタグ情報を利用した解析手法
の必要性
1999/11/25
NL研@北大
3
品詞体系変換の必要性
カバレッジの向上[田代]
話し言葉
ATRコーパス
書き言葉
EDRコーパス
品詞粒度の相違
単語認定基準の相違
1999/11/25
NL研@北大
4
書き言葉
EDRコーパス
変換規則
話し言葉
ATRコーパス
品詞の曖昧性
1:1 対応
1:多 対応
多:1 対応
多:多 対応
1999/11/25
NL研@北大
5
品詞体系変換を用いる場面
• 異なる品詞体系のコーパスを融合
• 独自の品詞体系を持つコーパス作成作業の補
助に,既存のコーパスの品詞体系を変換して学
習した形態素解析システムを用いる
• 異なる品詞体系の解析システムを組み合わせて
用いる場合に,解析結果を比較するため,標準
となる体系に変換する
1999/11/25
NL研@北大
6
本研究で用いる変換方法
助詞の変換規則を人手により抽出
変換元コーパスに変換規則を適用
未変換区間を部分形態素解析
結果の整形
1999/11/25
NL研@北大
7
変換規則の抽出
1999/11/25
NL研@北大
8
変換規則抽出の困難さ
• 語レベルの対応
• 品詞の曖昧性
• 形態素境界の曖昧性
• 膨大な規則数
• 規則の競合
1999/11/25
NL研@北大
9
人手による網羅的な抽出は不可能
• 先行研究[田代][乾]では学習コーパスを用いて
変換規則を自動抽出
• [植木]では変換規則の抽出は行っていない
• 本研究では抽出対象を助詞に限定し,人手によ
り変換規則を抽出
1999/11/25
NL研@北大
10
先行研究での変換規則抽出法 (1)
• 田代[1]
変換元・先両方のタグを持つ学習コーパス
を人手で作成,語レベルの変換規則を抽出
変換規則のカバレッジ不足
学習用コーパスに出現しない形態素につい
ては変換規則を品詞レベルに緩和して適用
1999/11/25
NL研@北大
11
先行研究での変換規則抽出法 (2)
• 乾[3]
変換元コーパスを文節単位で自動解析,
品詞レベルの変換規則を自動抽出
自動抽出のため誤変換・欠損が多い
人手による変換規則の洗練・追加が必要
1999/11/25
NL研@北大
12
本研究では
• 変換規則の抽出対象を助詞に限定
• 人手により語レベルの変換規則を抽出
1999/11/25
NL研@北大
13
助詞を用いる利点
• 品詞対応の曖昧性が比較的少ない
• 変換規則数は100件程度
• 出現頻度が高い
• 解析システムの誤り例が多い
• 文節境界の同定が可能
1999/11/25
NL研@北大
14
変換規則の抽出
• IPA品詞体系の全ての助詞について,京大コー
パス・RWCコーパスの両方で用例を検索
• RWCコーパス側の品詞が一意に対応可能な変
換規則のみを抽出
• 競合が発生する変換規則については不採用
• 一部の複合語について,変換規則の適用をキャ
ンセルするための無変換規則を設定
1999/11/25
NL研@北大
15
人手による変換規則の抽出
• 抽出された変換規則数
107件
• 抽出に要した時間
10時間
• 競合が生じた規則数
53件
• 利用可能な規則
54件
• 無変換規則数
33件
1999/11/25
NL研@北大
16
変換規則の適用順序
• 無変換規則
と + は + いえ
とはいえ
• 多:1 変換規則
• 1:1 変換規則
1999/11/25
NL研@北大
17
部分形態素解析
1999/11/25
NL研@北大
18
一部の区間のみを解析
• 変換規則が適用されない区間だけを形態素解析
• ビームサーチのコスト幅を大きくしても,所望の
形態素が得られるとは限らない
• 文を切断した解析では,変換規則で同定された
部分の情報を用いることができない
• 品詞が同定されている区間との品詞連接コスト
を考慮した最尤パス探索
1999/11/25
NL研@北大
19
切断が形態素解析に与える影響
• 品詞n-gramモデルでは文頭・文末に擬似的な形
態素が仮定され,特別な品詞が振られる
• 文を切断して形態素解析を行う場合,文頭・文末
との品詞連接コストが解析に悪影響を与える
1999/11/25
NL研@北大
20
1999/11/25
NL研@北大
21
1999/11/25
NL研@北大
22
部分形態素解析
• 文中の一部の語について品詞を指定
• MOZ[山下]ではタグによる形態素境界・品詞の
指定が可能
• コスト最小法を用いた解析システムであれば,形
態素情報をタグ化したエントリ(タグ化表現)を形
態素辞書に加えることで,部分的な品詞指定が
可能となる
1999/11/25
NL研@北大
23
タグ化表現とは
• 語を非常に長い表記に置き換えたもの
• タグ化表現を切断するパスのコストが高くなるよ
うな書式にする
1999/11/25
NL研@北大
24
文の部分タグ化
段取りについては若干意見の違いがある。
段取りについて<助詞.係助詞.は>若干意見の
違い<助詞.格助詞.一般.が>ある。
1999/11/25
NL研@北大
25
タグ化表現を用いた解析手順
• 変換先体系の解析システムの形態素辞書に,タ
グ化表現のエントリを追加
• 変換元コーパスの各文に変換規則を適用して,
文の表層文字列の一部をタグ化表現に置換
• 形態素解析を行う
• 解析結果中のタグ化表現を元の文字列に戻す
1999/11/25
NL研@北大
26
実験
1999/11/25
NL研@北大
27
実験タスク
• 変換元
京大コーパス(益岡・田窪文法)
• 変換先
RWCコーパス(IPA品詞体系)
• 形態素解析システム
茶筌 version 2.0b10 (IPA品詞体系)
• 変換規則
予稿集 表 1 に無変換規則を 20 件追加
1999/11/25
NL研@北大
28
実験結果
• 変換元コーパスの誤りを発見 (18件)
• 変換箇所の解析精度向上 (190件)
• 前件・後件への影響 (74件)
– 前件のみ
43 件
(誤り 6件)
– 後件のみ
29 件
(誤り 3件)
– 前後とも
2件
(誤り 0件)
1999/11/25
NL研@北大
29
結果の例
学芸員に求めたが断られた
新刊書は年に何万も発刊されるというのに、
1999/11/25
NL研@北大
30
まとめ
• コーパスの品詞体系変換を,語レベルの変換規
則と部分形態素解析を用いて行った
• 変換規則の抽出対象を助詞に制限し,人手によ
り変換規則の抽出を行った
• 変換規則の適用区間では解析精度が向上した
• 適用区間の前件・後件に対しても解析精度の向
上が見られた
1999/11/25
NL研@北大
31
今後の課題
• 他の品詞への適用
• 助動詞など活用語への対応
• 変換規則の曖昧性の展開
– すべての可能性を展開して部分形態素解析を
行い,全パス中で最もコストが低くなるものを
選択する
1999/11/25
NL研@北大
32
参考文献
• 田代敏久, 森本逞.形態素情報付きコーパスの再構築手
法. 情報処理学会論文誌, Vol.37, No.1, pp.13-22, 1 1996
• 植木正裕, 白井清昭, 徳永健伸, 田中穂積. 構造つきコー
パスの共有化に関する一考察. 情報処理学会研究報告
(98-NL-128)128-9, pp.61-66, 1998
• 乾健太郎, 乾 孝司, 脇川浩和. 品詞タグつきコーパスに
おける品詞体系の変換. 情報処理学会研究報告(99-NL132)132-12, pp.87-94, 1999
• 山下達雄. 形態素解析システムの機能分割と再利用を
目指して. 「言語資源の共有と再利用」シンポジウム,
http://cl.aist-nara.ac.jp/~tatuo-y/
1999/11/25
NL研@北大
33
GUIツール VisualMorphs
• JAVA Applet として実装
– Web-browser 上で実行可能, OSを選ばない
– スタンドアロン動作も可能
• MACDを通じて解析・保存を実行
– 解析エンジンを自由に選択
– データをSGML形式で保存
– Server/Clientによる集中管理
1999/11/25
NL研@北大
34
形態素解析エンジン
ChaSen
MOZ
JUMAN
組合せ自由な
形態素解析システム接続環境
VisualMorphs
KwicView
WebBrowser
GUI-Client ツール
形態素解析ドライバモデル MACD
35