『形態素解析ドライバモデル』の実装とコーパスの品詞体系変換

形態素解析ドライバモデルの実装と
コーパスの品詞体系変換への応用
奈良先端科学技術大学院大学
自然言語処理学講座
9851103 松田 寛
[email protected]
1999/10/04
Seminar II
1
Contents
• 目的
• 形態素解析ドライバモデルの実装
• コーパス作成支援ツールの実装
• コーパスの品詞体系変換
• 今後の課題
1999/10/04
Seminar II
2
目的
• 形態素解析エンジンの入出力に標準仕様を定め
てシステム間の互換性を確保し接続性を向上
• 汎用性の高いコーパス作成支援ツールを実装して
コーパス構築の作業性を向上
• 品詞体系変換機能を実装してコーパスの再利用
性を向上
1999/10/04
Seminar II
3
形態素解析ドライバモデルの実装
~ 互換性の確保と接続性の向上 ~
1999/10/04
Seminar II
4
形態素解析とは?
日本語のように分かち書きされていない文から
単語(形態素)を切り出すプロセス
例: 「山椒魚は悲しんだ」
の形態素解析結果
表層語 基本形
山椒魚
読み
発音
品詞
山椒魚 サンショウウオ サンショーウオ 名詞-一般
は
は
ハ
ワ
悲しん
悲しむ
カナシン
カナシン
だ
だ
ダ
ダ
1999/10/04
Seminar II
助詞-係助詞
活用
*
*
動詞-自立 五段・マ行-連用タ接続
助動詞
特殊・タ-基本形
5
形態素解析ドライバモデル
MACD (Morphological Analyzer Connectivity Driver model )
• 統一されたデータフォーマットを提供
• 各種解析システムの仕様を隠蔽
• 互換性の下に形態素データの蓄積・抽出・
変換・比較などを実現
• GUIツールと各種解析システムを接続
• 機能拡張をプラグインで実現
1999/10/04
Seminar II
6
形態素解析エンジン
ChaSen
JUMAN
ALTJAWS
組合せ自由な
形態素解析システム接続環境
VisualMorphs
KwicView
WebBrowser
GUI-Client ツール
MACDイメージ図
1999/10/04
Seminar II
7
MACDの実装
• 仕様
– JavaTM(JDKTM1.1)を採用
– RMIを用いた Server/Client モデル
– テキストフォーマットにSGMLを採用
• 進捗
– 形態素解析レベルの実装を完了
– ChaSen, MOZ, JUMAN への接続が可能
– 構文解析・修辞構造解析への拡張を考案中
1999/10/04
Seminar II
8
形態素解析システム (ChaSen)
テキスト
解析結果
Server-Side
MACD-Model
Handler
SentenceClass
MorphClass
Server-side Interface
JavaLocal
RMIInterface
Object-Bus
Network
Client-side Interface
SentenceClass
MorphClass
Emulator
MACD準拠GUI-Client Tool
テキスト
解析結果
(VisualMorphs)
GUIツール (ViCha)
Client-Side
コーパス作成支援ツールの実装
~ コーパス構築の作業性向上 ~
1999/10/04
Seminar II
10
品詞タグつきコーパスとは?
• 新聞記事などの生テキストに,形態素情報や構
文情報などを人手により付与したもの
• 統計モデルの学習データとして非常に重要
• 大規模日本語コーパスも既にいくつか存在
• しかし品詞体系や判定基準の相違などの理由で
再利用が困難なことが多い
• 汎用的なコーパス作成支援ツールは存在してい
ない
1999/10/04
Seminar II
11
GUIツール VisualMorphs の実装
• JAVA Applet として実装
– Web-browser 上で実行可能
• MACDを通じて解析・保存を実行
– 複数作業者が同一ファイルを対象に作業可能
– ユーザープロファイルをサーバで一元管理
– スタンドアロンでの動作も可能
• データをSGML形式で保存
1999/10/04
Seminar II
12
コーパスの品詞体系変換
~ コーパスの再利用性向上 ~
1999/10/04
Seminar II
13
品詞体系変換における問題点
• 形態素(列)の変換ルールは一般に 多:多 となり,
それらを全て人手で記述することは不可能
• 変換ルールを自動抽出する試みが行われている
が,人手によるルールのチェックが必要
• 変換先の品詞体系を持つシステムによる単純な
形態素再解析では,元コーパスの持つ情報は全
て無視される
1999/10/04
Seminar II
14
本研究で用いる手法
• 形態素解析エンジンの辞書を,品詞タグ付き文
を解析できるように修正
• 機能語(助詞・助動詞)について変換ルールの記
述を予め人手により行う
• 元コーパスに変換ルールを適用し,変換箇所を
タグ形式に書き換えてから形態素再解析を行う
• 再解析結果からタグを取り除く
1999/10/04
Seminar II
15
実験中のタスク
• ChaSen2.0b8を使用
• 京大コーパス(益岡・田窪文法)をIPA品詞
体系に変換
• 進捗
– 助詞・助動詞の変換ルールを人手により作成
– ChaSen辞書に品詞タグのエントリを追加
– 助詞のみを用いた予備実験は成功
1999/10/04
Seminar II
16
今後の課題
• 品詞体系変換の完全な実装
• 複数の形態素解析エンジンを用いた
Weighted-majority-base システムの構築
• MACDを構文解析・修辞構造解析へ拡張
1999/10/04
Seminar II
17
参考文献
• Sun Microsystems, Inc. JavaTM Development Kit ドキュメント JDKTM
1.2 (Manual). http://www.sun.com/, 1998
• 松本裕治, 北内啓, 山下達雄, 平野善隆. 日本語形態素解析システ
ム 『茶筌』 version 2.0 使用説明書. NAIST Technical Report, NAISTIS-TR99008
• 黒橋禎夫, 長尾真. 日本語形態素解析システム JUMAN version
3.61 (Manual). 京都大学大学院情報科学研究科, 1999-5,
http://pine.kuee.kyoto-u.ac.jp/
• 田代敏久, 森本逞.形態素情報付きコーパスの再構築手法. 情報処
理学会論文誌, Vol.37, No.1, pp.13-22, 1 1996
• 植木正裕, 白井清昭, 徳永健伸, 田中穂積. 構造つきコーパスの共有
化に関する一考察. 情報処理学会研究報告(98-NL-128)128-9,
pp.61-66, 1998
• 乾健太郎, 脇川浩和. 品詞タグつきコーパスにおける品詞体系の変
換. 情報処理学会研究報告(99-NL-132)132-12, pp.87-94, 1999
1999/10/04
Seminar II
18
参考 : タグ表現とは?
• 語を非常に長い表記に置き換えたもの
• すべての形態素情報を備えている
• タグ表現の例
非活用語 (助詞)
から → <助詞.格助詞.一般.から>
活用語 (助動詞)
ある → <助動詞.ある.語幹><五段・ラ行アル.る.基本形.る>
あり → <助動詞.ある.語幹><五段・ラ行アル.る.連用形.り>
1999/10/04
Seminar II
19