プレゼンテーションのダウンロード

形態素解析ドライバモデルの実装と
形態素再解析を用いた品詞体系変換
奈良先端科学技術大学院大学
自然言語処理学講座
松田 寛
[email protected]
1999/10/22
合同研究会
1
形態素解析ドライバモデルの実装
1999/10/22
合同研究会
2
形態素解析エンジン
ChaSen
JUMAN
ALTJAWS
組合せ自由な
形態素解析システム接続環境
VisualMorphs
KwicView
WebBrowser
GUI-Client ツール
形態素解析ドライバモデル概念図
1999/10/22
合同研究会
3
実装に至る背景
• Weighted-majority, Committee-base等を異種シス
テム間で実現するための中間インターフェイス
Sentence
ChaSen #1 ChaSen #2
こ
れ
JUMAN
Comparison & Decision Making
Result
1999/10/22
合同研究会
4
その他にも
• 様々なOSから形態素解析システムを利用したい
• ViChaのようなGUIクライアントを様々な解析シス
テムに接続して使いたい
• コーパス作成過程全般をカバーする体系的なク
ラスライブラリが欲しい
• 素人でもインストールしてすぐに使えるGUIが欲
しい
1999/10/22
合同研究会
5
そして話はどんどん膨らんで...
コーパス作成支援統合環境
を作ることになりました。
1999/10/22
合同研究会
6
問題点の洗い出し
•
•
•
•
•
開発者側
ユーザ側
実験道具として実装
学術的側面を重視
移植コストが高い
品詞体系依存
解析システム間の互
換性
• UNIXシステムが障壁
• 解析の前後処理にプ
ログラミングが必要
• 辞書の再学習が困難
1999/10/22
合同研究会
7
形態素解析ドライバモデル
MACD (Morphological Analyzer Connectivity Driver model )
• データフォーマットの統一
• 各種解析システムの仕様を隠蔽
• 互換性の下に形態素データの蓄積・抽出・
変換・比較などを実現
• GUIツールと各種解析システムを接続
• 機能拡張をプラグインで実現
1999/10/22
合同研究会
8
主な仕様
• JavaTM (JDKTM1.1) で実装
• RMIを用いた Server/Client モデル
(スタンドアロン動作も可能)
• SGMLファイルフォーマット
• ChaSen2.0, MOZ, JUMAN3.61 に対応
• ALTJAWS, Breakfast等に対応予定
1999/10/22
合同研究会
9
形態素解析システム (ChaSen)
テキスト
解析結果
Server-Side
MACD-Model
Handler
SentenceClass
MorphClass
Server-side Interface
JavaLocal
RMIInterface
Object-Bus
Network
Client-side Interface
SentenceClass
MorphClass
Emulator
MACD準拠GUI-Client Tool
テキスト
解析結果
(VisualMorphs)
GUIツール (ViCha)
Client-Side
ライブラリ
•
•
•
•
•
•
•
形態素データクラス群
解析の実行と結果の受け取り
Latticeの分割・結合・単一化・Viterbi-search
コーパス編集用API
用例検索用クエリー言語
簡易SGMLパーサー
ユーザプロファイル管理
. . . . などなど
1999/10/22
合同研究会
11
MACDの応用例
こんなの作ってみました
1999/10/22
合同研究会
12
GUIツール VisualMorphs
• JAVA Applet として実装
– Web-browser 上で実行可能, OSを選ばない
– スタンドアロン動作も可能
• MACDを通じて解析・保存を実行
– 解析エンジンを自由に選択
– データをSGML形式で保存
– Server/Clientによる集中管理
1999/10/22
合同研究会
13
これからのモノ
• KWIC-Viewer
– コーパスから用例を検索・表示
• 統計学習ツール
– コーパスからn-gram統計を抽出
– 各種解析エンジン用の辞書を生成
• Weighted-majority Decision Engine
• 構文解析・修辞構造解析への拡張
1999/10/22
合同研究会
14
コーパスの品詞体系変換
1999/10/22
合同研究会
15
品詞体系変換における問題点
• 品詞(列)の変換ルールは一般に 多:多 となり,そ
れらを全て人手で記述することは非現実的
• 変換ルールを自動抽出する試みが行われている
が,人手によるルールのチェックが必要
• 変換先の品詞体系を持つシステムによる単純な
形態素再解析では,元コーパスの持つ情報は全
て無視される
1999/10/22
合同研究会
16
機能語タグを利用した再解析
• 機能語(助詞・助動詞)の変換ルールを予め人手
により記述する
• 変換先の品詞体系を持つ形態素解析エンジンの
辞書を,部分タグ付き文を解析できるように修正
• 変換元コーパスに機能語変換ルールを適用し,
変換箇所をタグ表記に書き換える
• 形態素再解析を行う
• 再解析結果からタグ表記を取り除く
1999/10/22
合同研究会
17
機能語を用いるメリット
• 体系による差異が小さい
• 曖昧性が少なく対応ルールを取りやすい
• 出現頻度が高い
• 文節境界の同定が可能
1999/10/22
合同研究会
18
タグ表記の辞書への追加
• 語を品詞情報を含む非常に長い表記に置換
• 通常表記と共に辞書登録
例:
から → <助詞.格助詞.一般.から>
ある →
<助動詞.ある.語幹><五段・ラ行アル.る.基本形.る>
あり →
<助動詞.ある.語幹><五段・ラ行アル.る.連用形.り>
1999/10/22
合同研究会
19
実験中のタスク
• 京大コーパス(益岡・田窪文法)をIPA品詞
体系に変換
• ChaSen2.0を使用
進捗:
– 変換ルールを人手により作成
– ChaSen辞書に品詞タグのエントリを追加
– 助詞のみを用いた予備実験を完了
1999/10/22
合同研究会
20
予備実験の結果
• 精度向上
– 未知語からの復帰
– 纏め上げルールによる過分割抑止
– 『に』の判定 (格助詞 / 副助詞)
• 変換ルールの誤りを発見
– ルール不備による過分割 (もの/の, で/も)
– 他の品詞への影響 (いくつ/か, できる/だけ)
1999/10/22
合同研究会
21
今後の課題
• 活用語への対応
• 品詞階層の中間レベルの展開
• 他の品詞への適用
1999/10/22
合同研究会
22
参考文献
• Sun Microsystems, Inc. JavaTM Development Kit ドキュメント JDKTM
1.2 (Manual). http://www.sun.com/, 1998
• 松本裕治, 北内啓, 山下達雄, 平野善隆. 日本語形態素解析システ
ム 『茶筌』 version 2.0 使用説明書. NAIST Technical Report, NAISTIS-TR99008
• 黒橋禎夫, 長尾真. 日本語形態素解析システム JUMAN version
3.61 (Manual). 京都大学大学院情報科学研究科, 1999-5,
http://pine.kuee.kyoto-u.ac.jp/
• 田代敏久, 森本逞.形態素情報付きコーパスの再構築手法. 情報処
理学会論文誌, Vol.37, No.1, pp.13-22, 1 1996
• 植木正裕, 白井清昭, 徳永健伸, 田中穂積. 構造つきコーパスの共有
化に関する一考察. 情報処理学会研究報告(98-NL-128)128-9,
pp.61-66, 1998
• 乾健太郎, 脇川浩和. 品詞タグつきコーパスにおける品詞体系の変
換. 情報処理学会研究報告(99-NL-132)132-12, pp.87-94, 1999
1999/10/22
合同研究会
23