形態素解析ドライバモデルの実装と 形態素再解析を用いた品詞体系変換 奈良先端科学技術大学院大学 自然言語処理学講座 松田 寛 [email protected] 1999/10/22 合同研究会 1 形態素解析ドライバモデルの実装 1999/10/22 合同研究会 2 形態素解析エンジン ChaSen JUMAN ALTJAWS 組合せ自由な 形態素解析システム接続環境 VisualMorphs KwicView WebBrowser GUI-Client ツール 形態素解析ドライバモデル概念図 1999/10/22 合同研究会 3 実装に至る背景 • Weighted-majority, Committee-base等を異種シス テム間で実現するための中間インターフェイス Sentence ChaSen #1 ChaSen #2 こ れ JUMAN Comparison & Decision Making Result 1999/10/22 合同研究会 4 その他にも • 様々なOSから形態素解析システムを利用したい • ViChaのようなGUIクライアントを様々な解析シス テムに接続して使いたい • コーパス作成過程全般をカバーする体系的なク ラスライブラリが欲しい • 素人でもインストールしてすぐに使えるGUIが欲 しい 1999/10/22 合同研究会 5 そして話はどんどん膨らんで... コーパス作成支援統合環境 を作ることになりました。 1999/10/22 合同研究会 6 問題点の洗い出し • • • • • 開発者側 ユーザ側 実験道具として実装 学術的側面を重視 移植コストが高い 品詞体系依存 解析システム間の互 換性 • UNIXシステムが障壁 • 解析の前後処理にプ ログラミングが必要 • 辞書の再学習が困難 1999/10/22 合同研究会 7 形態素解析ドライバモデル MACD (Morphological Analyzer Connectivity Driver model ) • データフォーマットの統一 • 各種解析システムの仕様を隠蔽 • 互換性の下に形態素データの蓄積・抽出・ 変換・比較などを実現 • GUIツールと各種解析システムを接続 • 機能拡張をプラグインで実現 1999/10/22 合同研究会 8 主な仕様 • JavaTM (JDKTM1.1) で実装 • RMIを用いた Server/Client モデル (スタンドアロン動作も可能) • SGMLファイルフォーマット • ChaSen2.0, MOZ, JUMAN3.61 に対応 • ALTJAWS, Breakfast等に対応予定 1999/10/22 合同研究会 9 形態素解析システム (ChaSen) テキスト 解析結果 Server-Side MACD-Model Handler SentenceClass MorphClass Server-side Interface JavaLocal RMIInterface Object-Bus Network Client-side Interface SentenceClass MorphClass Emulator MACD準拠GUI-Client Tool テキスト 解析結果 (VisualMorphs) GUIツール (ViCha) Client-Side ライブラリ • • • • • • • 形態素データクラス群 解析の実行と結果の受け取り Latticeの分割・結合・単一化・Viterbi-search コーパス編集用API 用例検索用クエリー言語 簡易SGMLパーサー ユーザプロファイル管理 . . . . などなど 1999/10/22 合同研究会 11 MACDの応用例 こんなの作ってみました 1999/10/22 合同研究会 12 GUIツール VisualMorphs • JAVA Applet として実装 – Web-browser 上で実行可能, OSを選ばない – スタンドアロン動作も可能 • MACDを通じて解析・保存を実行 – 解析エンジンを自由に選択 – データをSGML形式で保存 – Server/Clientによる集中管理 1999/10/22 合同研究会 13 これからのモノ • KWIC-Viewer – コーパスから用例を検索・表示 • 統計学習ツール – コーパスからn-gram統計を抽出 – 各種解析エンジン用の辞書を生成 • Weighted-majority Decision Engine • 構文解析・修辞構造解析への拡張 1999/10/22 合同研究会 14 コーパスの品詞体系変換 1999/10/22 合同研究会 15 品詞体系変換における問題点 • 品詞(列)の変換ルールは一般に 多:多 となり,そ れらを全て人手で記述することは非現実的 • 変換ルールを自動抽出する試みが行われている が,人手によるルールのチェックが必要 • 変換先の品詞体系を持つシステムによる単純な 形態素再解析では,元コーパスの持つ情報は全 て無視される 1999/10/22 合同研究会 16 機能語タグを利用した再解析 • 機能語(助詞・助動詞)の変換ルールを予め人手 により記述する • 変換先の品詞体系を持つ形態素解析エンジンの 辞書を,部分タグ付き文を解析できるように修正 • 変換元コーパスに機能語変換ルールを適用し, 変換箇所をタグ表記に書き換える • 形態素再解析を行う • 再解析結果からタグ表記を取り除く 1999/10/22 合同研究会 17 機能語を用いるメリット • 体系による差異が小さい • 曖昧性が少なく対応ルールを取りやすい • 出現頻度が高い • 文節境界の同定が可能 1999/10/22 合同研究会 18 タグ表記の辞書への追加 • 語を品詞情報を含む非常に長い表記に置換 • 通常表記と共に辞書登録 例: から → <助詞.格助詞.一般.から> ある → <助動詞.ある.語幹><五段・ラ行アル.る.基本形.る> あり → <助動詞.ある.語幹><五段・ラ行アル.る.連用形.り> 1999/10/22 合同研究会 19 実験中のタスク • 京大コーパス(益岡・田窪文法)をIPA品詞 体系に変換 • ChaSen2.0を使用 進捗: – 変換ルールを人手により作成 – ChaSen辞書に品詞タグのエントリを追加 – 助詞のみを用いた予備実験を完了 1999/10/22 合同研究会 20 予備実験の結果 • 精度向上 – 未知語からの復帰 – 纏め上げルールによる過分割抑止 – 『に』の判定 (格助詞 / 副助詞) • 変換ルールの誤りを発見 – ルール不備による過分割 (もの/の, で/も) – 他の品詞への影響 (いくつ/か, できる/だけ) 1999/10/22 合同研究会 21 今後の課題 • 活用語への対応 • 品詞階層の中間レベルの展開 • 他の品詞への適用 1999/10/22 合同研究会 22 参考文献 • Sun Microsystems, Inc. JavaTM Development Kit ドキュメント JDKTM 1.2 (Manual). http://www.sun.com/, 1998 • 松本裕治, 北内啓, 山下達雄, 平野善隆. 日本語形態素解析システ ム 『茶筌』 version 2.0 使用説明書. NAIST Technical Report, NAISTIS-TR99008 • 黒橋禎夫, 長尾真. 日本語形態素解析システム JUMAN version 3.61 (Manual). 京都大学大学院情報科学研究科, 1999-5, http://pine.kuee.kyoto-u.ac.jp/ • 田代敏久, 森本逞.形態素情報付きコーパスの再構築手法. 情報処 理学会論文誌, Vol.37, No.1, pp.13-22, 1 1996 • 植木正裕, 白井清昭, 徳永健伸, 田中穂積. 構造つきコーパスの共有 化に関する一考察. 情報処理学会研究報告(98-NL-128)128-9, pp.61-66, 1998 • 乾健太郎, 脇川浩和. 品詞タグつきコーパスにおける品詞体系の変 換. 情報処理学会研究報告(99-NL-132)132-12, pp.87-94, 1999 1999/10/22 合同研究会 23
© Copyright 2025 ExpyDoc