形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用 奈良先端科学技術大学院大学 自然言語処理学講座 9851103 松田 寛 [email protected] 1999/10/04 Seminar II 1 Contents • 目的 • 形態素解析ドライバモデルの実装 • コーパス作成支援ツールの実装 • コーパスの品詞体系変換 • 今後の課題 1999/10/04 Seminar II 2 目的 • 形態素解析エンジンの入出力に標準仕様を定め てシステム間の互換性を確保し接続性を向上 • 汎用性の高いコーパス作成支援ツールを実装して コーパス構築の作業性を向上 • 品詞体系変換機能を実装してコーパスの再利用 性を向上 1999/10/04 Seminar II 3 形態素解析ドライバモデルの実装 ~ 互換性の確保と接続性の向上 ~ 1999/10/04 Seminar II 4 形態素解析とは? 日本語のように分かち書きされていない文から 単語(形態素)を切り出すプロセス 例: 「山椒魚は悲しんだ」 の形態素解析結果 表層語 基本形 山椒魚 読み 発音 品詞 山椒魚 サンショウウオ サンショーウオ 名詞-一般 は は ハ ワ 悲しん 悲しむ カナシン カナシン だ だ ダ ダ 1999/10/04 Seminar II 助詞-係助詞 活用 * * 動詞-自立 五段・マ行-連用タ接続 助動詞 特殊・タ-基本形 5 形態素解析ドライバモデル MACD (Morphological Analyzer Connectivity Driver model ) • 統一されたデータフォーマットを提供 • 各種解析システムの仕様を隠蔽 • 互換性の下に形態素データの蓄積・抽出・ 変換・比較などを実現 • GUIツールと各種解析システムを接続 • 機能拡張をプラグインで実現 1999/10/04 Seminar II 6 形態素解析エンジン ChaSen JUMAN ALTJAWS 組合せ自由な 形態素解析システム接続環境 VisualMorphs KwicView WebBrowser GUI-Client ツール MACDイメージ図 1999/10/04 Seminar II 7 MACDの実装 • 仕様 – JavaTM(JDKTM1.1)を採用 – RMIを用いた Server/Client モデル – テキストフォーマットにSGMLを採用 • 進捗 – 形態素解析レベルの実装を完了 – ChaSen, MOZ, JUMAN への接続が可能 – 構文解析・修辞構造解析への拡張を考案中 1999/10/04 Seminar II 8 形態素解析システム (ChaSen) テキスト 解析結果 Server-Side MACD-Model Handler SentenceClass MorphClass Server-side Interface JavaLocal RMIInterface Object-Bus Network Client-side Interface SentenceClass MorphClass Emulator MACD準拠GUI-Client Tool テキスト 解析結果 (VisualMorphs) GUIツール (ViCha) Client-Side コーパス作成支援ツールの実装 ~ コーパス構築の作業性向上 ~ 1999/10/04 Seminar II 10 品詞タグつきコーパスとは? • 新聞記事などの生テキストに,形態素情報や構 文情報などを人手により付与したもの • 統計モデルの学習データとして非常に重要 • 大規模日本語コーパスも既にいくつか存在 • しかし品詞体系や判定基準の相違などの理由で 再利用が困難なことが多い • 汎用的なコーパス作成支援ツールは存在してい ない 1999/10/04 Seminar II 11 GUIツール VisualMorphs の実装 • JAVA Applet として実装 – Web-browser 上で実行可能 • MACDを通じて解析・保存を実行 – 複数作業者が同一ファイルを対象に作業可能 – ユーザープロファイルをサーバで一元管理 – スタンドアロンでの動作も可能 • データをSGML形式で保存 1999/10/04 Seminar II 12 コーパスの品詞体系変換 ~ コーパスの再利用性向上 ~ 1999/10/04 Seminar II 13 品詞体系変換における問題点 • 形態素(列)の変換ルールは一般に 多:多 となり, それらを全て人手で記述することは不可能 • 変換ルールを自動抽出する試みが行われている が,人手によるルールのチェックが必要 • 変換先の品詞体系を持つシステムによる単純な 形態素再解析では,元コーパスの持つ情報は全 て無視される 1999/10/04 Seminar II 14 本研究で用いる手法 • 形態素解析エンジンの辞書を,品詞タグ付き文 を解析できるように修正 • 機能語(助詞・助動詞)について変換ルールの記 述を予め人手により行う • 元コーパスに変換ルールを適用し,変換箇所を タグ形式に書き換えてから形態素再解析を行う • 再解析結果からタグを取り除く 1999/10/04 Seminar II 15 実験中のタスク • ChaSen2.0b8を使用 • 京大コーパス(益岡・田窪文法)をIPA品詞 体系に変換 • 進捗 – 助詞・助動詞の変換ルールを人手により作成 – ChaSen辞書に品詞タグのエントリを追加 – 助詞のみを用いた予備実験は成功 1999/10/04 Seminar II 16 今後の課題 • 品詞体系変換の完全な実装 • 複数の形態素解析エンジンを用いた Weighted-majority-base システムの構築 • MACDを構文解析・修辞構造解析へ拡張 1999/10/04 Seminar II 17 参考文献 • Sun Microsystems, Inc. JavaTM Development Kit ドキュメント JDKTM 1.2 (Manual). http://www.sun.com/, 1998 • 松本裕治, 北内啓, 山下達雄, 平野善隆. 日本語形態素解析システ ム 『茶筌』 version 2.0 使用説明書. NAIST Technical Report, NAISTIS-TR99008 • 黒橋禎夫, 長尾真. 日本語形態素解析システム JUMAN version 3.61 (Manual). 京都大学大学院情報科学研究科, 1999-5, http://pine.kuee.kyoto-u.ac.jp/ • 田代敏久, 森本逞.形態素情報付きコーパスの再構築手法. 情報処 理学会論文誌, Vol.37, No.1, pp.13-22, 1 1996 • 植木正裕, 白井清昭, 徳永健伸, 田中穂積. 構造つきコーパスの共有 化に関する一考察. 情報処理学会研究報告(98-NL-128)128-9, pp.61-66, 1998 • 乾健太郎, 脇川浩和. 品詞タグつきコーパスにおける品詞体系の変 換. 情報処理学会研究報告(99-NL-132)132-12, pp.87-94, 1999 1999/10/04 Seminar II 18 参考 : タグ表現とは? • 語を非常に長い表記に置き換えたもの • すべての形態素情報を備えている • タグ表現の例 非活用語 (助詞) から → <助詞.格助詞.一般.から> 活用語 (助動詞) ある → <助動詞.ある.語幹><五段・ラ行アル.る.基本形.る> あり → <助動詞.ある.語幹><五段・ラ行アル.る.連用形.り> 1999/10/04 Seminar II 19
© Copyright 2024 ExpyDoc