部分形態素解析を用いた コーパスの品詞体系変換 奈良先端科学技術大学院大学 自然言語処理学講座 松田 寛 http://cl.aist-nara.ac.jp/ 1999/11/25 NL研@北大 1 Contents • 品詞体系変換とは • 変換規則の抽出 • 部分形態素解析 • 実験 (京大 ⇒ RWC) 1999/11/25 NL研@北大 2 品詞体系変換 • 品詞タグ付きコーパスのタグを他の品詞体系の もので置き換えるというタスク • 日本語の場合は単語境界も品詞体系依存 • 形態素解析システム等による単純な再解析では, 変換元コーパスの情報を全く活かせない • 変換元コーパスのタグ情報を利用した解析手法 の必要性 1999/11/25 NL研@北大 3 品詞体系変換の必要性 カバレッジの向上[田代] 話し言葉 ATRコーパス 書き言葉 EDRコーパス 品詞粒度の相違 単語認定基準の相違 1999/11/25 NL研@北大 4 書き言葉 EDRコーパス 変換規則 話し言葉 ATRコーパス 品詞の曖昧性 1:1 対応 1:多 対応 多:1 対応 多:多 対応 1999/11/25 NL研@北大 5 品詞体系変換を用いる場面 • 異なる品詞体系のコーパスを融合 • 独自の品詞体系を持つコーパス作成作業の補 助に,既存のコーパスの品詞体系を変換して学 習した形態素解析システムを用いる • 異なる品詞体系の解析システムを組み合わせて 用いる場合に,解析結果を比較するため,標準 となる体系に変換する 1999/11/25 NL研@北大 6 本研究で用いる変換方法 助詞の変換規則を人手により抽出 変換元コーパスに変換規則を適用 未変換区間を部分形態素解析 結果の整形 1999/11/25 NL研@北大 7 変換規則の抽出 1999/11/25 NL研@北大 8 変換規則抽出の困難さ • 語レベルの対応 • 品詞の曖昧性 • 形態素境界の曖昧性 • 膨大な規則数 • 規則の競合 1999/11/25 NL研@北大 9 人手による網羅的な抽出は不可能 • 先行研究[田代][乾]では学習コーパスを用いて 変換規則を自動抽出 • [植木]では変換規則の抽出は行っていない • 本研究では抽出対象を助詞に限定し,人手によ り変換規則を抽出 1999/11/25 NL研@北大 10 先行研究での変換規則抽出法 (1) • 田代[1] 変換元・先両方のタグを持つ学習コーパス を人手で作成,語レベルの変換規則を抽出 変換規則のカバレッジ不足 学習用コーパスに出現しない形態素につい ては変換規則を品詞レベルに緩和して適用 1999/11/25 NL研@北大 11 先行研究での変換規則抽出法 (2) • 乾[3] 変換元コーパスを文節単位で自動解析, 品詞レベルの変換規則を自動抽出 自動抽出のため誤変換・欠損が多い 人手による変換規則の洗練・追加が必要 1999/11/25 NL研@北大 12 本研究では • 変換規則の抽出対象を助詞に限定 • 人手により語レベルの変換規則を抽出 1999/11/25 NL研@北大 13 助詞を用いる利点 • 品詞対応の曖昧性が比較的少ない • 変換規則数は100件程度 • 出現頻度が高い • 解析システムの誤り例が多い • 文節境界の同定が可能 1999/11/25 NL研@北大 14 変換規則の抽出 • IPA品詞体系の全ての助詞について,京大コー パス・RWCコーパスの両方で用例を検索 • RWCコーパス側の品詞が一意に対応可能な変 換規則のみを抽出 • 競合が発生する変換規則については不採用 • 一部の複合語について,変換規則の適用をキャ ンセルするための無変換規則を設定 1999/11/25 NL研@北大 15 人手による変換規則の抽出 • 抽出された変換規則数 107件 • 抽出に要した時間 10時間 • 競合が生じた規則数 53件 • 利用可能な規則 54件 • 無変換規則数 33件 1999/11/25 NL研@北大 16 変換規則の適用順序 • 無変換規則 と + は + いえ とはいえ • 多:1 変換規則 • 1:1 変換規則 1999/11/25 NL研@北大 17 部分形態素解析 1999/11/25 NL研@北大 18 一部の区間のみを解析 • 変換規則が適用されない区間だけを形態素解析 • ビームサーチのコスト幅を大きくしても,所望の 形態素が得られるとは限らない • 文を切断した解析では,変換規則で同定された 部分の情報を用いることができない • 品詞が同定されている区間との品詞連接コスト を考慮した最尤パス探索 1999/11/25 NL研@北大 19 切断が形態素解析に与える影響 • 品詞n-gramモデルでは文頭・文末に擬似的な形 態素が仮定され,特別な品詞が振られる • 文を切断して形態素解析を行う場合,文頭・文末 との品詞連接コストが解析に悪影響を与える 1999/11/25 NL研@北大 20 1999/11/25 NL研@北大 21 1999/11/25 NL研@北大 22 部分形態素解析 • 文中の一部の語について品詞を指定 • MOZ[山下]ではタグによる形態素境界・品詞の 指定が可能 • コスト最小法を用いた解析システムであれば,形 態素情報をタグ化したエントリ(タグ化表現)を形 態素辞書に加えることで,部分的な品詞指定が 可能となる 1999/11/25 NL研@北大 23 タグ化表現とは • 語を非常に長い表記に置き換えたもの • タグ化表現を切断するパスのコストが高くなるよ うな書式にする 1999/11/25 NL研@北大 24 文の部分タグ化 段取りについては若干意見の違いがある。 段取りについて<助詞.係助詞.は>若干意見の 違い<助詞.格助詞.一般.が>ある。 1999/11/25 NL研@北大 25 タグ化表現を用いた解析手順 • 変換先体系の解析システムの形態素辞書に,タ グ化表現のエントリを追加 • 変換元コーパスの各文に変換規則を適用して, 文の表層文字列の一部をタグ化表現に置換 • 形態素解析を行う • 解析結果中のタグ化表現を元の文字列に戻す 1999/11/25 NL研@北大 26 実験 1999/11/25 NL研@北大 27 実験タスク • 変換元 京大コーパス(益岡・田窪文法) • 変換先 RWCコーパス(IPA品詞体系) • 形態素解析システム 茶筌 version 2.0b10 (IPA品詞体系) • 変換規則 予稿集 表 1 に無変換規則を 20 件追加 1999/11/25 NL研@北大 28 実験結果 • 変換元コーパスの誤りを発見 (18件) • 変換箇所の解析精度向上 (190件) • 前件・後件への影響 (74件) – 前件のみ 43 件 (誤り 6件) – 後件のみ 29 件 (誤り 3件) – 前後とも 2件 (誤り 0件) 1999/11/25 NL研@北大 29 結果の例 学芸員に求めたが断られた 新刊書は年に何万も発刊されるというのに、 1999/11/25 NL研@北大 30 まとめ • コーパスの品詞体系変換を,語レベルの変換規 則と部分形態素解析を用いて行った • 変換規則の抽出対象を助詞に制限し,人手によ り変換規則の抽出を行った • 変換規則の適用区間では解析精度が向上した • 適用区間の前件・後件に対しても解析精度の向 上が見られた 1999/11/25 NL研@北大 31 今後の課題 • 他の品詞への適用 • 助動詞など活用語への対応 • 変換規則の曖昧性の展開 – すべての可能性を展開して部分形態素解析を 行い,全パス中で最もコストが低くなるものを 選択する 1999/11/25 NL研@北大 32 参考文献 • 田代敏久, 森本逞.形態素情報付きコーパスの再構築手 法. 情報処理学会論文誌, Vol.37, No.1, pp.13-22, 1 1996 • 植木正裕, 白井清昭, 徳永健伸, 田中穂積. 構造つきコー パスの共有化に関する一考察. 情報処理学会研究報告 (98-NL-128)128-9, pp.61-66, 1998 • 乾健太郎, 乾 孝司, 脇川浩和. 品詞タグつきコーパスに おける品詞体系の変換. 情報処理学会研究報告(99-NL132)132-12, pp.87-94, 1999 • 山下達雄. 形態素解析システムの機能分割と再利用を 目指して. 「言語資源の共有と再利用」シンポジウム, http://cl.aist-nara.ac.jp/~tatuo-y/ 1999/11/25 NL研@北大 33 GUIツール VisualMorphs • JAVA Applet として実装 – Web-browser 上で実行可能, OSを選ばない – スタンドアロン動作も可能 • MACDを通じて解析・保存を実行 – 解析エンジンを自由に選択 – データをSGML形式で保存 – Server/Clientによる集中管理 1999/11/25 NL研@北大 34 形態素解析エンジン ChaSen MOZ JUMAN 組合せ自由な 形態素解析システム接続環境 VisualMorphs KwicView WebBrowser GUI-Client ツール 形態素解析ドライバモデル MACD 35
© Copyright 2024 ExpyDoc