重文・複文の基本文型に対する 文型パターン辞書のカバー率 平成15年度研究状況報告会 徳久雅人(鳥取大学) 1.はじめに • 日本語の重文・複文のパターン辞書の構築 – SEMコーパス (Semantically Equivalent Mapping)(コーパス) (パターン辞書) (15万文 → 22万パターン ) • パターンの詳細分析・強化・補充を今後実施 • パターン辞書を構成する重文・複文の把握 – 一般性 – 網羅性 – 使用頻度 これらの調査が本稿の目的 2.重文・複文の基本的な構造 • 重文・複文の基本的な構造=益岡田窪分類 [基礎日本語文法(益岡・田窪1989)] 1.補足節 :主節の格要素 例) 漢字を覚えることは難しい 2.副詞節 :主節を修飾 例) 雨にならないうちに家に帰ろう 3.名詞修飾節:主節を構成する名詞を修飾 例) 魚が焼けるにおいがする 4.並列節 :主節と対等 例) 花子が詞を作って、太郎が作曲した 従属節の分類(一部) 補足節 形式名詞 コト型 可能,反復,経験,決定 ノ型 強調 トコロ型 疑問表現 真偽疑問,疑問語疑問 引用 直接引用,間接引用 --- 従属節のパターン化 従属節を抽出するためのパターン知識 • 副詞節 – 同時 /CL1(時|際)[に]/ 私が16だった時、彼女は7つだった – 原因 /CL1.te/ お腹が減って、口もきけなかった • 名詞修飾節 – 内容 / CL1^rentaiNP2/ 魚を焼くにおい ほか,合計97パターン 従属節パターン作成の問題点 • 従属節の様相表現の吸収 • 従属節の範囲を正しく抽出 • ダ文を正しく判定 (ダ文の判定例) 彼が留学生であれば許可する。 彼が留学生なら許可する。 ⇒ パターン定義で解決 局所的に構文情報を使う 3.従属節の抽出実験 • 実験条件 – SEMコーパスの日本語文 126,203文を対象 – 2章で作成した97個の従属節パターンを照合 ただし,ダ文判定に「の」型,「に」型,「で」型は不使用 マッチした例 (文1) 僕は子供の頃サンタクロースは本当に 北極から来るものだと固く信じていた。 (適合1-1) /CL1と[、]/cl (適合1-2) /CL1と[、]/ 《副詞節・条件》 《補足節・間接引用》 (文3) 車を止めてエンジンを切りなさい。 (適合3-1) /CL1.te/cl 《副詞節・因果》 (適合3-2) /CL1^genzai.te/cl 《副詞節・付帯状況》 (適合3-3) /CLV1^genzai.te/cl 《並列節・総記》 マッチしなかった例 (文4) そのようなことをするには狡猾さが 必要だ。 – 「節+には」パターンが益岡田窪分類に無し (文5) 運が尽きてからでは遅い。 – 「てから」が1つの形態素として解析 (文6) ドイツ人と日本人観光客が同じくらい目 立っていた。 – 単文 抽出実験の結果 • 従属節パターンの適合した文: 122,264文 非適合の文 : 3,939文 • 解釈の正解率: 適合,非適合の事例より各50個を検査 – 適合事例: 正しい解釈を含むならば正解 – 非適合事例: 新しい従属節パターンが必要: 従属節パターンのマッチに失敗: 単文とみなすほうが妥当: 100% 38% 32% 30% 4.カバー率 • 一般性 〈適合事例数〉 〈含有正解率〉 122,264100 96.9(%) 〈総文数〉 126,203 • 網羅性 〈適合した従属節パタ ーンの種類数〉 96 100 100 99.0(%) 〈全ての従属節パター ン種類数〉 97 • SEMコーパスは基本的な表現で作られた文 • 基本的な表現の種類を網羅 従属節の出現頻度(上位9位) 順位 パターン概形 1 CL^rentaiN 2 CL^rentaiN 3 CLて~ 4 5 6 7 8 9 CL^genzaiて~ CLV^genzaiて~ CL^rentai(こと|の) CLと CLと~ CL^renyou 簡易解釈 修飾 内容 原因 頻度 41,554 41,554 29,194 総記 付帯状況 内容 引用 条件 28,989 27,474 23,995 19,936 16,235 総記 15,812 従属節の出現頻度 45000 40000 35000 30000 25000 20000 15000 10000 5000 10位まで = 全体の 7 割 91 96 56 61 66 71 76 81 86 16 21 26 31 36 41 46 51 1 6 11 0 従属節の出現頻度(下位10位) 順位 パターン概形 簡易解釈 89 CL^genzaiた程 程度 90 CL^genzaiたとすると~ 仮想的 91 CLの(は|が)NP Jだ 強調 頻度 19 14 11 92 93 94 95 96 CL(一方|反面)~ CLくせに~ CL^genzai割に~ CL^genzaiたくらい~ CLかというのJ 対比 非難 程度違い 例示 内容節 9 9 6 2 1 97 CL^genzaiた割に~ 程度違い 0 大分類ごとの頻度 大分類名 補足節 副詞節 名詞修飾節 並列節 出現割合 15.6% 35.4% 32.4% 16.6% 出現回数 53,744 122,216 111,635 57,386 副詞節のバリエーションは多い(61種) 副詞節全体でみると無視できない 同形異義パターンの分布 各20サンプルの検査 パターン 解 釈 連体節+名詞 《修飾節》 5 《内容節》 9 節+て 《原因》 14 《総記》 1 節+と 《引用》 6 《条件》 3 その他 11 仮定節+ば 《条件》 15 《累加》 3 その他 2 連用節+ながら 《付帯状況》 18 《逆接》 0 その他 2 ◎ 解釈の詳細分析が,今後必要 その他 6 《付帯状況》 2 その他 3 5.おわりに • まとめ – 基本的な従属節の構造(益岡田窪分類)をパターン化 • 基礎日本語文法に基づく 97 パターン – SEMコーパスとパターン照合で従属節を検査 • 一般性 = 97 %,網羅性 = 99 % コーパスは,重文・複文の基本文型をカバー • 従属節の出現頻度より 「連体修飾節」,「テ型節」,「ト型節」 は重要 ⇒ 重点改良の対象 ※ 副詞節は要注意 • 今後の課題 – 従属節の解釈の解析(方法の開発)が課題
© Copyright 2024 ExpyDoc