Webコーパスを活用した レベル別例文検索システム の開発と評価 川村よし子 東京国際大学 クリスティナ・ヒメリャク・寒川 ルブリャナ大学(スロヴェニア) 共同研究者:トマジュ・エリャヴェッツ ヨセフ・ステファン研究所 Webコーパスを活用した レベル別例文検索システムの開発と評価 ► はじめに ► 1.Webコーパスを活用した レベル別例文検索システムの開発 ► 2.レベル別例文検索システムの仕組み ► 3.レベル別例文検索システムの評価 はじめに ► 言語教育において、学習者のレベルにあった例文の 提示は不可欠である。 ► 例文はできるだけ自然な日本語で書かれていること が望ましい 。 ► 従来の辞書 『外国人のための基本語用例辞典』 『基礎日本語学習辞典』 『例解新国語辞典』 作例が多く、品詞分類への配慮も十分ではない ► チュウ太の日本語辞書多言語化プロジェクト 1)異なった文化圏の学習者への配慮 2)品詞分類の異なる言語への配慮 3)用法についての言及 4)接尾辞的用法への配慮 5)collocation・連語・慣用句等への言及 6)概念ごとに例文を提示 ⇒学習者のレベルにあった「自然な日本語の例文」を意 味概念ごとに作成するのは容易ではない ⇒web上の電子情報を活用したレベル別例文検索シス テムを開発 する 1.Webコーパスを活用した レベル別例文検索システムの開発 ► 5万の日本語のウェブページから構築した4億語の コーパス「JpWaC」 ► 形態素解析システムChaSenでコーパスの解析 ⇒ 1億語の学習者用コーパスを作成 ► 各例文への情報付与 ・コーパス中の各単語に、「出題基準」)をもとにした 4級(Level 4)~1級(Level 1)のレベル付け ・級外のものはLevel 0 ・各文に単語数、レベル別単語数、比率の情報付与 1.Webコーパスを活用した レベル別例文検索システムの開発 ► 日本語学習者用例文 の抽出 1)一文の長さが5語以上25語以下のこと 2)20%以上の記号や数字を含まないこと 3)日本語以外の表記を含まないこと 4)句点(。)で終わっていること 5)少なくとも一つの動詞、形容詞、形容動詞、 あるいは助動詞を含むこと ⇒ 学習者用例文コーパス(「JpWac-L2」) 859,416文(単語総数13,395,667語) 1.Webコーパスを活用した レベル別例文検索システムの開発 ► レベル別コーパス作成 1)各レベルの例文には当該レベルより上の語句を含 まないこと 2)各レベルの例文には当該レベルの語を10%以上含 むこと ⇒ Level 0 から Level 4 までの5段階の レベル別例文コーパス レベル別コーパスに含まれる 例文数 レベル別コーパス Level 0 Level 1 Level 2 Level 3 Level 4 計 例文数 351,935 34,777 96,161 26,894 9,830 519,597 JpWac-L2に占め る割合(%) 40.95 4.05 11.19 3.13 1.14 60.45 2.レベル別例文検索システムの仕組み ► 入力された語句を含む例文を自動で検索する キーワード検索システム ► インターネット上で利用可能 (http://nl.ijs.si/jaslo/cqp/index.html) ► 検索方法や表示形式に関して細かく設定可能 ► 例文コーパス全体からの例文検索 選択可能 レベル別コーパスからの例文検索 Basic Proficiency Subcorpus (Level 3) 力 慣れる 3.レベル別例文検索システムの評価 ► 1)十分な量の例文が提供できているか ► 2)文として整っているか ► 3)意味が通じるか ► 4)例文として適切か ► 5)レベルにあっているか 1)十分な量の例文が提供できているか 各調査語に対するレベルごとの例文数 )十分な量の例文が提供できているか 2)文として整っているか ► 例文抽出条件 5) ◎ 「少なくとも一つの動詞、形容詞、形容動詞、 あるいは助動詞を含むこと」 ⇒ 体言止めの文を含む ○ 「動詞、形容詞、形容動詞、或いは助動詞 で終わっていること」 ⇒ 文のみを抽出 2)文として整っているか ► 単語の「切り出し」の誤り 例: 割りに / 割に / わりに 自分を必要以上に良く見せようとしないかわり に、お世辞やおべっかを使うのが苦手です。 ► 単漢字の場合 対応:2)文として整っているか ► きちんとした文になっているか 例文抽出条件 5) ◎ 「少なくとも一つの動詞、形容詞、形容動詞、 あるいは助動詞を含むこと」 ⇒ 体言止めの文を含む ○ 「動詞、形容詞、形容動詞、或いは助動詞 で終わっていること」 ⇒ 文のみを抽出 対応:2)文として整っているか ► 例文として適格か 問題点 1 単語の切り出しの誤り 例:自分を必要以上に良く見せようとしないかわりに、 お世辞やおべっかを使うのが苦手です。 ☆ ChaSen辞書情報の変更によって修正は可能 問題点 2 同じ表記で読みが複数ある単語 例:表 [おもて・ひょう] 入れる [はいれる・いれる] ☆ 形態素解析のみでの区別は不可能 3)意味が通じるか ► そう政治力である。 ► 寂しいやつだの。 4)例文として適切か ► 誤字脱字のある文 ・しかし扉の前の男はその唾またって、ドアをふさいで いる。 (ミスタイプの可能性) ・人の話聞く注意力がない。 (助詞の脱落) ・このように、この国の高層階は解釈している。 (母語干渉?による誤り) 対応:4)例文として適切か ► 誤字脱字のある文 ► 言語教育には適さない文章 ► 反社会的な文章 ⇒ 例文の修正・削除の方法を要検討 ただし。。。 5)レベルにあっているか ► 単語レベルでみる限り学習者のレベルにあった 例文をほぼ全てのレベルで提示可能 例外:再来年 (全体で18文のみ) Level 0 3文 Level 2 1文 Level 3 1文 ► Level 4 でも有用な例文を提示可能 ・人の話は右耳で聞け。 ・一日3回、歯を磨く人にも悪い人はいない。 人の話は右耳で聞け。 5)レベルにあっているか ► 単語レベルでみる限り学習者のレベルにあった 例文をほぼ全てのレベルで提示可能 例外:再来年 (全体で18文のみ) Level 0 3文 Level 2 1文 Level 3 1文 ► Level 4 でも有用な例文を提示可能 ・人の話は右耳で聞け。 ・一日3回、歯を磨く人にも悪い人はいない。 一日3回、歯を磨く人にも悪い人はいない。 5)レベルにあっているか ► 単語レベルでみる限り学習者のレベルにあった例文 をほぼ全てのレベルで提示可能 ► 文法・構文からみると、レベルにあっているとはいえな いものも含まれている。 ► 例: 「全部」(Level 4コーパスの例文) ・まだ全部読んでませんが。(「い」の省略、「が」の後が略) 「全部」 (Level 3コーパスの例文) ・「全部できなくたって構わない。」(3級)問題: 「なくたって」 「出来る」( (Level 4コーパスの例文) ) ・出来る人は、そういないでしょうね。(「出来る」の意味) 今後の課題 ► レベル別コーパスの例文すべてが、当該レベ ルの学習者に適した例文かどうかに関してはよ り詳しい調査、特に学習者を対象にした調査を 行う必要がある。 ► 評価実験の結果、明らかになった問題点に関 しては、適宜、改良していく。 ► 例文検索システムを『リーディング・チュウ太』 に組み入れることを検討中である。 参考文献 ► 金庭久美子・川村よし子(2008)「多言語版日本語辞書における用例作成の 諸問題」『日本語教育方法研究会誌』vol.15, No.1,14-15. ► 川村よし子(2006)「多言語版日本語辞書編集システムの開発と運用実験」 『ヨーロッパ日本語教育』vol.10, 146-151. ► 川村よし子・金庭久美子(2006)「国際共同編集による日本語学習者のため の多言語版web辞書の開発」『日本語教育学会春季大会予稿集』61-66. ► 松本裕治/北内啓/山下達雄/平野善隆/松田寛/高岡一馬/浅原 正幸, 形態 素解析システム『茶筌』 version 2.2.1 使用説明書, 2000, from http://chasen.naist.jp/hiki/ChaSen/. ► Srdanović, I. & Erjavec, T. & Kilgarriff, A. (2008). A Web Corpus and Word Sketches for Japanese. Journal of Natural Language Processing, 15/2, 137-159.
© Copyright 2024 ExpyDoc