Webコーパスを活用した

Webコーパスを活用した
レベル別例文検索システム
の開発と評価
川村よし子
東京国際大学
クリスティナ・ヒメリャク・寒川
ルブリャナ大学(スロヴェニア)
共同研究者:トマジュ・エリャヴェッツ
ヨセフ・ステファン研究所
Webコーパスを活用した
レベル別例文検索システムの開発と評価
► はじめに
► 1.Webコーパスを活用した
レベル別例文検索システムの開発
► 2.レベル別例文検索システムの仕組み
► 3.レベル別例文検索システムの評価
はじめに
► 言語教育において、学習者のレベルにあった例文の
提示は不可欠である。
► 例文はできるだけ自然な日本語で書かれていること
が望ましい 。
► 従来の辞書
『外国人のための基本語用例辞典』
『基礎日本語学習辞典』
『例解新国語辞典』
作例が多く、品詞分類への配慮も十分ではない
► チュウ太の日本語辞書多言語化プロジェクト
1)異なった文化圏の学習者への配慮
2)品詞分類の異なる言語への配慮
3)用法についての言及
4)接尾辞的用法への配慮
5)collocation・連語・慣用句等への言及
6)概念ごとに例文を提示
⇒学習者のレベルにあった「自然な日本語の例文」を意
味概念ごとに作成するのは容易ではない
⇒web上の電子情報を活用したレベル別例文検索シス
テムを開発 する
1.Webコーパスを活用した
レベル別例文検索システムの開発
► 5万の日本語のウェブページから構築した4億語の
コーパス「JpWaC」
► 形態素解析システムChaSenでコーパスの解析
⇒ 1億語の学習者用コーパスを作成
► 各例文への情報付与
・コーパス中の各単語に、「出題基準」)をもとにした
4級(Level 4)~1級(Level 1)のレベル付け
・級外のものはLevel 0
・各文に単語数、レベル別単語数、比率の情報付与
1.Webコーパスを活用した
レベル別例文検索システムの開発
► 日本語学習者用例文
の抽出
1)一文の長さが5語以上25語以下のこと
2)20%以上の記号や数字を含まないこと
3)日本語以外の表記を含まないこと
4)句点(。)で終わっていること
5)少なくとも一つの動詞、形容詞、形容動詞、
あるいは助動詞を含むこと
⇒ 学習者用例文コーパス(「JpWac-L2」)
859,416文(単語総数13,395,667語)
1.Webコーパスを活用した
レベル別例文検索システムの開発
► レベル別コーパス作成
1)各レベルの例文には当該レベルより上の語句を含
まないこと
2)各レベルの例文には当該レベルの語を10%以上含
むこと
⇒ Level 0 から Level 4 までの5段階の
レベル別例文コーパス
レベル別コーパスに含まれる
例文数
レベル別コーパス
Level 0
Level 1
Level 2
Level 3
Level 4
計
例文数
351,935
34,777
96,161
26,894
9,830
519,597
JpWac-L2に占め
る割合(%)
40.95
4.05
11.19
3.13
1.14
60.45
2.レベル別例文検索システムの仕組み
► 入力された語句を含む例文を自動で検索する
キーワード検索システム
► インターネット上で利用可能
(http://nl.ijs.si/jaslo/cqp/index.html)
► 検索方法や表示形式に関して細かく設定可能
► 例文コーパス全体からの例文検索
選択可能
レベル別コーパスからの例文検索
Basic Proficiency Subcorpus (Level 3)
力
慣れる
3.レベル別例文検索システムの評価
► 1)十分な量の例文が提供できているか
► 2)文として整っているか
► 3)意味が通じるか
► 4)例文として適切か
► 5)レベルにあっているか
1)十分な量の例文が提供できているか
各調査語に対するレベルごとの例文数
)十分な量の例文が提供できているか
2)文として整っているか
► 例文抽出条件
5)
◎ 「少なくとも一つの動詞、形容詞、形容動詞、
あるいは助動詞を含むこと」
⇒ 体言止めの文を含む
○ 「動詞、形容詞、形容動詞、或いは助動詞
で終わっていること」
⇒ 文のみを抽出
2)文として整っているか
► 単語の「切り出し」の誤り
例: 割りに / 割に / わりに
自分を必要以上に良く見せようとしないかわり
に、お世辞やおべっかを使うのが苦手です。
► 単漢字の場合
対応:2)文として整っているか
► きちんとした文になっているか
例文抽出条件 5)
◎ 「少なくとも一つの動詞、形容詞、形容動詞、
あるいは助動詞を含むこと」
⇒ 体言止めの文を含む
○ 「動詞、形容詞、形容動詞、或いは助動詞
で終わっていること」
⇒ 文のみを抽出
対応:2)文として整っているか
► 例文として適格か
問題点 1 単語の切り出しの誤り
例:自分を必要以上に良く見せようとしないかわりに、
お世辞やおべっかを使うのが苦手です。
☆ ChaSen辞書情報の変更によって修正は可能
問題点 2 同じ表記で読みが複数ある単語
例:表 [おもて・ひょう] 入れる [はいれる・いれる]
☆ 形態素解析のみでの区別は不可能
3)意味が通じるか
► そう政治力である。
► 寂しいやつだの。
4)例文として適切か
► 誤字脱字のある文
・しかし扉の前の男はその唾またって、ドアをふさいで
いる。
(ミスタイプの可能性)
・人の話聞く注意力がない。
(助詞の脱落)
・このように、この国の高層階は解釈している。
(母語干渉?による誤り)
対応:4)例文として適切か
► 誤字脱字のある文
► 言語教育には適さない文章
► 反社会的な文章
⇒ 例文の修正・削除の方法を要検討
ただし。。。
5)レベルにあっているか
► 単語レベルでみる限り学習者のレベルにあった
例文をほぼ全てのレベルで提示可能
例外:再来年 (全体で18文のみ)
Level 0 3文 Level 2 1文 Level 3 1文
► Level
4 でも有用な例文を提示可能
・人の話は右耳で聞け。
・一日3回、歯を磨く人にも悪い人はいない。
人の話は右耳で聞け。
5)レベルにあっているか
► 単語レベルでみる限り学習者のレベルにあった
例文をほぼ全てのレベルで提示可能
例外:再来年 (全体で18文のみ)
Level 0 3文 Level 2 1文 Level 3 1文
► Level
4 でも有用な例文を提示可能
・人の話は右耳で聞け。
・一日3回、歯を磨く人にも悪い人はいない。
一日3回、歯を磨く人にも悪い人はいない。
5)レベルにあっているか
► 単語レベルでみる限り学習者のレベルにあった例文
をほぼ全てのレベルで提示可能
► 文法・構文からみると、レベルにあっているとはいえな
いものも含まれている。
► 例:
「全部」(Level 4コーパスの例文)
・まだ全部読んでませんが。(「い」の省略、「が」の後が略)
「全部」 (Level 3コーパスの例文)
・「全部できなくたって構わない。」(3級)問題: 「なくたって」
「出来る」( (Level 4コーパスの例文) )
・出来る人は、そういないでしょうね。(「出来る」の意味)
今後の課題
► レベル別コーパスの例文すべてが、当該レベ
ルの学習者に適した例文かどうかに関してはよ
り詳しい調査、特に学習者を対象にした調査を
行う必要がある。
► 評価実験の結果、明らかになった問題点に関
しては、適宜、改良していく。
► 例文検索システムを『リーディング・チュウ太』
に組み入れることを検討中である。
参考文献
►
金庭久美子・川村よし子(2008)「多言語版日本語辞書における用例作成の
諸問題」『日本語教育方法研究会誌』vol.15, No.1,14-15.
►
川村よし子(2006)「多言語版日本語辞書編集システムの開発と運用実験」
『ヨーロッパ日本語教育』vol.10, 146-151.
►
川村よし子・金庭久美子(2006)「国際共同編集による日本語学習者のため
の多言語版web辞書の開発」『日本語教育学会春季大会予稿集』61-66.
►
松本裕治/北内啓/山下達雄/平野善隆/松田寛/高岡一馬/浅原 正幸, 形態
素解析システム『茶筌』 version 2.2.1 使用説明書, 2000, from
http://chasen.naist.jp/hiki/ChaSen/.
►
Srdanović, I. & Erjavec, T. & Kilgarriff, A. (2008). A Web Corpus and
Word Sketches for Japanese. Journal of Natural Language Processing,
15/2, 137-159.