スライド(改訂版) - Japanese Lexical Analyzer

2015/11/14
語彙・文法のレベルを
コントロールした教材づくり
―レベルにあった授業のために―
松下達彦(東京大学)
[email protected]
2015年11月14日
日本語教育学会教師研修
於 東京大学駒場Iキャンパス
2015/11/14
本研修の構成(予定)
午前
1. 講義:リライトの必要性、理論的側面
2. 実習:リライトに役立つツールの使い方
午後
3. 実習:リライト
4. 話し合い:リライトの方法、素材の探し方
(休憩)
3. 講義:多読・速読、流暢さについて
4. 速読授業体験(日本語・英語)
5. 振り返り、まとめ
2015/11/14
言語レベル調整の必要性
• 言語教育プログラムを通しての人間形成
批判的思考、モラル・多文化性、創造性、自律性・・・
⇒CBI:内容重視の言語教育 ⇒生教材使用
• クラス内でのレベル差の問題
• 言語レベルの調整
産出的な活動(話す、書く):学習者自身による調節
受容的な活動(聞く、読む):受け手による調整は困難
言語レベル調整の必要性
内容重視の活動
• 産出(話す/書く)を中心にした活動
• 言語レベルは自然に調節
• 相互確認も可能
• 受容的な活動(読む/聞く)の場合、対象テキストの語彙や文
法のレベルが高すぎると、内容重視の活動は成り立たない
• 多くの生素材は、そのままでは語彙や文法の負荷が高すぎて
中級学習者には使えない
リライトは内容重視の言語教育、特に中級学習者のためには
非常に重要
言語レベル調整の必要性
• 行政サービスにおける「やさしい日本語」
例:横浜市「やさしい日本語での情報発信につい
て」http://www.city.yokohama.lg.jp/lang/ej/kijun.html
語彙レベルのコントロールがきわめて重要
科研費基盤研究A「やさしい日本語を用いた言語的少数者に対
する言語保障の枠組み策定のための総合的研究」(代表者:庵
功雄)
2015/11/14
言語レベル調整の必要性
• いうまでもなく、語彙学習負担は非常に重い
中級からは「報われない学習」が続く
cf. ジップ(Zipf)の法則
• 学習負担をいかに減らすか:語彙学習は学習者任せ
• 動機付けとの関連:特に漢字(語)の学習
⇒素材を易から難へと配列することが望ましい
⇒中級で漢字(語)学習に挫折させない
読解素材が必要
cf. graded readers
言語レベル調整の必要性
• 多読:何回も立ち止まっては読むという行為自体が成
立しない(Day & Bamford, 2002など)
graded readers:厳しい語彙レベルのコントロール
• 速読:既知語率は100%であるべき(Nation, 2007)
途中で止まって考えること:学習にはなっても流暢さ
を上げること(fluency development)にはならない
言語レベル調整の必要性
• 習得という観点:focus on form の考え方に従えば、形式と同
時に意味の処理に意識が向いていることが必要
→一定レベルの既知語テキストカバー率に達していることが
必要条件
結局、
• 内容重視の第二言語教育や多読、速読においては、言語形
式の学習のための精読などよりも高いレベルの既知語率が
求められる
• 学習者の語彙レベルを適切な方法で測定
• テキストの語彙レベルを適切にコントロール
• →最も効率的な内容重視の活動
言語レベル調整の必要性
• 読解に占める下位能力のうち語彙力が最も大きな要素である
ということ(Bernhardt, 2005; Matsushita, 2012など)
• 語彙はおおよそ頻度順に習得が進む(Read, 1988など)
2015/11/14
語彙表は何に役立つか
•松下(2011a)「日本語を読むための語彙データベース」
(VDRJ)
• いろいろ役立つが・・・
• テキストの語彙分析 = 教材の評価
• 語彙テストの開発 = 学習者の評価
 二つを合わせたカリキュラムの評価の基礎資料
2015/11/14
読解における語彙の重要性
語彙力が読解力に占める割合
• 英語では・・・約3割程度か(Bernhardt, 2005)
• 日本語では・・・もう少し高そう ←漢字がある
から?
•55%
Koda(1989)より計算
•47%
小森ほか(2004)
•40%以上 野口(2008)より計算
2015/11/14
既知語の割合と読解/聴解レベルの関係
• 既知語の割合 Text coverage (テキストカバー率) by known words
• 英語では・・・既知語率95%と98%が一つの目安
• 95%:テキストがある程度理解できるレベル
• 98%:自力で読解を楽しめるレベル
(Hu & Nation, 2000; Laufer & Ravenhorst-Kalovski,
2010など)
• 日本語では・・・もう少し低い既知語率でよいのでは?
• 96%程度に閾値? (小森ほか2004)
• 意味的透明度の高い多数の漢字語の存在
(Matsushita, 2011a=後述)
2015/11/14
回帰式による読解量の期待値(%) (Matsushita,
2014)
100.0
90.0
80.0
70.0
60.0
50.0
40.0
30.0
20.0
10.0
0.0
0
3000
6000
9000
12000
上位15,000語中の推定既知語彙数
15000
2015/11/14
頻度上位15,000語中の理解語数によるレ
ベル分けの目安 (松下、近刊予定)
• *文法、会話等の能力はここでは無視する。語数は書きことばの
理解語数と考える。
• *語の計数単位は概ね辞書の見出し語レベルとする。
•
• 初級:上位約1,300語を概ね確実にして総語数約3000語に達す
るまで
• 中級:上位約7,000語を概ね確実にして総語数約12,000語に達
するまで
• 上級:上位約7,000語を概ね確実にして総語数約12,000語以上
2015/11/14
語彙学習における頻度効果
• 付随的語彙学習 incidental vocabulary learning の研究
= 目標語に何回ぐらい出会えばその語が習得されるか?
5~6回から20回以上まで多様な結果
(Waring & Takaki, 2003、ほか)
⇒おおよそ10回ぐらい?
• 教室での教授の場合は、回数はより少なくてよいはず
・・・とりあえず2回は出てきてほしい
1回しか出てこない未知語を習得するのは大変
2015/11/14
テキストの語彙・文法レベルのチェック方法
語彙
• J-LEX http://www17408ui.sakura.ne.jp/index.html
リライトのためのウィンドーがある。リライトレベルを設定でき
る。簡便。語彙頻度プロファイルを表示する。漢字レベルも
チェックできる。
• Reading Tutor http://language.tiu.ac.jp/
旧日本語能力試験出題範囲に基づく語彙レベル・漢字レベ
ルのチェックなど。辞書機能あり。
• チュー太のやさしくな~れ http://yasashii.overworks.jp/
書き換え案を一文ずつ提示。書き換え辞書の充実が課題。
2015/11/14
テキストの語彙・文法レベルのチェック方法
文法
• 学習項目解析システム http://lias.intersc.tsukuba.ac.jp/checker/
テキストを投入すると、文法項目を抽出してレベル判定を含む各種情報が出てくる。
• はごろも http://jreadability.net/hagoromo
機能語(助詞・助動詞など)を入れると、レベル判定を含む多彩な情報が出てくる。
• あすなろ https://hinoki-project.org/asunaro/index-j.php
構造の解析、係り受けの表示ができる。レベルの表示はないのでリライト向きではない
かも。
総合・その他
• やさ日チェッカー http://www4414uj.sakura.ne.jp/Yasanichi1/nsindan/
役所の文書をチェックするために作成されているが、それ以外の目的にも使用可能。
(文法だけが特に役所文書に特化した設定になっている。)
• jreadability http://jreadability.net/
文章全体の難易度の評価がある。語彙レベルのチェックもあるが、語彙レベルは主観
判定。
• 日本語リーダビリティー測定 http://readability.nagaokaut.ac.jp/readability
テキストの難易度について、小中学校の学年レベルの判定ができる
2015/11/14
テキストの語彙・文法レベルのチェック方法
• かぶとエディタ http://basil.is.konan-u.ac.jp/chuta/editor/
独自の語彙リストを組み込んで編集ができる。
• AntConc
http://www.laurenceanthony.net/software.html
頻度リスト作成のほか、KWIC、特徴語や連語の抽出なども
できる。ただし、初めに形態素解析器で語に切り分けておく
必要がある。研究者向き。
• AntWordProfiler
http://www.laurenceanthony.net/software.html
語彙頻度プロファイル作成、語彙リストの作成ができる。た
だし、初めに形態素解析器で語に切り分けておく必要があ
る。研究者向き。
2015/11/14
語彙レベルの感覚(1) 2Kで98%以上
質問:夜に仕事をしているので、昼に寝なければならないので
すが、何かよく寝られる方法を知っていたら、教えてください。い
ま、部屋をエアコンで涼しくしていますが、よく眠れないので、夜
までに2回も起きてしまうことがよくあります。
答え:昼に眠るためには、まず、光が部屋に入らないように部屋
をカーテンで暗くすることです。人間は太陽の光などの強い光
の当たるところにいると、体の中の時計が元にもどってしまい、
眠りたい気持ちとは反対に身体は活動状態になります。あとは、
ちょうどよい量のお酒を飲むことです。そうすれば血がよく流れ
るようになり、心も体も楽な状態になります。私は月に3回、夜
に働いていますが、この方法でよく眠れています。
(Yahoo 知恵袋より、一部改)
2015/11/14
語彙レベルの感覚(2) 6Kで98%以上
人間の知能のまねをして作ったものが人工知能だとすれば、コ
ンピュータの中に「知をあつかうメカニズム」をていねいに作ってい
かなければならない。
コンピュータとは、要するに〈記号処理マシン〉である。だからコン
ピュータの〈知〉とは、「記号で表された知」ということになる。記号
にはいろいろあるが、人工知能が得意なのは、いわゆる言語記号
である。例えば、「今は五月だ」「五月は春だ」「カエデの葉は、春と
夏には緑、秋には赤である」などという人工言語的表現は処理し
やすいのである。
しかし、このような表現は、少しつまらないのではないだろろう
か? というのは、〈知〉とは、一つ一つの知識がバラバラに存在
するではなく、それらを一つにまとめたり、横断したりしながら、世
界に光を当てていく精神の力強い働きのように思えるからである。
〈知〉は想像力を持たなければならない。
(西垣通の文章より、一部改)
2015/11/14
語彙レベルの感覚(3)10Kで98%以上
経済規模の尺度の国内総生産(GDP)では、生活満足度や地球
環境の持続可能性は測れない。ベルギーで「GDPを越えて」と題し
た国際会議が開かれたのも、そうした認識が広がったためだ。私
は、人の幸福や満足感と持続可能な発展を両立させる指標で、「社
会」「環境」「経済」の3分野を織り込んだ「人間満足度尺度(HSM)」
を開発している。その一環として、日本とスウェーデンで調査をし
た。
3分野の重要性に対する評価をみると、両国とも「環境」がトップ
で、「社会」「経済」と続く。「幸福感や満足度の高い『理想の社会』と
はどんな社会か」を尋ね、回答文をソフトウェアで単語に分解し、分
析してみると、両国に共通して出現したキーワードは「環境への配
慮」と「生活の安定」。スウェーデンだけに現れたのは「民主主義」
「教育」「平等」で、日本に特徴的なのは、「格差・不安のない社会」
だった。
2015/11/14
語彙レベルの感覚(4)15Kで98%以上
得体の知れない不吉な塊が、私の心を抑えつけていた。焦躁と言
おうか、嫌悪と言おうか――酒を飲んだあとに二日酔いがあるよう
に、酒を毎日飲んでいると二日酔いに相当する時期がやってくる。
それが来たのだ。これはちょっといけなかった。飲酒の結果かかっ
てしまった肺病や神経衰弱がいけないのではない。また背を焼くよ
うな借金などがいけないのではない。いけないのはその不吉な塊
だ。以前私を喜ばせたどんな美しい音楽も、どんな美しい詩の一節
も辛抱がならなくなった。街で音楽を聴こうとわざわざ出かけて行っ
ても、最初の二三小節で不意に立ち上がってしまいたくなる。何か
が私をいたたまれなくさせるのだ。それで始終私は街から街を浮浪
し続けていた。
(梶井基次郎『檸檬』より、一部改)
2015/11/14
中級読解教材の語彙レベル分析例
95%点の単語レベル
98%の単語レベル
*数字は何千語(何K)レベルかを示す
21
21
20 20
21 21
21 21 21 21 21 21
21 21
21
20 20
20
18
14
14 14
14
14
13
12
11
11
10 10 10
9
9
8
8
7
7
7
9
8
9
8
7
7
6 6
6
5
4
3
3
3
4
4
4
4
4
4
4
9
9
8
5
5
8
7
6
6
6
6
6
7
7
7
8
9
2015/11/14
上級読解教材の語彙レベル分析例
J5 の教材語彙レベル
95%点の単語レベル
98%点の単語レベル *数字は何千語(何K)レベルかを示す
21
18
12
10
10
4
4
4
5
12
14
6
6
6
6
6
6
21
21
19
17
7
7
7
8
9
20
16
9
10
21
16
13
10
9
8
7
3
11
12
13
18
21
10
10
11
11
12
21
16
21 2121
17
2015/11/14
上級用生教材例(ユニット:「教育」)
2015/11/14
中級でのリライト教材例(ユニット:「教育」)
しかる? ほめる?
(ワシントン)
中学生の息子が、地元の野球チームに入っていて、時々試合をのぞきに行く。米
国人の親たちも熱心で、一緒に応援するのだが、感心するのは、良いところを見つけ
てほめようとする態度だ。
ヒットやファインプレーには、もちろん大きな歓声をあげる。空振りでも「グッド・スイ
ング!」。エラーした子にも「グッド・トライ!」と叫ぶのには、思わず笑ってしまった。
私も中学時代、野球をやっていた。厳しい監督で、ほめられた記憶はあまりない。
いい加減なプレーをしたら怒られたし、時にはなぐられることもあった。今はいい思い
出だし、日本式で、辛抱や努力も学んで鍛えられたけど、ほめて育てる米国式も、の
びのびしていいな、とも思う。
ただ、アメリカでも、この問題はそう簡単ではなさそうだ。国際学力テストなどで、中
国が断トツの好成績をあげることで、中国系アメリカ人の母親の子育て方法が、「甘
い」アメリカの親たちの注目を集めた。スパルタ式で鍛えることから「タイガー・マム」
と呼ばれる。
ほめて伸ばすか。しかって鍛えるか。教育は、本当に難しい。(伊藤宏)
出典:『朝日新聞 朝刊』 特派員メモ、2外報、2011年06月24日 改定
2015/11/14
リライト方針のための仮定
I.
必要とされるテキストカバー率のレベル
読み手に既知と仮定される語を一定のレベル以上
にする
(Hu & Nation, 2000 など)
II.
学習目標語の最低生起回数
未知語と仮定される語のうち、一定回数以上に生起
する語は学習目標語となり得る
(Waring & Takaki, 2003 など)
2015/11/14
III. 目標語の異なり語数は多いほうがよい
より多くの異なる学習目標語が生起するテキスト
は、語彙学習リソースとしてより良いテキストである
IV. 学習目標語の密度 (%)
学習目標語がより高い割合で生起するテキストは、
語彙学習リソースとしてより良いテキストである
2015/11/14
方法(リライト、LEPIX計算)
主なソフトウェア: AntWordProfiler Ver. 1.200W (Anthony, 2009)
I. 語彙頻度プロファイリングにより、テキストの語彙レベルを特定
し、既知語の最低レベルを設定。 ここでは以下の通り。
A)
B)
C)
速読用テキスト:100%
多読(自習)用テキスト: 98%
教授用テキスト: 95%
(Hu & Nation, 2000; Laufer & Ravenhorst-Kalovski (2010)など)
II. 学習目標語特定のため、学習目標語の最低生起回数を設定
*付随的語彙学習のためには 6-10 回の生起が必要
(Waring & Takaki, 2003 など)
⇒ 短いテキスト一つでは、付随的語彙学習は難しい
A)
B)
多読(自習)用テキスト:2回以上
テキスト全体の長さにより、最低生起回数を設定
教授用の短いテキストの場合:2回
2015/11/14
III.
IV.
学習目標語の異なり語数(T)を数える
(W*100)/N を計算
W:学習目標語の延べ語数
N:テキスト全体の延べ語数
読解テキストの語彙学習可能性指標(LEPIX):
Lexical Learning Possibility Index for a Reading Text
III と IV で計算した数字をかけ合わせる
{T*(W*100)/N}
(LEPIX) = (T*W*100)/N
*テキストの長さが倍以上異なる場合は比較不能
2015/11/14
サンプルテキスト (リライトなし)
人知のシミュレーションが人工知能だとすれば、コンピュータのなかに
「知をあつかうメカニズム」を作り込まなければならない。
ところでコンピュータとは、要するに〈記号処理マシン〉である。だから
この場合の〈知〉とは、「記号で表された知」ということになる。記号と
いっても色々あるが、人工知能が得意なのは、いわゆる言語記号である。た
とえば、「今は五月だ」「五月は春だ」「楓の葉は、春と夏には緑色、秋に
は赤色である」などというのがその守備範囲ということになる。
ところでこういった例は、少しばかり興ざめではなかろうか? というの
は、〈知〉とは、単なる知識の断片ではなく、それらを包括し、横断しなが
ら世界に光を当てていく精神のダイナミズムのように思えるからである。
〈知〉はイマジネーションの能力を持たなければならない。さらに〈知〉
は、スポーツのような身体の所作にうめこまれている、明言化されない暗黙
知の領域をもカバーしなければならない。それこそが、知の知たるゆえんで
はないだろうか?
残念ながら、現在の人工知能技術は、この期待に応えるすべを知らない。
それはいまだに、図像さえ自由自在には扱えないのである。英語や日本語な
どの〈自然言語〉を操作するだけでも四苦八苦なのである。
(出典:西垣 通『秘術としてのAI思考』)
2015/11/14
サンプルテキスト (リライト後)
人間の頭脳を模倣して作ったものが人工知能だとすれば、コンピュータの
中に「知をあつかうメカニズム」をていねいに作っていかなければならな
い。しかしそこへの道はまだ程遠い。
コンピュータとは、要するに〈記号処理のメカニズム〉である。だからこ
の場合の知とは、「記号で表された知」ということになる。記号といっても
いろいろあるが、人工知能が得意なのは、いわゆる言語記号である。例え
ば、「今は五月だ」「五月は春だ」「カエデの葉は、春と夏には緑、秋には
赤である」などという人工言語的表現は処理しやすいのである。
しかし、こういった例は、少しばかりつまらないのではないだろうか?
というのは、知とは、一つ一つの知識がバラバラに存在するのではなく、そ
れらを一つにまとめたり、横断したりしながら、世界に光を当てていく精神
の力強い働きのように思えるからである。知は想像力を持たなければならな
い。さらに知は、スポーツのような身体の動きの中にある、はっきりとした
言葉にならない知の領域もカバーしなければならない。カエデといえば私た
ちが紅葉を見て感じる気持ちまで横断的にカバーしなければならないのだ。
それこそが、知を知として成り立たせているものではないだろうか。
残念ながら、現在の人工知能技術は、この期待に応えるすべを知らない。
人間の頭脳の模倣にはまだ程遠いレベルだ。英語や日本語などの〈自然言
語〉を操作するだけでも非常に苦労しているのである。
2015/11/14
低頻度語の処理
累積テキス
リライト前
トカバー率
の頻度
(リライト前)
累積テキス
リライト後
トカバー率
の頻度
(リライト後)
語レベル
語彙素
処理
IS_05K
IS_05K
IS_05K
IS_06K
IS_06K
IS_06K
IS_06K
IS_07K
IS_07K
IS_07K
IS_08K
IS_08K
IS_08K
IS_08K
IS_08K
IS_08K
IS_09K
IS_10K
IS_10K
IS_11K
IS_11K
IS_16K
IS_17K
IS_19K
IS_19K
IS_20K
IS_21K+
IS_21K+
IS_21K+
IS_21K+
IS_21K+
知
紅葉
9
0
88.7
88.7
9
1
94.1
94.4
記号
4
90.2
4
95.6
A
マシン
1
90.5
0
95.6
削除または置換
メカニズム
横断
1
1
90.9
91.3
2
2
96.2
96.8
B
B
緑色
断片
自在
1
1
1
91.6
92.0
92.4
0
0
0
96.8
96.8
96.8
削除または置換
削除または置換
削除または置換
頭脳
0
92.4
2
97.3
C
包括
暗黙
1
1
92.7
93.1
0
0
97.3
97.3
削除または置換
削除または置換
楓
模倣
知能
程遠い
1
0
3
0
93.5
93.5
94.5
94.5
2
2
3
2
97.9
98.5
99.4
100.0
B
C
A
C
守備
シミュレーション
埋め込む
明言
赤色
所作
図像
八苦
四苦
ダイナミズム
イマジネーション
人知
作り込む
由縁
興醒め
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
94.9
95.3
95.6
96.0
96.4
96.7
97.1
97.5
97.8
98.2
98.5
98.9
99.3
99.6
100.0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
削除または置換
削除または置換
削除または置換
削除または置換
削除または置換
削除または置換
削除または置換
削除または置換
削除または置換
削除または置換
削除または置換
削除または置換
削除または置換
削除または置換
削除または置換
処理の説明
A. テキスト語彙レベル
(LLT)の変更による、
想定既知語から学習
目標語への変更
B. 「1回語」の生起回数を
増やすことによる、非
学習目標語から学習
目標語への変更
C. 表現を変えることによる
学習目標語の追加
*WIS: Word Ranking for International Students(留学生のための語彙ランク)(Matsushita, 2012)
*漢字頻度をチェックし、低頻度漢字をかなに変えるか、振り仮名をつける
2015/11/14
リライト前とリライト後の比較
項目
テキストの長さ (= 延べ語数) (N)
異なり語彙素数
テキストカバー率95%を超えるレベルの延べ語数
テキストカバー率96%を超えるレベルの異なり語彙素数
テキストカバー率95%点語彙レベル = テキスト語彙レベル (LLT95)
95%テキストカバー率を超える学習目標語の最低生起数
テキストカバー率95%を超える学習目標語の延べ語数 (W95)
テキストカバー率95%を超える学習目標語の異なり語彙素数 (T95)
学習目標語密度 (%) (W95*100/N)
平均異なり学習目標語彙素数 (W95/T95)
読解テキストの語彙学習可能性指標(95%点基準)
(LEPIX95) ((T95*W95*100)/N)
リライト
前
リライト
後
275
118
339
130
14
14
10K
2
0
0
0.0
0.0
19
8
05K
2
19
8
5.6
2.4
0.0 44.8
2015/11/14
語句リストの作成:学習目標レベルの語彙の抽出
• 95%程度以上を目標レベルとする
• 低頻度語でも高頻度語相当とみなし、想定既知語に入れてよ
い場合
・意味的な透明度が高く、構成要素が高頻度の場合
例)「両眼」「雨季」「泡立てる」「盗み出す」
・母語等による理解が容易な場合
例)「達観」「墓穴」(中国語)、「ペンダント」「ゴシップ」(英語)
• ジャンルの偏った低頻度語、一部の固有名詞は
学習対象語から外す
2015/11/14
生教材の文字化に便利なソフトウェア
• 書面の読み取り・テキスト化
文字認識(OCR)ソフト
読取革命(Panasonic)・・・1万円以下
• 音声の聞き取り・テキスト化
音声認識ソフト
ドラゴンスピーチ・・・1万円以下
*複数の人の声が混じる場合は・・・シャドーイング!
2015/11/14
中級でも使える生の聴解素材
• NHK: NEWS WEB EASY
http://www3.nhk.or.jp/news/easy/index.html
通常の(リライトなしの)バージョンとの間にリンクあり
通常版もリライト版も文字・音声の両方がある
• 他にいいのあったら教えてください!
J-LEXのベースワード(1)
• ベースワード:語彙・漢字頻度プロファイラーに仕込まれてい
る語彙・漢字の頻度リスト
• J-LEXでは松下(2011, 2013)に基づいて作成されたベース
ワードが仕組まれている
• ベースワードの有効性:さまざまなテストコーパスにおけるテ
キストカバー率が、例えば旧日本語能力検定試験の級別語
彙リストよりも高いことなどで実証済み(Matsushita, 2012)
J-LEXのベースワード(2)
• BCCWJの2009年モニター版
• 書籍約2800万語、Yahoo知恵袋約500万語
• 頻度と分散度を掛け合わせた指標でランク付け(Juilland’s U)
• 初級語彙(上位1285語)だけは、旧日本語能力試験の4級3級
語彙(一部、古臭い語だけは除外)を利用
J-LEXを利用したテキストのリライト
1)オンライン語彙・漢字頻度プロファイラー
J-LEX(菅長・松下2013)
http://www17408ui.sakura.ne.jp/index.html を開く
2)分析したいテキストをウィンドーに貼りつける
3)ドロップダウンリストから使用したいベースワード(語彙また
は漢字)を選ぶ
4)語彙レベル/漢字レベル等を数字で設定する(例:[3000]
位以上を赤でハイライト)
5)判定ボタンを押す
6)右側の結果ウィンドーを見て、適切なテキストカバー率が達
成されていない場合、赤でハイライトされている語を減らすよう
に左側のウィンドーのテキストを書き直し、再び判定ボタンをク
リックする。
(リライトの過程を残したい場合は、右側の結果ウィンドーのテ
キストをコピーし、MS-Wordなどにペーストする。色もそのまま
保持される。その後、「変更履歴の記録」の機能を使用する)
7)テキストが適切な語彙レベルに調節された後に、調整済み
テキストを再びウィンドーに貼り付け、今度は漢字レベルを指定
して判定する
指定レベルよりも頻度の低い漢字は
1) ふりがなをつける
2) かな表記にする
3) 他の語に置き換える
などの対応をとる。
具体的なコツ
内容やリズムをできるだけ損なわないようにする
語彙面では、ただ単に低頻度語彙を減らすのではなく、
以下のように考える。
中級後半クラス対象の素材だとしたら、
• 書き換え後に95%点が7K以下程度になるようにする。
• 書き換え後に98%点が10K程度になるようにする。
• ただし、例えば95%点を考える際に、95%を超えるレ
ベルに以下のような語がある場合は
それを95%以下の既知語に準じるものと考えてよい。
例えば95%点を考える際に、95%を超えるレベルに以下のよう
な語がある場合は、95%以下の既知語に準じるものと考えてよい
• 繰り返し使われるキーワード
• 書きことばでは低頻度でも、話しことばでは高頻度でなじみがあ
ると思われる語
• 外来語や漢語で、学習者母語などの知識から正しい意味が理解
できる語
例)「達観」「墓穴」(中国語)、「ペンダント」「ゴシップ」(英語)
• 単漢字の組み合わせで意味が容易に分かる漢字語
例)「両眼」「雨季」「泡立てる」「盗み出す」
• 語構成要素の組み合わせで容易に理解できる複合語
例)「突き倒す」のような複合動詞
• 誤解析によって低頻度語とされているもの(こういうこともありま
す・・・ご容赦を!)
上記諸点を考慮に入れたうえで、
• 98%点を超える語はできるだけ高頻度語に書き換
えるか、削除する
• 95%点から98%点あたりの語(理想的には7Kから
10Kあたり)の語を学習ターゲット語彙と考えて、こ
のレベルの語が1回しか使われていなかったら、でき
るだけ“複数回登場”するように書き換える。
(1回しか出てこない語は覚えられないため。)
• 高頻度語に入れ替える simplification だけでなく、
• 関係節や挿入句で語釈的な表現を文章に混ぜ込む
elaboration も使ってよい。
• 難しい構文や慣用句も多ければ減らす。
• と同時に、不自然にならないようにする。
この辺の総合的なバランスが難しいところですが・・・
J-LEXを利用したテキストのリライト
これらのほか、
• J-LEXは頻度レベルごとの延べ語数や異なり語数、累積テキ
ストカバー率などをジャンル別に返す機能がある
• 1000語レベル別に語数、カバー率などを表で示す機能もあ
り、特に累積テキストカバー率を見れば、どのレベルの語をリ
ライトすればよいか、どのレベルの語を学習のターゲットにす
ればよいかがわかる。
• J-LEXは、上述のような教材開発や各種サービスにおける
「やさしい日本語」作成のための利用のほか、学習者等の作
文の語彙・漢字レベルの判定や、試験や研究のためのテキス
トの語彙・漢字レベルのコントロールに使用することも可能
2015/11/14
学習者の語彙レベルのチェック
• 語彙力とは何か
• 受容(聞く、読む) vs. 産出(話す、書く)
• 広さ breadth (=size 語彙量)と深さ depth (連語、類語等)
• Vocabulary Size Test (Nation & Beglar, 2007)
• 日本語への適用:漢字の問題
• VSTRJ=「日本語を読むための語彙量テスト」(松下2012a)
ポイント! 素材の語彙レベルのチェックに使用して
いる語彙頻度データと同じ頻度データに基づいて、
サンプリングをする
2015/11/14
「日本語を読むための語彙量テスト」
Vocabulary Size Test for Reading Japanese
(VSTRJ) (松下2012a)
1年以内に類似のものをオンライン化の予定
「日本語を読むための語彙データベース」(VDRJ)
(松下2010)から100語につき1語の割合でサンプ
リング
150問:15000語レベルまで測定,語彙量を推定
2015/11/14
1000語ごとに語種(和語・漢語・外来語・混種語)と
品詞の割合を統制した層化サンプリング
四肢選択で、非定義文 (目標語の意味が定まらない
ような文)に埋め込まれた目標語の意味記述を選ぶ
もの
基本義が文字表記を見てわかるかどうかだけを試す
もの、文脈的な意味や統語機能は問わない
選択肢は目標語と同じかそれよりも高頻度の語(で
きるだけ初級語彙)で記述する
日本語の読解力をある程度簡便に予測できる
2015/11/14
テスト項目の形式の例
*実際の問題とは異なる
2015/11/14
どの程度の語彙量で生教材が読めるか
(リンクあり)
Grou p
ID
701
G3
702
G3
703
G3
704
G3
705
G3
706
G3
707
G2
708
G2
709
G1
710
G1
711
G2
712
G2
713
G2
714
G2
715
G2
716
G2
717
G1
718
G2
719
G2
720
G2
721
G2
722
G1
S core
146
140
138
130
127
125
123
118
118
118
109
100
94
93
83
70
60
59
53
52
36
23
266
1K
10
10
10
10
9
10
10
10
9
10
10
10
10
10
10
10
10
10
9
10
9
9
237
2K
10
10
10
10
10
10
10
10
9
9
9
9
8
10
8
8
8
7
7
9
4
2
204
3K
10
10
10
10
10
8
9
10
8
7
8
7
9
8
8
5
5
6
7
3
3
2
187
4K
10
9
10
9
10
8
9
9
8
8
9
7
8
5
7
5
3
2
5
2
1
1
195
5K
10
10
10
8
9
9
9
10
9
9
6
8
4
6
5
7
5
5
7
3
3
2
222
6K
10
10
10
10
10
10
9
10
10
9
9
9
9
8
6
7
6
5
8
4
5
2
187
7K
10
10
10
10
9
9
9
7
8
9
8
8
6
4
5
6
6
5
4
2
2
2
158 142 156 145
8K 9K 10K 11K
10 10 10 10
9
9
9
9
10 9
8
6
7
7
8
8
8
7
8
9
8
8 10 7
8
5
8
7
7
6
8
6
9
8
7
7
8
7
7
6
6
5
6
6
6
6
6
3
7
4
8
4
6
3
5
6
6
4
6
5
2
3
3
3
3
3
3
3
2
5
1
2
1
1
0
0
1
1
1
2
1
2
1
1
0
0
0
0
161
12K
10
10
10
9
8
8
6
7
8
7
8
6
4
7
3
4
2
4
2
3
2
0
131
13K
8
7
8
7
6
5
6
6
6
8
5
5
3
6
3
4
1
1
1
3
1
0
152
14K
9
8
8
9
8
8
9
5
7
7
7
6
6
5
4
2
1
3
1
4
1
2
129
15K
9
10
9
8
6
7
9
7
5
7
7
4
4
4
3
1
1
1
0
4
0
1
2015/11/14
母語の影響
• 中国語系学習者(CBL)は“意味理解に限定すれば”日本語の
初級、中級語彙の3分の1は基本義が理解できる
(松下2011b, 2012a)
• CBLとnon-CBLの間で難易度の大きな差があったのはほとん
どが中国語と同形同義の漢語
潜伏(する) 前途 反(政府) 共犯 貧困(な)
対決(する) 気温 元凶 故郷 未満 慈善 符合(する)
費用 肩 腸 学者 周期 炊飯 要領 粒子
• 外来語の理解における英語知識の影響は、英語が母語に近
いレベルであればかなり大きい(カタカナから音韻のdecoding
が正しくできれば低頻度語彙でも数パーセントの語彙が理解
できる)
2015/11/14
領域特徴語について
• 日本語学術共通語彙(JAW) (松下2011c)
・・・レベル1(中級)559語は非常に効率が良いので、
大学入学準備ぐらいのレベルでぜひ使ってほしいリスト
• 日本語文芸語彙(JLW) (松下2012b)
• 日本語限定学術領域語彙(LAD)
など
JAW と JLW は「松下言語学習ラボ」よりダウンロード可
(Google等で「松下」「言語」で検索すれば出てきます)
*一般的な語彙頻度の割合と特定領域コーパスでの語彙頻度の割
合を比べることにより、統計的指標を用いて抽出したもの(手計算
の必要なし:AntConcで指標LLRを用いて抽出できる)
2015/11/14
流暢さ(Fluency)について
• 流暢さ(Fluency)はレベルに伴って上がる
=処理の正確さが変わらなくても処理時間が短くなる
• Fluency Development とは、知っていることばを早く処理でき
るように練習すること(新しいことを覚えることは含まない)
• 読解の流暢さの下位要素 (Kuhn & Stahl, 2003)
• Automaticity (自動性)
• Accuracy (正確さ)
• Rate (速度)
• Nation (2007)にわかりやすい説明と練習方法例がある
• 更に知りたい人は Grabe (2008) の14章がおすすめ
2015/11/14
多読と速読
• 多読については Day & Bamford (2003)あたりから読むとわか
りやすい。Grabe (2008)15章もおすすめ。
• 日本語では粟野・川本・松田(2012)に授業方法の紹介がある
• 多読には様々な効果がある
読みだけでなく、文法、作文などさまざまな効果が見られる
(例えば Elley & Mangubhai, 1981)
• とにかくレベルにあったものを楽しく速く読むこと
Situation Model (背景知識を活用した心的表象)の形成を促進
する:表層的な理解に留めない
• 速読は内容理解を犠牲にしない、むしろ向上させる
⇒速読授業体験
2015/11/14
参考文献(1)
Anthony, L. (2009). AntWordProfiler 1.200w program.
Downloaded from http://www.antlab.sci.waseda.ac.jp/software.html
Bernhardt, E. (2005). Progress and procrastination in second language reading. Annual Review of
Applied Linguistics, 25, 133–150. doi:10.1017/S0267190505000073
Day, R. & Bamford, J. (2002). Top ten principles for teaching extensive reading. Reading in a
Foreign Language, 14(2), 137-141.
Elley, W. B., & Mangubhai, F. (1981). The long-term effects of a book flood on children’s language
growth. Directions, 7, 15–24.
Hu, M., & Nation, I. S. P. (2000). Vocabulary density and reading comprehension. Reading in a
Foreign Language, 13(1), 403-430.
Grabe, W. (2008). Reading in a Second Language. Cambridge University Press.
Juilland, A., & Chang-Rodrigues, E. (1964). Frequency Dictionary of Spanish Words. London:
Mouton & Co.
Kawamura, Y., Kitamura, T., & Hobara, R. (1997). Reading Tutor (リーディング・チュー太). Cited
from http://language.tiu.ac.jp/index_e.html
Koda, K. (1989). The Effects of Transferred Vocabulary Knowledge on the Development of L2
Reading Proficiency. Foreign Language Annals, 22(6), 529–540. doi:10.1111/j.19449720.1989.tb02780.x
Kuhn, M. R., & Stahl, S. A. (2003). Fluency: A review of developmental and remedial practices.
Journal of Educational Psychology, 95(1), 3–21.
Laufer, B. (1994). The lexical profile of second language writing: does it change over time? RELC
Journal, 25(2), 21-33.
Laufer, B., & Ravenhorst-Kalovski, G. C. (2010). Lexical threshold revisited: Lexical text coverage,
learners’ vocabulary size and reading comprehension. Reading in a Foreign Language, 22(1),
15–30.
2015/11/14
参考文献(2)
Matsushita, T. (2011a). Is the vocabulary learning burden of Japanese really heavier than that of
English? The 17th Biennial Conference of the Japanese Studies Association of Australia.
University of Melbourne, Melbourne, Australia, 6 July 2011.
Matsushita, T. (2011b). Exploring the tiers of Japanese vocabulary: Academic, literary and beyond.
The 2nd Combined Conference of Applied Linguistics Association of Australia & Applied
Linguistics Association of New Zealand. Australian National University, Canberra, Australia, 2
December 2011.
Matsushita, T. (2012) In What Order Should Learners Learn Japanese Vocabulary? A Corpus-based
Approach. PhD dissertation, Victoria University of Wellington, Wellington.
Matsushita, T. (2014). How is the relationship between vocabulary knowledge and reading
comprehension? Presented at the AILA World Congress 2014, The Brisbane Convention and
Exhibition Centre, Australia.
Nation, P. (2007). The four strands. Innovation in Language Learning and Teaching, 1(1), 2–13.
Nation, P., & Beglar, D. (2007). A vocabulary size test. The Language Teacher, 31(7), 9–13.
Read, J. (1988). Measuring the vocabulary knowledge of second language learners. RELC Journal,
19(2), 12–25.
Waring, R., & Takaki, M. (2003). At what rate do learners learn and retain new vocabulary from
reading a graded reader? Reading in a Foreign Language, 15(2), 130-163.
粟野真紀子・川本かず子・松田緑 (2012) 『日本語教師のための多読授業入門』アスク
工藤 拓 (2006). MeCab Ver. 0.98pre3(形態素解析器) http://mecab.sourceforge.net/ 2009年7月10日
小森和子・三國純子・近藤安月子 (2004)「文章理解を促進する語彙知識の量的側面 ―既知語率の閾値探
索の試み―」『日本語教育』 125, 83-92.
2015/11/14
参考文献(3)
菅長陽一・松下達彦(2013)「日本語テキスト語彙分析器J-LEX」
URL: http://www17408ui.sakura.ne.jp/index.html
伝 康晴・山田 篤・小椋秀樹・小磯花絵・小木曽智信 (2009). UniDic version 1.3.12(解析辞書)
http://www.tokuteicorpus.jp/dist/ (Ver. 1.3.0.は 2007)
野口裕之 (2008)「試験結果の分析」国際交流基金・日本国際教育支援協会『平成17年度日本語能力試
験 分析評価に関する報告書』 45–111、凡人社
松下達彦 (2010) 「日本語を読むために必要な語彙とは? -書籍とインターネットの大規模コーパスに基づ
く語彙リストの作成-」『2010年度日本語教育学会春季大会予稿集』335-336.
松下達彦 (2011a) 日本語を読むための語彙データベース (The Vocabulary Database for Reading
Japanese). http://www.geocities.jp/tatsum2003/ 2011年5月22日
松下達彦 (2011b) 「複数の語彙リストの比較による、日本語の常用語に含まれる日中同形漢語の量的検
証 -学習開始時点で、受容的語彙知識は、学習者の母語によりどのぐらい異なるか-」The 4th
Annual North East Asian Region (N.E.A.R.) Language Education Conference, International
University of Japan, Niigata, Japan, 28 May 2011.
松下達彦 (2011c) 「日本語の学術共通語彙(アカデミック・ワード)の抽出と妥当性の検証」『2011年
度 日本語教育学会春季大会 予稿集』 244–249.
松下達彦 (2012a)「日本語を読むための語彙量テスト」の開発」『2012年日本語教育国際研究大会予
稿集第一分冊』 310.
松下達彦 (2012b) 「日本語文芸語彙の抽出と検証 ―コーパスに基づくアプローチ―」第九回国際日本語
教育・日本研究シンポジウム、香港城市大学、2012年11月24日
松下達彦 (近刊予定) 「コーパス出現頻度から見た語彙シラバス」森篤嗣編『ニーズを踏まえた語彙シラバ
ス』くろしお出版