日本語教育学会2011年春季大会口頭発表スライド

日本語の学術共通語彙(アカデミック・
ワード)の抽出と妥当性の検証
松下 達彦
Victoria University of Wellington 大学院生
[email protected]
* Web 版発表要旨の訂正 =予稿集は正しいです
本発表の概要
 日本語の学術共通語彙を抽出
 妥当性を検討
1.「学術共通語彙」とは
2.研究目的
3.研究方法
4.結果および考察
5.今後の課題、まとめ
1.学術共通語彙とは
 一般的テキストでの使用率に比べて,
学術的なテキストでより高い使用率を占める語彙
 分野を問わずに高い使用率
⇔専門語彙:特定の分野においてのみ高い使用率
 一般的な基本語彙と専門語彙の中間に位置する
語彙
 大学留学生にとっては,初級の基本的語彙に次い
で重要な語彙
先行研究
 類似の語群の存在の指摘
 「はざま表現」(札野・深澤1995)
 「日常語に使用される語彙と専門用語との間に位置
する専門分野を超えた学術的な語彙」(深尾2001)
 「基礎専門語」(水元・池田2003)
・・・学術共通語彙の全面的抽出はしていない
(角2010、バトラー後藤2010 は後述)
 英語教育では抽出もされ、幅広く利用されている
 Academic Word List (Coxhead, 2000)
 University Word List (Xue & Nation, 1984)
2.研究目的
学習負担軽減の重要性
 第二言語・外国語語彙学習の負担は非常に大きい
 中級以降,頻出語句が減少
 最頻出1000語では60~70%に達するテキストカバー率,
それ以降は1000語で数パーセント以下 「中級の壁」
(国立国語研究所1962など)
 目的に即した語彙学習が重要
それなしでは学習効率が低下、挫折の原因にも
効率的な学術テキストの語彙学習
 目的が限られる学習者
初めから専門語彙を学ぶほうが効率的か
(Ward, 1999; Hyland & Tse, 2007)
 (進学準備中など)専門を絞る前の段階
学術共通語彙を効率的に学ぶことが有効
 田地野ほか(2007)
-カリキュラムの段階に応じた語彙を想定
例)学術共通語彙文系共通語彙経済学用語
 本研究もこの考え方を踏襲
留学生対象の日本語語彙リスト
 これまでにもいろいろ(国立国語研究所1982にまとめ)
 初級語彙や専門語彙を含み
学術語彙に絞られたものではない
 選定方法も主観を交えたものがほとんど
 学術共通語彙的な性格を目指した語彙リスト
 角(2010)「学術基本用語集」
-大学受験用「現代国語」の語彙集に基づく
AWLの意義に言及,しかし難解な低頻度語を多数採録
 バトラー後藤(2010)「小中学生のための日本語学習語リスト」
-AWLと類似の方法、児童・生徒対象,主観判定も採用
など
方法も対象も異なる
方法や妥当性の検証に計量的裏付けが乏しい
学習・教育用の語彙リストの評価
 効率性の評価:(単位語数あたりの)テキストカバー率
= (単位語数あたりの)延べ語数の使用率の合計
=そのリストの語が,対象テキストで,
他の語彙より高い割合で出現するか
 テキスト理解では,カバー率を上げて未知語の密度を
減らすことが最も重要な要素の一つ
(Hu & Nation, 2000など)
(高田2006 にまとめ)
本研究の目的
 幅広い分野の学術的テキストで一般的テキストより
高いカバー率を示す語彙リストを作成
 カバー率の検証 妥当性,有用性を検証
留学生などの語彙学習負担の軽減
より有効な語彙学習カリキュラムの開発
3.研究方法
対象テキストと計数単位
 『現代日本語書き言葉均衡コーパス』(BCCWJ) モニター
公開データ(2009年版)(国立国語研究所2009)
 書籍部分約2800万語のテキスト
 計数単位(語の区切り):UniDicの短単位
(ほぼ形態素レベル)
 形態素解析器:MeCab(工藤2006)
 解析用辞書:UniDic(伝ほか2009)
(UniDicの出力をAntWordProfiler で使用するため,
テキストエディタ上でマクロを作成して加工)
テキストの分類
 学術領域の分類
 学術領域の分類:科研費や留学生数統計の分類を参照
 日本十進分類法などを手がかりに
人文系,社会系,理工系,生物・医学系の4領域に分類
 専門(学術)テキストと一般テキスト
 Cコード:出版社がつけるコード(千の位が販売対象コード)
 各領域について
Cコード 3000番台=専門テキスト(約300万語)
その他=一般テキスト(約2500万語)
専門(学術)テキストのタイトル例
言語分野
 続昭和(→平成)日本語方言の総合的研究
 国際コミュニケーションと国際関係
 日英対照動詞の意味と構文
 英語から日本が見える
 漢字のいい話
 国語文字史の研究
 「た」の言語学
 ことばの歴史
 京阪系アクセント辞典
 日本語モダリティの史的研究
学術領域の分類
学術領域
人文
文系
社会
理工
理系
生物・医学
NDCとの分類対応はこちら
学術分野
言語・言語学
歴史
民族学・文化人類学
哲学、宗教
芸術
文学
人文・芸術(その他)
政治学
法学
経済学
経営学、商学
社会学
教育学
社会科学(その他)
数学
物理学
天文学・地球惑星科学
化学、金属・鉱山
工学(建築・土木)
工学(機械、電気、海洋・船舶)
理工系自然科学(その他)
生物学
農学
薬学
医学
歯学
看護学
生物系自然科学(その他)
注
福祉、労働、ジェンダー等を含む
教科教育法も含む
運輸、通信、心理学、時事問題を含む
情報工学、製造工業、生活科学(一部)、情報科学、図書館学など
林学、水産学、畜産学・獣医学を含む
スポーツ、衛生学、生活科学(一部)、環境 など
下位コーパス分野別の異なり語数と延べ語数 BCCWJ 2009 版(書籍+「Yahoo知恵袋」)
学術領域
学術分野
一般テキスト
異なり語数
延べ語数
専門テキスト
合計
異なり語数 延べ語数
異なり語数 延べ語数
備考
人文
言語・言語学
歴史
民族学・文化人類学
哲学、宗教
芸術
文学
人文・芸術(その他)
小計
21252
49700
39759
36253
35501
68439
46304
403305
2096004
1083009
1503013
967809
8251999
1973098
16278237
7831
11835
3040
9269
5042
5592
683
102504
138139
19666
125917
39744
36852
3414
466236
23708
51514
40150
38229
36177
68915
46337
社会
政治学
法学
経済学
経営学、商学
社会学
教育学
社会科学(その他)
小計
26299
16502
20015
22087
30362
20157
18993
920841
511059
684404
846432
1318930
621050
424164
5326880
8814
10074
12534
10788
12960
10417
4114
115166
333946
367555
310716
333772
262063
36168
1759386
27900
19542
23525
24489
33008
22675
19652
1036007
845005
1051959
1157148
1652702 福祉、労働、ジェンダーも含める。
883113 教科教育法もすべてここに含める。
460332 運輸、通信、心理学、時事問題も含める。
7086266
数学
物理学
天文学・地球惑星科学
3497
2368
8181
4682
16242
12993
18530
40397
25239
101565
37469
307617
195762
399470
1107519
1959
1280
2583
2553
7662
5495
8426
19472
9430
21765
23275
114099
72049
145175
405265
4352
2920
9035
6017
18443
14820
21018
59869
34669
123330
60744
421716
267811
544645
1512784
14680
14932
3610
16657
1740
2348
28254
262283
238989
24703
485896
11551
19255
943822
1986499
5224852
4064
3376
1103
5955
874
2491
6749
41071
28584
10197
82800
3814
23505
74567
264538
15672
15860
4017
17961
2174
3744
29490
303354
267573 林学、水産学、畜産学・獣医学を含む。
34900
568696
15365
42760
1018389 スポーツ、衛生学、生活科学(一部)、環境 など
2251037
5224852
29923987
46996
文系
理工
理系
生物・医学
化学、金属・鉱山
工学(建築・土木)
工学(機械、電気、海洋・船舶)
理工系自然科学(その他)
小計
生物学
農学
薬学
医学
歯学
看護学
生物系自然科学(その他)
小計
インターネットQ&Aフォーラム(「Yahoo知恵袋」)
インターネットQ&Aフォーラム(「Yahoo知恵袋」)
合計
54215
54215
2895425
505809
2234143
1102675
1628930
1007553
8288851
1976512
16744473
144231 32819412
情報工学、製造工業、生活科学(一部)、情報科学、図書館学など
特徴語の抽出(1)
 AntConc (Anthony, 2007) のkeyness 機能を利用
 対象テキスト:人文系,社会系,理工系,生物・医学系
4領域の各専門テキスト(計約290万語)
 参照テキスト:全領域の一般テキスト約2500万語
+「Yahoo知恵袋」約500万語(計約3000万語)
 対数尤度比 (log-likelihood ratio) (Dunning, 1993)
 (正規分布などの)特定の分布を要求しない
 テキストの大きさが異なる場合にも比較可能な値を返す
(Leech, Rayson, & Wilson, 2001)
 適度な割合で特徴語を抽出 (Chujo & Utiyama, 2006)
特徴語の抽出(2)
 AntConc (Anthony, 2007) のkeyness 機能を利用
 対数尤度比が3領域以上で正の値 すべて抽出
 文理両面において使用される語を抽出するため
 旧日本語能力試験4級語彙、20000語より低いレベルの
語は除外 (予稿集に書き忘れました)
 「日本語を読むための語彙データベース」
(松下2011,ダウンロード可)の留学生用語彙ランクで
初級から超上級に分類
(ランク付けの方法については松下(2010)参照)
カバー率の検証方法
 AntWordProfiler (Anthony, 2009)を利用
 カバー率の検証
一般テキスト(会話,文芸書など) < 専門テキスト
となるかどうか
 抽出時に使用したコーパスとテストコーパス
 テストコーパス
=学術共通語彙の抽出の際に使用していないコーパス
テストコーパス
予稿集p.245-246
 (MC) 会話:名大会話コーパス(日本語母語話者同士の雑談),約113万語
 (BS) 一般書:『現代日本語書き言葉均衡コーパス』2009年モニター版(国立国語研究所
2009)「ベストセラー」部分(文芸テキスト数が53%,専門テキストなし),約230万語
 (PC) 一般書:「日英対訳文対応付けデータ」(内山・高橋2003)の日本語部分(文芸書,
エッセイなど),210万語
 (JN) 新聞:日英新聞記事対応付けデータ (JENAAD) (Utiyama & Isahara, 2003)の日本語
部分(1989-2001の「読売新聞」記事)約568万語
 (IS) 人文・社会系専門テキスト:新屋・松下編(未公刊)『日本語上級読解演習 国際学ア
ラカルト』本文部分,約4万語
 (TB) 社会系専門テキスト:「中・上級社会科学系読解教材テキストバンク」(東京外国語
大学留学生日本語教育センター1998)本文部分,約19万語
 (SS) 社会系専門テキスト:『留学生のための専門講義の日本語』(名古屋大学 国際化
拠点整備事業2010 )全9冊中,社会系の3冊分の講義テキスト部分,約5万語
 (TN) 理工系専門テキスト:『留学生のための専門講義の日本語』(同上)全9冊中,理工
系の5冊分の講義テキスト部分,約7万語
 (BM) 生物・医学系専門テキスト:『留学生のための専門講義の日本語』(同上)全9冊中,
生物・医学系の1冊分の講義テキスト部分,約1万語
4.結果および考察
抽出結果
 学術共通語彙リスト
(JAWL = Japanese Academic Word List)
0~Ⅷ 9レベル,計2591語(表1) 予稿集p.246
 中級の JAWLⅠ:学習・教育上,最も重要なリスト
 初級には学術共通語彙の数も少ない
 JAWLⅠ 559語
Academic Word List (Coxhead, 2000)570語に近い語数
 カバー率もAWLに非常に近い
抽出時使用の学術コーパスのカバー率
AWL: 10.0%
JAWLⅠ: 11.1%
表 1 日 本 語 学 術 共 通 語 彙 (JAWL) の レ ベ ル 別 異 な り 語 数 ・ 語 例 ・ 語 種 比 率
旧日
学術共 本語
能力
通語彙 試験
ラベル 出題
範囲
4大
語種比率(%)
領域
留学生のた
語例
(異なり語数)
中の 異な
めの一般的
レベル 共通 り語
な語彙重要
(各カテゴリー中、一般的語彙重要度
領域
数 ランク最下位6語)
外来 混種 固有
度ランク (*1)
和語 漢語
数
語
語 名詞
(*2)
記号
不明
その
他
4
31
科学 規則 割合
生産 産業 講義
25.8 67.7
0.0
3.2
0.0
3.2
3
39
人口 ス ク リ ーン 数学
競争 工業 地理
20.5 71.8
7.7
0.0
0.0
0.0
4
559
発足 半数 配分
縮小 適正 見直し
20.6 74.6
2.1
2.5
0.0
0.2
JAWL II
3
542
演説 大小 実情
ス テ ージ ラ イ フ 担保
14.2 76.8
6.5
1.3
1.1
0.2
JAWL III
4
212
難問 能動 付随
定型 除 本稿
12.7 76.9
7.5
2.8
0.0
0.0
3
452
交錯 カ ウ ン ト 精度
一因 箇年 エ ン ド
12.4 75.9
9.1
1.5
0.9
0.2
4
103
併存 親和 盛況
散在 補填 関わ り 合う
8.7 82.5
7.8
1.0
0.0
0.0
3
328
帰着 編著 沿海
拮抗 常套 内情
13.1 75.0
9.5
1.5
0.3
0.6
4
56
閉 増刊 含意
複 活路 所与
16.1 66.1 10.7
3.6
0.0
3.6
3
269
付則 深度 孤
概算 頒布 円錐
14.1 71.4 11.2
1.9
0.0
1.5
JAWL 0 3級
679-1288
初級
JAWL I
1289-5000
JAWL IV
2級
5001-10000
中級
上級
前半
1級
JAWL V 級外
JAWL VI
JAWL VII
JAWL VIII
上級
10001-15000
後半
超
15000-20000
上級
予稿集には掲載していません
日本語学術共通語彙 (JAWL) 各レベルの旧日本語能力試験出題範囲別の異なり語数
留学生のた
4大領域
めの一般的
学術共通
中の共通
な語彙重要 レベル 領域数
語彙ラベル
度ランク
(*2)
(*1)
4
679-1288
JAWL 0
初級
3
4
JAWL I
1289-5000 中級
3
JAWL II
4
JAWL III
上級
5001-10000
前半
3
JAWL IV
4
JAWL V
上級
10001-15000
後半
3
JAWL VI
4
JAWL VII
超
15000-20000
上級
3
JAWL VIII
JAWL全体
679-20000
全体
4/3
旧日本語能力試験出題範囲レベル
(異なり語数)
3級
2級
31 -39 ---------70
1級
---
異なり
語数
級外 合計
---
308
268
28
39
2
5
2
8
171
173
46
118
5
28
3
10
660
554
80
101
138
295
96
295
51
251
31
39
559
542
212
452
103
328
56
269
1307 2591
予稿集には掲載していません
日本語学術共通語彙 (JAWL)各レベル の旧日本語能力試験出題範囲別の異なり語数の割合(%)
留学生のた
4大領域
めの一般的
学術共通
中の共通
な語彙重要 レベル 領域数
語彙ラベル
度ランク
(*2)
(*1)
4
679-1288
JAWL 0
初級
3
4
JAWL I
1289-5000 中級
3
JAWL II
4
JAWL III
上級
5001-10000
前半
3
JAWL IV
4
JAWL V
上級
10001-15000
後半
3
JAWL VI
4
JAWL VII
超
15000-20000
上級
3
JAWL VIII
JAWL全体
679-20000
全体
4/3
旧日本語能力試験出題範囲レベル
(異なり語数の割合(%))
3級
2級
100.0 -100.0 ---------2.7
1級
---
異なり
語数
級外 合計
---
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
55.1
49.4
13.2
8.6
1.9
1.5
3.6
3.0
30.6
31.9
21.7
26.1
4.9
8.5
5.4
3.7
14.3
18.6
65.1
65.3
93.2
89.9
91.1
93.3
25.5
21.4
50.4 100.0
表 2 日 本 語 学 術 共 通 語 彙 の テ キ ス ト カ バ ー 率 ・ テ キ ス ト カ バ ー 効 率 の 比 較
MC 会話
N=1129538
ジャンル
旧日
本語
語彙 能力 レベ
ラベル 試験 ル
出題
範囲
Basic
4級
(non3級
JAWL)
JAWL II
中級
JAWL III
上級
前半
2級
JAWL IV
1級
JAWL V 級外 上級
後半
JAWL VI
JAWL VII
JAWL VIII
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
PC 一般書 BCCWJ全体 JN 新聞
N=2298828 N=32819424 N=5675357
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
テキ
ストカ
バー
率
(%)
(*2)
テキ
スト
カバ
ー効
率
(*3)
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
IS 人文・社会系
N=42152
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
TB 社会系
N=186768
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
SS 社会系
N=50601
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
TN 理工系
N=74645
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
BM 生物・医学系
N=13904
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
80.6 660 73.0 602 72.4 586 68.6 552 57.0 466 62.0 991 62.5 722 66.2 1237 59.8 1154 60.4 2033
JAWL 0 3級 初級
JAWL I
4大
領域
中の
共通
領域
数
(*1)
BS 一般書
N=2102178
超
上級
4 0.58
3 0.65
4 0.77
3 0.53
4 0.03
3 0.07
4 0.01
3 0.02
4 0.00
3 0.01
187
166
17
12
3
3
2
2
3
2
1.18 382 1.26 405 1.63 525 2.07 667 2.40
1.39 356 1.31 337 1.38 354 1.85 475 2.38
3.14 56 2.66 48 4.57 82 8.70 156 10.2
1.46 27 1.56 29 2.62 48 6.58 122 4.66
6 0.07
4 0.16
8 0.32 15 0.23
0.12
5 0.19
4 0.35
8 0.77 17 0.57
0.21
3 0.02
2 0.03
3 0.05
5 0.06
0.02
3 0.06
2 0.11
3 0.25
8 0.16
0.06
1 0.01
1 0.01
2 0.01
3 0.04
0.00
2 0.03
2 0.05
2 0.11
4 0.05
0.03
799
701
221
126
39
42
41
35
37
32
2.75 888 2.99 998 3.65 1217 2.73 1139
2.35 654 2.22 673 1.80 561 1.65 1029
9.72 178 9.77 237 11.1 279 11.1 457
5.05 99 4.82 161 2.89 115 4.23 365
0.37 23 0.38 65 0.68 98 0.45 178
0.70 24 0.45 58 1.88 169 2.14 521
0.05 13 0.05 33 0.08 61 0.06 115
0.21 15 0.12 55 0.63 126 0.31 221
0.02 15 0.02 49 0.10 100 0.04 432
0.08 11 0.07 37 0.38 142 0.05 126
*1 人文,社会,理工,生物・医学の4大領域のうち,いくつの分野で特徴的かを示す。具体的には,専門テキストにおける対数尤度比
(一般テキストを参照コーパスにした場合)が,上記4分野のうち,いくつの分野で+となっているかを表す。
*2 そのカテゴリーの語彙がテキスト全体に占める延べ語数の割合。
*3 テキストカバー率を,そのカテゴリーの異なり語数で割り,1000000をかけたもの。そのカテゴリーの1種類の語が平均的にどれ
だけのテキストをカバーするかを示す。延べ語数と異なり語数の関係はテキストのサイズによって異なるため,同じテキストの中で
カテゴリー間を比較することはできるが,大きさの著しく異なるテキスト間で数値を比較する際は注意が必要である。この数値が大
きいほど,そのカテゴリーの語彙を学ぶことで効率よくそのテキストを理解できるようになることを予測する。
カバー率の検証(テストコーパス)
 テストコーパス: 特徴語抽出時に使用していないコーパス
 学術テキストでのカバー率
AWL: 8.5% (Coxhead, 2000) 9.3~11.1% (Hyland & Tse, 2007)
JAWLⅠ: 9.7~11.1% 一貫して高いカバー率(表2) 予稿集p.247
 非学術テキストでのカバー率
AWL 創作テキスト: 1.4%
JAWLⅠ 一般書(文芸書,エッセイなど):3%前後 会話:1%未満
 ただし,単純な比較はできない
 AWLは英語のリスト
 AWLは抽出時に基本語彙集 GSL (West, 1953)の2000語を除外
 AWLは “word family” 単位だが,JAWLは「語彙素」単位
サンプル・テキスト(Wikipedia 「文化人類学」より)
人類学は一般に、人類の進化や生物学的側面を研究する自
然人類学と、人類の社会的・文化的側面を研究する文化人類
学(Cultural Anthropology)あるいは社会人類学(Social
Anthropology)に大別される。文化人類学の名称はアメリカにおい
て用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類
学」の名称が用いられてきた。他のヨーロッパ諸国や日本において
は民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名
称も用いられている(民族学を一分野とする場合も多い)。民俗学
(Folklore)もまた隣接分野として共通の研究テーマを共有すること
が多い。
自然人類学は、人類を進化の過程によって形作られてきた
生物学的側面から捉える。それに対して、文化人類学は自然
の対義としての文化から人類を研究しようとする学問分野で
ある。文化とは、進化の過程を経て形成された遺伝的な形質
のことではなく、人類が後天的に学習した行動パターンや言
語、人工物の総体を指している。したがって文化人類学の隣
接科学には言語学と考古学があり、アメリカの学部ではこれ
らの学問に加えて自然人類学をあわせて総合的に教育されて
いる。
初級語彙57.7% (旧日能試4級+3級 JAWL 0 6.8%含む)
人類学は一般に、人類の進化や生物学的側面を研究する
自然人類学と、人類の社会的・文化的側面を研究する文化人
類学(CulturalAnthropology)あるいは社会人類学
(SocialAnthropology)に大別される。文化人類学の名称はアメ
リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で
は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸
国や日本においては民族学(英語圏でのEthnology、ドイツ語
圏でのEthnologie)の名称も用いられている(民族学を一分野
とする場合も多い)。民俗学(Folklore)もまた隣接分野として共
通の研究テーマを共有することが多い。
自然人類学は、人類を進化の過程によって形作られてきた
生物学的側面から捉える。それに対して、文化人類学は自然
の対義としての文化から人類を研究しようとする学問分野であ
る。文化とは、進化の過程を経て形成された遺伝的な形質のこ
とではなく、人類が後天的に学習した行動パターンや言語、人
工物の総体を指している。したがって文化人類学の隣接科学
には言語学と考古学があり、アメリカの学部ではこれらの学問
に加えて自然人類学をあわせて総合的に教育されている。
初級語彙(JAWL0含む) +JAWLⅠ 20.4%
人類学は一般に、人類の進化や生物学的側面を研究する
自然人類学と、人類の社会的・文化的側面を研究する文化人
類学(CulturalAnthropology)あるいは社会人類学
(SocialAnthropology)に大別される。文化人類学の名称はアメ
リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で
は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸
国や日本においては民族学(英語圏でのEthnology、ドイツ語
圏でのEthnologie)の名称も用いられている(民族学を一分野
とする場合も多い)。民俗学(Folklore)もまた隣接分野として
共通の研究テーマを共有することが多い。
自然人類学は、人類を進化の過程によって形作られてきた
生物学的側面から捉える。それに対して、文化人類学は自然
の対義としての文化から人類を研究しようとする学問分野であ
る。文化とは、進化の過程を経て形成された遺伝的な形質の
ことではなく、人類が後天的に学習した行動パターンや言語、
人工物の総体を指している。したがって文化人類学の隣接科
学には言語学と考古学があり、アメリカの学部ではこれらの学
問に加えて自然人類学をあわせて総合的に教育されている。
初級語彙 (JAWL0含む) +JAWLⅠ 計78.1%
人類学は一般に、人類の進化や生物学的側面を研究する
自然人類学と、人類の社会的・文化的側面を研究する文化人
類学(CulturalAnthropology)あるいは社会人類学
(SocialAnthropology)に大別される。文化人類学の名称はアメ
リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で
は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸
国や日本においては民族学(英語圏でのEthnology、ドイツ語
圏でのEthnologie)の名称も用いられている(民族学を一分野
とする場合も多い)。民俗学(Folklore)もまた隣接分野として共
通の研究テーマを共有することが多い。
自然人類学は、人類を進化の過程によって形作られてきた
生物学的側面から捉える。それに対して、文化人類学は自然
の対義としての文化から人類を研究しようとする学問分野であ
る。文化とは、進化の過程を経て形成された遺伝的な形質の
ことではなく、人類が後天的に学習した行動パターンや言語、
人工物の総体を指している。したがって文化人類学の隣接科
学には言語学と考古学があり、アメリカの学部ではこれらの学
問に加えて自然人類学をあわせて総合的に教育されている。
初級語彙(JAWL0含む)+JAWLⅠ+JAWLⅡ
6.4%
人類学は一般に、人類の進化や生物学的側面を研究する
自然人類学と、人類の社会的・文化的側面を研究する文化人
類学(CulturalAnthropology)あるいは社会人類学
(SocialAnthropology)に大別される。文化人類学の名称はアメ
リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で
は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸
国や日本においては民族学(英語圏でのEthnology、ドイツ語
圏でのEthnologie)の名称も用いられている(民族学を一分野
とする場合も多い)。民俗学(Folklore)もまた隣接分野として
共通の研究テーマを共有することが多い。
自然人類学は、人類を進化の過程によって形作られてきた
生物学的側面から捉える。それに対して、文化人類学は自然
の対義としての文化から人類を研究しようとする学問分野であ
る。文化とは、進化の過程を経て形成された遺伝的な形質の
ことではなく、人類が後天的に学習した行動パターンや言語、
人工物の総体を指している。したがって文化人類学の隣接科
学には言語学と考古学があり、アメリカの学部ではこれらの学
問に加えて自然人類学をあわせて総合的に教育されている。
初級語彙57.7% (JAWL0含む) +JAWLⅠ20.4%+JAWLⅡ
6.4% 計84.5%
人類学は一般に、人類の進化や生物学的側面を研究する
自然人類学と、人類の社会的・文化的側面を研究する文化人
類学(CulturalAnthropology)あるいは社会人類学
(SocialAnthropology)に大別される。文化人類学の名称はアメ
リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で
は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸
国や日本においては民族学(英語圏でのEthnology、ドイツ語
圏でのEthnologie)の名称も用いられている(民族学を一分野
とする場合も多い)。民俗学(Folklore)もまた隣接分野として共
通の研究テーマを共有することが多い。
自然人類学は、人類を進化の過程によって形作られてきた
生物学的側面から捉える。それに対して、文化人類学は自然
の対義としての文化から人類を研究しようとする学問分野であ
る。文化とは、進化の過程を経て形成された遺伝的な形質の
ことではなく、人類が後天的に学習した行動パターンや言語、
人工物の総体を指している。したがって文化人類学の隣接科
学には言語学と考古学があり、アメリカの学部ではこれらの学
問に加えて自然人類学をあわせて総合的に教育されている。
初級・JAWLⅠ・Ⅱ 84.5%+その他中級語彙 11.7% 計96.2%
人類学は一般に、人類の進化や生物学的側面を研究する
自然人類学と、人類の社会的・文化的側面を研究する文化人
類学(CulturalAnthropology)あるいは社会人類学
(SocialAnthropology)に大別される。文化人類学の名称はアメ
リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で
は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸
国や日本においては民族学(英語圏でのEthnology、ドイツ語
圏でのEthnologie)の名称も用いられている(民族学を一分野
とする場合も多い)。民俗学(Folklore)もまた隣接分野として
共通の研究テーマを共有することが多い。
自然人類学は、人類を進化の過程によって形作られてきた
生物学的側面から捉える。それに対して、文化人類学は自然
の対義としての文化から人類を研究しようとする学問分野であ
る。文化とは、進化の過程を経て形成された遺伝的な形質の
ことではなく、人類が後天的に学習した行動パターンや言語、
人工物の総体を指している。したがって文化人類学の隣接科
学には言語学と考古学があり、アメリカの学部ではこれらの学
問に加えて自然人類学をあわせて総合的に教育されている。
初級・中級語彙 96.2% +JAWLⅢ・Ⅳ 1.5% 計97.7%
人類学は一般に、人類の進化や生物学的側面を研究する
自然人類学と、人類の社会的・文化的側面を研究する文化人
類学(CulturalAnthropology)あるいは社会人類学
(SocialAnthropology)に大別される。文化人類学の名称はアメ
リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で
は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸
国や日本においては民族学(英語圏でのEthnology、ドイツ語
圏でのEthnologie)の名称も用いられている(民族学を一分野
とする場合も多い)。民俗学(Folklore)もまた隣接分野として
共通の研究テーマを共有することが多い。
自然人類学は、人類を進化の過程によって形作られてきた
生物学的側面から捉える。それに対して、文化人類学は自然
の対義としての文化から人類を研究しようとする学問分野であ
る。文化とは、進化の過程を経て形成された遺伝的な形質の
ことではなく、人類が後天的に学習した行動パターンや言語、
人工物の総体を指している。したがって文化人類学の隣接科
学には言語学と考古学があり、アメリカの学部ではこれらの学
問に加えて自然人類学をあわせて総合的に教育されている。
JAWLⅠ+Ⅱ+Ⅲ+Ⅳ 28.3%
人類学は一般に、人類の進化や生物学的側面を研究す
る自然人類学と、人類の社会的・文化的側面を研究する
文化人類学(CulturalAnthropology)あるいは社会人類学
(SocialAnthropology)に大別される。文化人類学の名称は
アメリカにおいて用いられ、イギリスおよび多くのヨー
ロッパ諸国では「社会人類学」の名称が用いられてきた。
他のヨーロッパ諸国や日本においては民族学(英語圏で
のEthnology、ドイツ語圏でのEthnologie)の名称も用い
られている(民族学を一分野とする場合も多い)。民俗
学(Folklore)もまた隣接分野として共通の研究テーマを
共有することが多い。
自然人類学は、人類を進化の過程によって形作られて
きた生物学的側面から捉える。それに対して、文化人類
学は自然の対義としての文化から人類を研究しようとす
る学問分野である。文化とは、進化の過程を経て形成さ
れた遺伝的な形質のことではなく、人類が後天的に学習
した行動パターンや言語、人工物の総体を指している。
したがって文化人類学の隣接科学には言語学と考古学が
サンプル・テキスト(Wikipedia 「有機化合物」より)
有機化学は、有機化合物すなわち炭素化合物の合成、
性質についての研究を目的とする化学の分野である。伝統的
には二酸化炭素や一酸化炭素、炭酸などは有機化合物に含
めない。大体はC−C結合かC−H結合を持つものが有機化合
物である。また、ある有機化合物を炭素以外(金属元素の場
合も含む)の基で置換した構造を持つ化学物質も広義の有機
化合物として有機化学の対象とされる物もある。
構造有機化学、反応有機化学(有機反応論)、合成有機化
学、生物有機化学などの分野がある。
100を超える元素の中で炭素の化合物だけが特に取り上げ
られる理由は、炭素が無限の多様性をもつ物質を作る材料に
なりうるからである。実際、現在知られている化合物のうち、炭
素以外の元素のみからなるものは、炭素を含むものにはるか
に及ばない。また生体を構成するタンパク質や核酸、糖、脂質
といった化合物もすべて炭素化合物である。
JAWLⅠ 18.8%
有機化学は、有機化合物すなわち炭素化合物の合成、
性質についての研究を目的とする化学の分野である。伝
統的には二酸化炭素や一酸化炭素、炭酸などは有機化合
物に含めない。大体はC−C結合かC−H結合を持つものが
有機化合物である。また、ある有機化合物を炭素以外
(金属元素の場合も含む)の基で置換した構造を持つ化
学物質も広義の有機化合物として有機化学の対象とされ
る物もある。
構造有機化学、反応有機化学(有機反応論)、合成有
機化学、生物有機化学などの分野がある。
100を超える元素の中で炭素の化合物だけが特に取り
上げられる理由は、炭素が無限の多様性をもつ物質を作
る材料になりうるからである。実際、現在知られている
化合物のうち、炭素以外の元素のみからなるものは、炭
素を含むものにはるかに及ばない。また生体を構成する
タンパク質や核酸、糖、脂質といった化合物もすべて炭
JAWLⅠ 18.8% +JAWLⅡ 7.8%
計26.6%
有機化学は、有機化合物すなわち炭素化合物の合成、
性質についての研究を目的とする化学の分野である。伝
統的には二酸化炭素や一酸化炭素、炭酸などは有機化合
物に含めない。大体はC−C結合かC−H結合を持つものが
有機化合物である。また、ある有機化合物を炭素以外
(金属元素の場合も含む)の基で置換した構造を持つ化
学物質も広義の有機化合物として有機化学の対象とされ
る物もある。
構造有機化学、反応有機化学(有機反応論)、合成有
機化学、生物有機化学などの分野がある。
100を超える元素の中で炭素の化合物だけが特に取り上
げられる理由は、炭素が無限の多様性をもつ物質を作る
材料になりうるからである。実際、現在知られている化
合物のうち、炭素以外の元素のみからなるものは、炭素
を含むものにはるかに及ばない。また生体を構成するタ
ンパク質や核酸、糖、脂質といった化合物もすべて炭素
JAWLⅠ・Ⅱ 26.6% +JAWL Ⅳ・Ⅴ 6.4% 計
33.0%
有機化学は、有機化合物すなわち炭素化合物の合成、
性質についての研究を目的とする化学の分野である。伝
統的には二酸化炭素や一酸化炭素、炭酸などは有機化合
物に含めない。大体はC−C結合かC−H結合を持つものが
有機化合物である。また、ある有機化合物を炭素以外
(金属元素の場合も含む)の基で置換した構造を持つ化
学物質も広義の有機化合物として有機化学の対象とされ
る物もある。
構造有機化学、反応有機化学(有機反応論)、合成有
機化学、生物有機化学などの分野がある。
100を超える元素の中で炭素の化合物だけが特に取り上
げられる理由は、炭素が無限の多様性をもつ物質を作る
材料になりうるからである。実際、現在知られている化
合物のうち、炭素以外の元素のみからなるものは、炭素
を含むものにはるかに及ばない。また生体を構成するタ
ンパク質や核酸、糖、脂質といった化合物もすべて炭素
表 2 日 本 語 学 術 共 通 語 彙 の テ キ ス ト カ バ ー 率 ・ テ キ ス ト カ バ ー 効 率 の 比 較
MC 会話
N=1129538
ジャンル
旧日
本語
語彙 能力 レベ
ラベル 試験 ル
出題
範囲
Basic
4級
(non3級
JAWL)
JAWL II
中級
JAWL III
上級
前半
2級
JAWL IV
1級
JAWL V 級外 上級
後半
JAWL VI
JAWL VII
JAWL VIII
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
PC 一般書 BCCWJ全体 JN 新聞
N=2298828 N=32819424 N=5675357
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
テキ
ストカ
バー
率
(%)
(*2)
テキ
スト
カバ
ー効
率
(*3)
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
IS 人文・社会系
N=42152
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
TB 社会系
N=186768
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
SS 社会系
N=50601
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
TN 理工系
N=74645
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
BM 生物・医学系
N=13904
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
80.6 660 73.0 602 72.4 586 68.6 552 57.0 466 62.0 991 62.5 722 66.2 1237 59.8 1154 60.4 2033
JAWL 0 3級 初級
JAWL I
4大
領域
中の
共通
領域
数
(*1)
BS 一般書
N=2102178
超
上級
4 0.58
3 0.65
4 0.77
3 0.53
4 0.03
3 0.07
4 0.01
3 0.02
4 0.00
3 0.01
187
166
17
12
3
3
2
2
3
2
1.18 382 1.26 405 1.63 525 2.07 667 2.40
1.39 356 1.31 337 1.38 354 1.85 475 2.38
3.14 56 2.66 48 4.57 82 8.70 156 10.2
1.46 27 1.56 29 2.62 48 6.58 122 4.66
6 0.07
4 0.16
8 0.32 15 0.23
0.12
5 0.19
4 0.35
8 0.77 17 0.57
0.21
3 0.02
2 0.03
3 0.05
5 0.06
0.02
3 0.06
2 0.11
3 0.25
8 0.16
0.06
1 0.01
1 0.01
2 0.01
3 0.04
0.00
2 0.03
2 0.05
2 0.11
4 0.05
0.03
799
701
221
126
39
42
41
35
37
32
2.75 888 2.99 998 3.65 1217 2.73 1139
2.35 654 2.22 673 1.80 561 1.65 1029
9.72 178 9.77 237 11.1 279 11.1 457
5.05 99 4.82 161 2.89 115 4.23 365
0.37 23 0.38 65 0.68 98 0.45 178
0.70 24 0.45 58 1.88 169 2.14 521
0.05 13 0.05 33 0.08 61 0.06 115
0.21 15 0.12 55 0.63 126 0.31 221
0.02 15 0.02 49 0.10 100 0.04 432
0.08 11 0.07 37 0.38 142 0.05 126
*1 人文,社会,理工,生物・医学の4大領域のうち,いくつの分野で特徴的かを示す。具体的には,専門テキストにおける対数尤度比
(一般テキストを参照コーパスにした場合)が,上記4分野のうち,いくつの分野で+となっているかを表す。
*2 そのカテゴリーの語彙がテキスト全体に占める延べ語数の割合。
*3 テキストカバー率を,そのカテゴリーの異なり語数で割り,1000000をかけたもの。そのカテゴリーの1種類の語が平均的にどれ
だけのテキストをカバーするかを示す。延べ語数と異なり語数の関係はテキストのサイズによって異なるため,同じテキストの中で
カテゴリー間を比較することはできるが,大きさの著しく異なるテキスト間で数値を比較する際は注意が必要である。この数値が大
きいほど,そのカテゴリーの語彙を学ぶことで効率よくそのテキストを理解できるようになることを予測する。
日本語学術共通語彙の妥当性(1)
 初級語彙の占める割合との関係
 学術テキストでは初級の一般語彙の割合が一般テキストより低い
 中級の学術共通語彙を足すと一般テキストでのカバー率に近づく
 テキストカバー効率 (本研究のために考案)
=テキストカバー率を,そのカテゴリーの異なり語数で割り,
1000000をかけたもの
=そのカテゴリーの語を1語学習することで
平均的にどのぐらい効率よくカバー率を上げられるか
 大きさの異なるテキスト間の数値比較には注意が必要
延べ語数と異なり語数の関係がテキストの大きさで異なるため
 同じテキスト中のカテゴリー間比較は可能
 この数値が大きいほど,そのカテゴリーの語彙を学ぶことで
効率よくそのテキストを理解できるようになることを予測
表 2 日 本 語 学 術 共 通 語 彙 の テ キ ス ト カ バ ー 率 ・ テ キ ス ト カ バ ー 効 率 の 比 較
MC 会話
N=1129538
ジャンル
旧日
本語
語彙 能力 レベ
ラベル 試験 ル
出題
範囲
Basic
4級
(non3級
JAWL)
JAWL II
中級
JAWL III
上級
前半
2級
JAWL IV
1級
JAWL V 級外 上級
後半
JAWL VI
JAWL VII
JAWL VIII
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
PC 一般書 BCCWJ全体 JN 新聞
N=2298828 N=32819424 N=5675357
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
テキ
ストカ
バー
率
(%)
(*2)
テキ
スト
カバ
ー効
率
(*3)
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
IS 人文・社会系
N=42152
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
TB 社会系
N=186768
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
SS 社会系
N=50601
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
TN 理工系
N=74645
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
BM 生物・医学系
N=13904
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
80.6 660 73.0 602 72.4 586 68.6 552 57.0 466 62.0 991 62.5 722 66.2 1237 59.8 1154 60.4 2033
JAWL 0 3級 初級
JAWL I
4大
領域
中の
共通
領域
数
(*1)
BS 一般書
N=2102178
超
上級
4 0.58
3 0.65
4 0.77
3 0.53
4 0.03
3 0.07
4 0.01
3 0.02
4 0.00
3 0.01
187
166
17
12
3
3
2
2
3
2
1.18 382 1.26 405 1.63 525 2.07 667 2.40
1.39 356 1.31 337 1.38 354 1.85 475 2.38
3.14 56 2.66 48 4.57 82 8.70 156 10.2
1.46 27 1.56 29 2.62 48 6.58 122 4.66
6 0.07
4 0.16
8 0.32 15 0.23
0.12
5 0.19
4 0.35
8 0.77 17 0.57
0.21
3 0.02
2 0.03
3 0.05
5 0.06
0.02
3 0.06
2 0.11
3 0.25
8 0.16
0.06
1 0.01
1 0.01
2 0.01
3 0.04
0.00
2 0.03
2 0.05
2 0.11
4 0.05
0.03
799
701
221
126
39
42
41
35
37
32
2.75 888 2.99 998 3.65 1217 2.73 1139
2.35 654 2.22 673 1.80 561 1.65 1029
9.72 178 9.77 237 11.1 279 11.1 457
5.05 99 4.82 161 2.89 115 4.23 365
0.37 23 0.38 65 0.68 98 0.45 178
0.70 24 0.45 58 1.88 169 2.14 521
0.05 13 0.05 33 0.08 61 0.06 115
0.21 15 0.12 55 0.63 126 0.31 221
0.02 15 0.02 49 0.10 100 0.04 432
0.08 11 0.07 37 0.38 142 0.05 126
*1 人文,社会,理工,生物・医学の4大領域のうち,いくつの分野で特徴的かを示す。具体的には,専門テキストにおける対数尤度比
(一般テキストを参照コーパスにした場合)が,上記4分野のうち,いくつの分野で+となっているかを表す。
*2 そのカテゴリーの語彙がテキスト全体に占める延べ語数の割合。
*3 テキストカバー率を,そのカテゴリーの異なり語数で割り,1000000をかけたもの。そのカテゴリーの1種類の語が平均的にどれ
だけのテキストをカバーするかを示す。延べ語数と異なり語数の関係はテキストのサイズによって異なるため,同じテキストの中で
カテゴリー間を比較することはできるが,大きさの著しく異なるテキスト間で数値を比較する際は注意が必要である。この数値が大
きいほど,そのカテゴリーの語彙を学ぶことで効率よくそのテキストを理解できるようになることを予測する。
日本語学術共通語彙の妥当性(2)
 JAWL は学術語彙の効率的な学習に適している
おそらくは抽出方法も妥当
 JAWLのカバー率は上級や超上級では極めて小さいが
 他の語彙より,効率よく
学術テキストのカバー率を上げられる
 上級以降ではカバー率を上げるために数千語も必要
 たとえ0.1%でも効率よく学べることは重要
表 2 日 本 語 学 術 共 通 語 彙 の テ キ ス ト カ バ ー 率 ・ テ キ ス ト カ バ ー 効 率 の 比 較
MC 会話
N=1129538
ジャンル
旧日
本語
語彙 能力 レベ
ラベル 試験 ル
出題
範囲
Basic
4級
(non3級
JAWL)
JAWL II
中級
JAWL III
上級
前半
2級
JAWL IV
1級
JAWL V 級外 上級
後半
JAWL VI
JAWL VII
JAWL VIII
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
PC 一般書 BCCWJ全体 JN 新聞
N=2298828 N=32819424 N=5675357
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
テキ
ストカ
バー
率
(%)
(*2)
テキ
スト
カバ
ー効
率
(*3)
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
IS 人文・社会系
N=42152
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
TB 社会系
N=186768
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
SS 社会系
N=50601
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
TN 理工系
N=74645
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
BM 生物・医学系
N=13904
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
80.6 660 73.0 602 72.4 586 68.6 552 57.0 466 62.0 991 62.5 722 66.2 1237 59.8 1154 60.4 2033
JAWL 0 3級 初級
JAWL I
4大
領域
中の
共通
領域
数
(*1)
BS 一般書
N=2102178
超
上級
4 0.58
3 0.65
4 0.77
3 0.53
4 0.03
3 0.07
4 0.01
3 0.02
4 0.00
3 0.01
187
166
17
12
3
3
2
2
3
2
1.18 382 1.26 405 1.63 525 2.07 667 2.40
1.39 356 1.31 337 1.38 354 1.85 475 2.38
3.14 56 2.66 48 4.57 82 8.70 156 10.2
1.46 27 1.56 29 2.62 48 6.58 122 4.66
6 0.07
4 0.16
8 0.32 15 0.23
0.12
5 0.19
4 0.35
8 0.77 17 0.57
0.21
3 0.02
2 0.03
3 0.05
5 0.06
0.02
3 0.06
2 0.11
3 0.25
8 0.16
0.06
1 0.01
1 0.01
2 0.01
3 0.04
0.00
2 0.03
2 0.05
2 0.11
4 0.05
0.03
799
701
221
126
39
42
41
35
37
32
2.75 888 2.99 998 3.65 1217 2.73 1139
2.35 654 2.22 673 1.80 561 1.65 1029
9.72 178 9.77 237 11.1 279 11.1 457
5.05 99 4.82 161 2.89 115 4.23 365
0.37 23 0.38 65 0.68 98 0.45 178
0.70 24 0.45 58 1.88 169 2.14 521
0.05 13 0.05 33 0.08 61 0.06 115
0.21 15 0.12 55 0.63 126 0.31 221
0.02 15 0.02 49 0.10 100 0.04 432
0.08 11 0.07 37 0.38 142 0.05 126
*1 人文,社会,理工,生物・医学の4大領域のうち,いくつの分野で特徴的かを示す。具体的には,専門テキストにおける対数尤度比
(一般テキストを参照コーパスにした場合)が,上記4分野のうち,いくつの分野で+となっているかを表す。
*2 そのカテゴリーの語彙がテキスト全体に占める延べ語数の割合。
*3 テキストカバー率を,そのカテゴリーの異なり語数で割り,1000000をかけたもの。そのカテゴリーの1種類の語が平均的にどれ
だけのテキストをカバーするかを示す。延べ語数と異なり語数の関係はテキストのサイズによって異なるため,同じテキストの中で
カテゴリー間を比較することはできるが,大きさの著しく異なるテキスト間で数値を比較する際は注意が必要である。この数値が大
きいほど,そのカテゴリーの語彙を学ぶことで効率よくそのテキストを理解できるようになることを予測する。
領域別の特徴
 新聞には初級語彙が少なく,
中級の学術共通語彙が多い
 理系(理工系,生物・医学系)には
文系(人文系,社会系)より上級の学術共通語彙が多い
 3領域語(JAWLⅡなど)に欠けている1領域(一般テキストと
比較して学術テキストで高い割合を示さなかった領域)
 生物・医学系が1630語中613語(37.6%)と最多
 以下,人文系440語(27.0%),理工系343語(21.0%),社会系234語
(14.4%)
社会系は理工系や人文系との共通性が高い
生物・医学系は他の領域との共通性が相対的に低い
表 2 日 本 語 学 術 共 通 語 彙 の テ キ ス ト カ バ ー 率 ・ テ キ ス ト カ バ ー 効 率 の 比 較
MC 会話
N=1129538
ジャンル
旧日
本語
語彙 能力 レベ
ラベル 試験 ル
出題
範囲
Basic
4級
(non3級
JAWL)
JAWL II
中級
JAWL III
上級
前半
2級
JAWL IV
1級
JAWL V 級外 上級
後半
JAWL VI
JAWL VII
JAWL VIII
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
PC 一般書 BCCWJ全体 JN 新聞
N=2298828 N=32819424 N=5675357
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
テキ
ストカ
バー
率
(%)
(*2)
テキ
スト
カバ
ー効
率
(*3)
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
IS 人文・社会系
N=42152
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
TB 社会系
N=186768
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
SS 社会系
N=50601
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
TN 理工系
N=74645
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
BM 生物・医学系
N=13904
テキス
トカバ
ー率
(%)
(*2)
テキ
ストカ
バー
効率
(*3)
80.6 660 73.0 602 72.4 586 68.6 552 57.0 466 62.0 991 62.5 722 66.2 1237 59.8 1154 60.4 2033
JAWL 0 3級 初級
JAWL I
4大
領域
中の
共通
領域
数
(*1)
BS 一般書
N=2102178
超
上級
4 0.58
3 0.65
4 0.77
3 0.53
4 0.03
3 0.07
4 0.01
3 0.02
4 0.00
3 0.01
187
166
17
12
3
3
2
2
3
2
1.18 382 1.26 405 1.63 525 2.07 667 2.40
1.39 356 1.31 337 1.38 354 1.85 475 2.38
3.14 56 2.66 48 4.57 82 8.70 156 10.2
1.46 27 1.56 29 2.62 48 6.58 122 4.66
6 0.07
4 0.16
8 0.32 15 0.23
0.12
5 0.19
4 0.35
8 0.77 17 0.57
0.21
3 0.02
2 0.03
3 0.05
5 0.06
0.02
3 0.06
2 0.11
3 0.25
8 0.16
0.06
1 0.01
1 0.01
2 0.01
3 0.04
0.00
2 0.03
2 0.05
2 0.11
4 0.05
0.03
799
701
221
126
39
42
41
35
37
32
2.75 888 2.99 998 3.65 1217 2.73 1139
2.35 654 2.22 673 1.80 561 1.65 1029
9.72 178 9.77 237 11.1 279 11.1 457
5.05 99 4.82 161 2.89 115 4.23 365
0.37 23 0.38 65 0.68 98 0.45 178
0.70 24 0.45 58 1.88 169 2.14 521
0.05 13 0.05 33 0.08 61 0.06 115
0.21 15 0.12 55 0.63 126 0.31 221
0.02 15 0.02 49 0.10 100 0.04 432
0.08 11 0.07 37 0.38 142 0.05 126
*1 人文,社会,理工,生物・医学の4大領域のうち,いくつの分野で特徴的かを示す。具体的には,専門テキストにおける対数尤度比
(一般テキストを参照コーパスにした場合)が,上記4分野のうち,いくつの分野で+となっているかを表す。
*2 そのカテゴリーの語彙がテキスト全体に占める延べ語数の割合。
*3 テキストカバー率を,そのカテゴリーの異なり語数で割り,1000000をかけたもの。そのカテゴリーの1種類の語が平均的にどれ
だけのテキストをカバーするかを示す。延べ語数と異なり語数の関係はテキストのサイズによって異なるため,同じテキストの中で
カテゴリー間を比較することはできるが,大きさの著しく異なるテキスト間で数値を比較する際は注意が必要である。この数値が大
きいほど,そのカテゴリーの語彙を学ぶことで効率よくそのテキストを理解できるようになることを予測する。
学術共通語彙の意味的特徴
 抽象性が高く,論理操作に不可欠
 範囲: 「占める」 「特殊」
 関係: 「優れる」 「属する」
 段階: 「当初」 「現状」
 量的変化: 「減少」 「強化」
 論述の展開(書き手のスタンス):「取り上げる」「まとめる」
など
 最頻出漢字:
「合」「定」「分」「一」「同」「数」「上」「体」「出」「大」
 3領域語:「署名」「保健」など具体的なイメージの語も
 4領域語:そのような語が極めて少ない
 重要度のレベルが変わっても,その性格は変わらない
学術共通語彙の品詞(1)
 普通名詞:1072語(41.4%) 例) 「形式」 「背景」
 動名詞(=サ変語幹,スル動詞):882語(34.0%)
例)「設置」 「連続」
他のタイプの名詞とあわせて
2104語(81.2%)が名詞になり得る語
 動詞(動名詞を除く):225語(8.7%)
例)「認める」 「述べる」
 動名詞とあわせて1107語(42.7%)が動詞になり得る語
 「形状詞」(ナ形容詞/名詞,解析用辞書UniDicの用語):95語(3.7%)
例) 「詳細」 「平等」
 イ形容詞:9語(0.3%)のみ
例) 「著しい」 「等しい」
学術共通語彙の品詞(2)
 接辞:106語(4.1%)
例) 「-期」 「-種」 「各-」
重要な位置を占める
 副詞:34語(1.3%)
例) 「しばしば」 「あたかも」
 その他(助詞,助動詞,連体詞など):22語(0.8%)
 古語的な色彩を帯びた語が目立つ
例) 「のみ」 「つつ」 「べし」 「あらゆる」
「いかなる」 「我が」 「漠然」
 「れる」「られる」(受身・可能・自発など)も
学術テキストに特徴的
学術共通語彙の(異なり語数)語種比率(1)(表1)
 漢語:一貫して4分の3前後(全体では75.2%)。
 混種語も漢語的
 48語中36語が「漢字1字+する」の組み合わせ
例) 「達する」 「応ずる」 「接する」
 副詞も漢語的 例) 「概して」 「総じて」 「単に」
 学術共通語彙の77%程度が漢語系
 学術共通語彙は
明治期に創出された新漢語(鈴木1981など)が多く
現代中国語との間で意味・用法のずれも小さい
 学術テキストの語彙理解では,
中国語系学習者は相当に有利
表 1 日 本 語 学 術 共 通 語 彙 (JAWL) の レ ベ ル 別 異 な り 語 数 ・ 語 例 ・ 語 種 比 率
旧日
学術共 本語
能力
通語彙 試験
ラベル 出題
範囲
4大
語種比率(%)
領域
留学生のた
語例
(異なり語数)
中の 異な
めの一般的
レベル 共通 り語
な語彙重要
領域 数 (各カテゴリー中、一般的語彙重要度
外来 混種 固有
ランク最下位6語)
度ランク (*1)
和語 漢語
数
語
語 名詞
(*2)
科学 規則 割合
生産 産業 講義
4
31
3
39
4
559
JAWL II
3
542
JAWL III
4
212
難問 能動 付随
定型 除 本稿
3
452
4
JAWL 0 3級
679-1288
1289-5000
JAWL IV
2級
5001-10000
25.8 67.7
0.0
3.2
0.0
3.2
人口 ス ク リ ーン 数学
20.5 71.8
競争 工業 地理
7.7
0.0
0.0
0.0
20.6 74.6
2.1
2.5
0.0
0.2
演説 大小 実情
14.2 76.8
ス テ ージ ラ イ フ 担保
6.5
1.3
1.1
0.2
12.7 76.9
7.5
2.8
0.0
0.0
交錯 カ ウ ン ト 精度
一因 箇年 エ ン ド
12.4 75.9
9.1
1.5
0.9
0.2
103
併存 親和 盛況
散在 補填 関わ り 合う
8.7 82.5
7.8
1.0
0.0
0.0
3
328
帰着 編著 沿海
拮抗 常套 内情
13.1 75.0
9.5
1.5
0.3
0.6
4
56
閉 増刊 含意
複 活路 所与
16.1 66.1 10.7
3.6
0.0
3.6
3
269
付則 深度 孤
概算 頒布 円錐
14.1 71.4 11.2
1.9
0.0
1.5
初級
JAWL I
中級
上級
前半
1級
JAWL V 級外
JAWL VI
JAWL VII
JAWL VIII
上級
10001-15000
後半
超
15000-20000
上級
記号
不明
その
他
発足 半数 配分
縮小 適正 見直し
学術共通語彙の(異なり語数)語種比率(2)(表1)
 和語:JAWL 0 とⅠで20%を超えるが,
それ以外では9~16%程度
一般テキストに比べかなり低い
 一般に和語の比率(異なり語数)は
高頻度2000語除けばほぼ3分の1前後
(松下2009; 2010)
⇒ 語種比率の違いは,
母語による学習負担の違いに直結
⇒ カリキュラム上も重要な問題
表 1 日 本 語 学 術 共 通 語 彙 (JAWL) の レ ベ ル 別 異 な り 語 数 ・ 語 例 ・ 語 種 比 率
旧日
学術共 本語
能力
通語彙 試験
ラベル 出題
範囲
4大
語種比率(%)
領域
留学生のた
語例
(異なり語数)
中の 異な
めの一般的
レベル 共通 り語
な語彙重要
領域 数 (各カテゴリー中、一般的語彙重要度
外来 混種 固有
ランク最下位6語)
度ランク (*1)
和語 漢語
数
語
語 名詞
(*2)
科学 規則 割合
生産 産業 講義
4
31
3
39
4
559
JAWL II
3
542
JAWL III
4
212
難問 能動 付随
定型 除 本稿
3
452
4
JAWL 0 3級
679-1288
1289-5000
JAWL IV
2級
5001-10000
25.8 67.7
0.0
3.2
0.0
3.2
人口 ス ク リ ーン 数学
20.5 71.8
競争 工業 地理
7.7
0.0
0.0
0.0
20.6 74.6
2.1
2.5
0.0
0.2
演説 大小 実情
14.2 76.8
ス テ ージ ラ イ フ 担保
6.5
1.3
1.1
0.2
12.7 76.9
7.5
2.8
0.0
0.0
交錯 カ ウ ン ト 精度
一因 箇年 エ ン ド
12.4 75.9
9.1
1.5
0.9
0.2
103
併存 親和 盛況
散在 補填 関わ り 合う
8.7 82.5
7.8
1.0
0.0
0.0
3
328
帰着 編著 沿海
拮抗 常套 内情
13.1 75.0
9.5
1.5
0.3
0.6
4
56
閉 増刊 含意
複 活路 所与
16.1 66.1 10.7
3.6
0.0
3.6
3
269
付則 深度 孤
概算 頒布 円錐
14.1 71.4 11.2
1.9
0.0
1.5
初級
JAWL I
中級
上級
前半
1級
JAWL V 級外
JAWL VI
JAWL VII
JAWL VIII
上級
10001-15000
後半
超
15000-20000
上級
記号
不明
その
他
発足 半数 配分
縮小 適正 見直し
学術共通語彙の文字
(予稿集に出ていません)
 (漢字を常用漢字のみに制限した場合でも)文字の
70.4%は漢字
 初級,中級では約4分の3が漢字だが,中級以降割合が
少しずつ下がり,JAWLⅧでは59.3%
 JAWL 0(初級),JAWLⅠ(中級)では初出が多いが,
JAWLⅡ(中級)以降は初出は各レベルで半分以下
⇒重複して使用される字がかなりある
⇒特にJAWLⅠで漢字学習が重要
 よく使用される漢字
合定分同一数上体出立大実用要明度発論入有行成
学生理前動法点面付当特中変質自部進
学術共通語彙の漢字
(予稿集に出ていません)
JAWL レベル別の異なり漢字数・初出漢字数(順に学習したと仮定した場合)・異なり語数
旧日本
語能力
試験出
題範囲
語彙
ラベル
JAWL 0
レベ
ル
3級 初級
JAWL I
JAWL II
中級
JAWL III
上級
JAWL IV 2級 前半
1級
JAWL V 級外 上級
後半
JAWL VI
JAWL VII
JAWL VIII
超上
級
JAWL全 体
4大領
域中の
共通領
域数 異なり
(*1) 漢字数
4
3
4
3
4
3
4
3
4
3
初出
初出の
そのレ
ベルで
の割合
初出の
累積異
JAWL 累積異 なり漢
全体で なり漢 字数割 異なり
の割合 字数 合
語数
語のJA
WL全体
での割
合
42
42 100%
4%
42
4%
31
1%
56
51 91%
5%
93
9%
39
2%
439
378 86% 36%
471
45%
559
22%
472
202 43% 19%
673
64%
542
21%
5%
724
69%
212
8%
150 31% 14%
874
83%
452
17%
263
478
51 19%
146
21 14%
2%
895
85%
103
4%
386
85 22%
8%
980
93%
328
13%
86
14 16%
1%
994
94%
56
2%
312
62 20%
6% 1056 100%
269
10%
1056 1056
100%
2591 100%
5.今後の課題、まとめ
今後の課題(1)
 低頻度レベルに,一部,不適切に見える語あり
例) 「同校」 「四面」 「ユア」 「そり」 「ずる」 「でんぷん」
解析ミスや採録基準のレベル設定の問題か
(Leechほか (2001)は対数尤度比3.8を5%有意の基準に)
用例を確認して,何らかの基準で除去することを検討
 レベルづけも恣意的な面あり
3領域語については,残りの一つが専門の学習者にとっては
一般的な重要性のみ
JAWLⅡの最下位より,JAWLⅢの最上位のほうが重要かも
今後の課題(2)
 複合辞・複合語・連語などは抽出できていない
短単位の語より頻度の高いものも多いはず
 学術的な語が日常語の比喩表現などと同形の場合、
抽出できていない可能性あり
(コーパスは多義表現に弱い)
例:「注ぐ」
「液体」-「力」「情熱」「心血」「精力」「愛情」
「(信濃)川が(日本)海に」 「視線」「火に油」「酒」
発展課題
 作業の過程で2領域語,1領域語も抽出
 学術テキストの語彙階層の全体像
 語彙的な側面から見たテキスト・ジャンル(レジスター
変種)の特徴づけにも利用できる
 入学試験,日本留学試験などの語彙のコントロール
学術共通語彙が一定程度以上含まれるようにすべき
 国語教育にも貢献できる(Townsend & Collins, 2008)
一般的学力との関連の検証
 そして,当然のことながら,
語彙リストを如何に学習,教育に活用できるか
 抽象性が高いので工夫が必要
 チェックリストとしても有効
まとめ
 学術共通語彙(JAWL),9レベル,2591語
 JAWLⅠ 559語 が最も重要
 JAWLは学術テキストで著しく高いカバー率
 JAWLは効率的な学術語彙リスト
 名詞,動名詞,文語的語彙が多い
 漢語系語彙が4分の3以上
 中級JAWLは新聞語彙と高い共通性
 理系は文系より上級の学術共通語彙が多い
 中級でJAWL漢字の学習も重要
 入試や国語教育にも活用できるはず
ダウンロード
 語彙リストおよび関連資料は,以下のサイトから
URL: www.wa.commufa.jp/~tatsum/
(予稿集に書いてあります)
 このリストを活用した実践をなさった方は,
ぜひ教えてください。
よろしくお願い申し上げます。
引用文献(1)
 内山将夫・高橋真弓 (2003). 日英対訳文対応付けデータ.
http://www2.nict.go.jp/x/x161/members/mutiyama/align/index.html
 小木曽智信 (2007). 「茶まめ」(形態素解析ユーザーインター





フェース)
https://www.tokuteicorpus.jp/dist/modules/system/modules/me
nu/main.php?page_id=1&op=change_page
工藤 拓 (2006). MeCab Ver. 0.98pre3(形態素解析器)
http://mecab.sourceforge.net/
国立国語研究所 (1962). 『現代雑誌九十種の用語用字 第一分
冊 総記および語彙表』秀英出版
国立国語研究所 (2009). 「現代日本語書き言葉均衡コーパス」
モニター公開データ2009 年度版
鈴木修次(1981). 『日本漢語と中国』中央公論社
角 知行 (2010). 「学術基本用語集作成の試み」 『アカデミック・
ジャパニーズ・ジャーナル』2, 11-21.
引用文献(2)
 田地野 彰・寺内 一・笹尾洋介・マスワナ紗矢子(2007).「総合




研究大学における英語学術語彙リスト開発の意義 -EAPカリ
キュラム開発の観点から-」『京都大学高等教育研究』13
伝 康晴・山田 篤・小椋秀樹・小磯花絵・小木曽智信 (2009).
UniDic version 1.3.11(解析辞書)
http://www.tokuteicorpus.jp/dist/ (Ver. 1.3.0.は 2007)
バトラー後藤裕子 (2010). 「小中学生のための日本語学習語リ
スト(試案)」『母語・継承語・バイリンガル教育研究』6, 42-58.
深尾百合子(2001).「「専門日本語教育研究」の現状と展望」
『2001年度 日本語教育学会秋季大会 予稿集』, 233-234.
札野寛子・深澤のぞみ(1995).「理工系学生を対象とした実験・
研究に必要な日本語指導のための語彙表現研究 -『科学技
術基礎日本語』教材開発に向けて-」『平成7年度 日本語教
育学会春季大会 予稿集』, 186-191.
引用文献(3)
 松下達彦 (2009).「マクロに見た常用漢字語の日中対照
研究 ―データベース開発の過程から―」『桜美林言語教
育論叢』5, 117-131.
 松下達彦 (2010). 「日本語を読むために必要な語彙と
は? -書籍とインターネットの大規模コーパスに基づく語
彙リストの作成-」『2010年度 日本語教育学会春季大会
予稿集』日本語教育学会, 335-336.
 松下達彦 (2011). 日本語を読むための語彙データベース
(Vocabulary database for reading Japanese) (=日本語を読
むためのTM語彙リスト Ver. 4.0,Ver. 1.0 は2010).
http://www.wa.commufa.jp/~tatsum/index.html
 水元光美・池田隆介(2003).「導入教育における「基礎専
門語」の重要性 -環境工学系留学生のための語彙調
査と分析から-」『専門日本語教育研究』5, 21-28
引用文献(4)
 Anthony, L. (2007). AntConc Version 3.2.1 (text analysis
tool) http://www.antlab.sci.waseda.ac.jp/software.html
(Version 1.0 first published in 2002)
 Anthony, L. (2009). AntWordProfiler Version 1.2 w (word
profiler)
http://www.antlab.sci.waseda.ac.jp/software.html
(Version 1.0 first published in 2008)
 Chujo, K., & Utiyama, M. (2006). Selecting level-specific
specialized vocabulary using statistical measures. System,
34, 255-269.
 Coxhead, A. (2000). A new academic word list. TESOL
Quarterly, 34(2), 213-238.
引用文献(5)
 Dunning, T. (1993). Accurate methods for the statistics of




surprise and coincidence. Computational Linguistics, 19,
61–74.
Hu, M. H. & Nation, P. (2000). Vocabulary density and
reading comprehension. Reading in a Foreign Language,
13(1), 403-430.
Hyland, K., & Tse, P. (2007). Is there an “Academic
Vocabulary”? TESOL Quarterly, 41(2), 235-253.
Leech, G., Rayson, P., & Wilson, A. (2001). Word
Frequencies in Written and Spoken English. Harlow:
Longman.
Tajino, A., Dalsky, D., & Sasao, Y. (2010). Academic
vocabulary reconsidered: An EAP curriculum-design
perspective. Iranian Journal of Teaching English as a
Foreign Language and Literature, 1(4), 3-21.
引用文献(6)
 Townsend, D., & Collins, P. (2008). Academic vocabulary




and middle school English learners: An intervention study.
Reading and Writing, 22(9), 993-1019.
Utiyama, M. and Isahara, H. (2003) Reliable Measures for
Aligning Japanese-English News Articles and Sentences.
ACL-2003, 72-79.
Ward, J. (1999). How large a vocabulary do EAP
Engineering students need? Reading in a Foreign
Language, 12(2), 309-323.
West, M. (1953). A General Service List of English Words.
London: Longman, Green & Co.
Xue, G., & Nation, P. (1984). A university word list.
Language Learning and Communication, 3(2), 215-229.