日本語の学術共通語彙(アカデミック・ ワード)の抽出と妥当性の検証 松下 達彦 Victoria University of Wellington 大学院生 [email protected] * Web 版発表要旨の訂正 =予稿集は正しいです 本発表の概要 日本語の学術共通語彙を抽出 妥当性を検討 1.「学術共通語彙」とは 2.研究目的 3.研究方法 4.結果および考察 5.今後の課題、まとめ 1.学術共通語彙とは 一般的テキストでの使用率に比べて, 学術的なテキストでより高い使用率を占める語彙 分野を問わずに高い使用率 ⇔専門語彙:特定の分野においてのみ高い使用率 一般的な基本語彙と専門語彙の中間に位置する 語彙 大学留学生にとっては,初級の基本的語彙に次い で重要な語彙 先行研究 類似の語群の存在の指摘 「はざま表現」(札野・深澤1995) 「日常語に使用される語彙と専門用語との間に位置 する専門分野を超えた学術的な語彙」(深尾2001) 「基礎専門語」(水元・池田2003) ・・・学術共通語彙の全面的抽出はしていない (角2010、バトラー後藤2010 は後述) 英語教育では抽出もされ、幅広く利用されている Academic Word List (Coxhead, 2000) University Word List (Xue & Nation, 1984) 2.研究目的 学習負担軽減の重要性 第二言語・外国語語彙学習の負担は非常に大きい 中級以降,頻出語句が減少 最頻出1000語では60~70%に達するテキストカバー率, それ以降は1000語で数パーセント以下 「中級の壁」 (国立国語研究所1962など) 目的に即した語彙学習が重要 それなしでは学習効率が低下、挫折の原因にも 効率的な学術テキストの語彙学習 目的が限られる学習者 初めから専門語彙を学ぶほうが効率的か (Ward, 1999; Hyland & Tse, 2007) (進学準備中など)専門を絞る前の段階 学術共通語彙を効率的に学ぶことが有効 田地野ほか(2007) -カリキュラムの段階に応じた語彙を想定 例)学術共通語彙文系共通語彙経済学用語 本研究もこの考え方を踏襲 留学生対象の日本語語彙リスト これまでにもいろいろ(国立国語研究所1982にまとめ) 初級語彙や専門語彙を含み 学術語彙に絞られたものではない 選定方法も主観を交えたものがほとんど 学術共通語彙的な性格を目指した語彙リスト 角(2010)「学術基本用語集」 -大学受験用「現代国語」の語彙集に基づく AWLの意義に言及,しかし難解な低頻度語を多数採録 バトラー後藤(2010)「小中学生のための日本語学習語リスト」 -AWLと類似の方法、児童・生徒対象,主観判定も採用 など 方法も対象も異なる 方法や妥当性の検証に計量的裏付けが乏しい 学習・教育用の語彙リストの評価 効率性の評価:(単位語数あたりの)テキストカバー率 = (単位語数あたりの)延べ語数の使用率の合計 =そのリストの語が,対象テキストで, 他の語彙より高い割合で出現するか テキスト理解では,カバー率を上げて未知語の密度を 減らすことが最も重要な要素の一つ (Hu & Nation, 2000など) (高田2006 にまとめ) 本研究の目的 幅広い分野の学術的テキストで一般的テキストより 高いカバー率を示す語彙リストを作成 カバー率の検証 妥当性,有用性を検証 留学生などの語彙学習負担の軽減 より有効な語彙学習カリキュラムの開発 3.研究方法 対象テキストと計数単位 『現代日本語書き言葉均衡コーパス』(BCCWJ) モニター 公開データ(2009年版)(国立国語研究所2009) 書籍部分約2800万語のテキスト 計数単位(語の区切り):UniDicの短単位 (ほぼ形態素レベル) 形態素解析器:MeCab(工藤2006) 解析用辞書:UniDic(伝ほか2009) (UniDicの出力をAntWordProfiler で使用するため, テキストエディタ上でマクロを作成して加工) テキストの分類 学術領域の分類 学術領域の分類:科研費や留学生数統計の分類を参照 日本十進分類法などを手がかりに 人文系,社会系,理工系,生物・医学系の4領域に分類 専門(学術)テキストと一般テキスト Cコード:出版社がつけるコード(千の位が販売対象コード) 各領域について Cコード 3000番台=専門テキスト(約300万語) その他=一般テキスト(約2500万語) 専門(学術)テキストのタイトル例 言語分野 続昭和(→平成)日本語方言の総合的研究 国際コミュニケーションと国際関係 日英対照動詞の意味と構文 英語から日本が見える 漢字のいい話 国語文字史の研究 「た」の言語学 ことばの歴史 京阪系アクセント辞典 日本語モダリティの史的研究 学術領域の分類 学術領域 人文 文系 社会 理工 理系 生物・医学 NDCとの分類対応はこちら 学術分野 言語・言語学 歴史 民族学・文化人類学 哲学、宗教 芸術 文学 人文・芸術(その他) 政治学 法学 経済学 経営学、商学 社会学 教育学 社会科学(その他) 数学 物理学 天文学・地球惑星科学 化学、金属・鉱山 工学(建築・土木) 工学(機械、電気、海洋・船舶) 理工系自然科学(その他) 生物学 農学 薬学 医学 歯学 看護学 生物系自然科学(その他) 注 福祉、労働、ジェンダー等を含む 教科教育法も含む 運輸、通信、心理学、時事問題を含む 情報工学、製造工業、生活科学(一部)、情報科学、図書館学など 林学、水産学、畜産学・獣医学を含む スポーツ、衛生学、生活科学(一部)、環境 など 下位コーパス分野別の異なり語数と延べ語数 BCCWJ 2009 版(書籍+「Yahoo知恵袋」) 学術領域 学術分野 一般テキスト 異なり語数 延べ語数 専門テキスト 合計 異なり語数 延べ語数 異なり語数 延べ語数 備考 人文 言語・言語学 歴史 民族学・文化人類学 哲学、宗教 芸術 文学 人文・芸術(その他) 小計 21252 49700 39759 36253 35501 68439 46304 403305 2096004 1083009 1503013 967809 8251999 1973098 16278237 7831 11835 3040 9269 5042 5592 683 102504 138139 19666 125917 39744 36852 3414 466236 23708 51514 40150 38229 36177 68915 46337 社会 政治学 法学 経済学 経営学、商学 社会学 教育学 社会科学(その他) 小計 26299 16502 20015 22087 30362 20157 18993 920841 511059 684404 846432 1318930 621050 424164 5326880 8814 10074 12534 10788 12960 10417 4114 115166 333946 367555 310716 333772 262063 36168 1759386 27900 19542 23525 24489 33008 22675 19652 1036007 845005 1051959 1157148 1652702 福祉、労働、ジェンダーも含める。 883113 教科教育法もすべてここに含める。 460332 運輸、通信、心理学、時事問題も含める。 7086266 数学 物理学 天文学・地球惑星科学 3497 2368 8181 4682 16242 12993 18530 40397 25239 101565 37469 307617 195762 399470 1107519 1959 1280 2583 2553 7662 5495 8426 19472 9430 21765 23275 114099 72049 145175 405265 4352 2920 9035 6017 18443 14820 21018 59869 34669 123330 60744 421716 267811 544645 1512784 14680 14932 3610 16657 1740 2348 28254 262283 238989 24703 485896 11551 19255 943822 1986499 5224852 4064 3376 1103 5955 874 2491 6749 41071 28584 10197 82800 3814 23505 74567 264538 15672 15860 4017 17961 2174 3744 29490 303354 267573 林学、水産学、畜産学・獣医学を含む。 34900 568696 15365 42760 1018389 スポーツ、衛生学、生活科学(一部)、環境 など 2251037 5224852 29923987 46996 文系 理工 理系 生物・医学 化学、金属・鉱山 工学(建築・土木) 工学(機械、電気、海洋・船舶) 理工系自然科学(その他) 小計 生物学 農学 薬学 医学 歯学 看護学 生物系自然科学(その他) 小計 インターネットQ&Aフォーラム(「Yahoo知恵袋」) インターネットQ&Aフォーラム(「Yahoo知恵袋」) 合計 54215 54215 2895425 505809 2234143 1102675 1628930 1007553 8288851 1976512 16744473 144231 32819412 情報工学、製造工業、生活科学(一部)、情報科学、図書館学など 特徴語の抽出(1) AntConc (Anthony, 2007) のkeyness 機能を利用 対象テキスト:人文系,社会系,理工系,生物・医学系 4領域の各専門テキスト(計約290万語) 参照テキスト:全領域の一般テキスト約2500万語 +「Yahoo知恵袋」約500万語(計約3000万語) 対数尤度比 (log-likelihood ratio) (Dunning, 1993) (正規分布などの)特定の分布を要求しない テキストの大きさが異なる場合にも比較可能な値を返す (Leech, Rayson, & Wilson, 2001) 適度な割合で特徴語を抽出 (Chujo & Utiyama, 2006) 特徴語の抽出(2) AntConc (Anthony, 2007) のkeyness 機能を利用 対数尤度比が3領域以上で正の値 すべて抽出 文理両面において使用される語を抽出するため 旧日本語能力試験4級語彙、20000語より低いレベルの 語は除外 (予稿集に書き忘れました) 「日本語を読むための語彙データベース」 (松下2011,ダウンロード可)の留学生用語彙ランクで 初級から超上級に分類 (ランク付けの方法については松下(2010)参照) カバー率の検証方法 AntWordProfiler (Anthony, 2009)を利用 カバー率の検証 一般テキスト(会話,文芸書など) < 専門テキスト となるかどうか 抽出時に使用したコーパスとテストコーパス テストコーパス =学術共通語彙の抽出の際に使用していないコーパス テストコーパス 予稿集p.245-246 (MC) 会話:名大会話コーパス(日本語母語話者同士の雑談),約113万語 (BS) 一般書:『現代日本語書き言葉均衡コーパス』2009年モニター版(国立国語研究所 2009)「ベストセラー」部分(文芸テキスト数が53%,専門テキストなし),約230万語 (PC) 一般書:「日英対訳文対応付けデータ」(内山・高橋2003)の日本語部分(文芸書, エッセイなど),210万語 (JN) 新聞:日英新聞記事対応付けデータ (JENAAD) (Utiyama & Isahara, 2003)の日本語 部分(1989-2001の「読売新聞」記事)約568万語 (IS) 人文・社会系専門テキスト:新屋・松下編(未公刊)『日本語上級読解演習 国際学ア ラカルト』本文部分,約4万語 (TB) 社会系専門テキスト:「中・上級社会科学系読解教材テキストバンク」(東京外国語 大学留学生日本語教育センター1998)本文部分,約19万語 (SS) 社会系専門テキスト:『留学生のための専門講義の日本語』(名古屋大学 国際化 拠点整備事業2010 )全9冊中,社会系の3冊分の講義テキスト部分,約5万語 (TN) 理工系専門テキスト:『留学生のための専門講義の日本語』(同上)全9冊中,理工 系の5冊分の講義テキスト部分,約7万語 (BM) 生物・医学系専門テキスト:『留学生のための専門講義の日本語』(同上)全9冊中, 生物・医学系の1冊分の講義テキスト部分,約1万語 4.結果および考察 抽出結果 学術共通語彙リスト (JAWL = Japanese Academic Word List) 0~Ⅷ 9レベル,計2591語(表1) 予稿集p.246 中級の JAWLⅠ:学習・教育上,最も重要なリスト 初級には学術共通語彙の数も少ない JAWLⅠ 559語 Academic Word List (Coxhead, 2000)570語に近い語数 カバー率もAWLに非常に近い 抽出時使用の学術コーパスのカバー率 AWL: 10.0% JAWLⅠ: 11.1% 表 1 日 本 語 学 術 共 通 語 彙 (JAWL) の レ ベ ル 別 異 な り 語 数 ・ 語 例 ・ 語 種 比 率 旧日 学術共 本語 能力 通語彙 試験 ラベル 出題 範囲 4大 語種比率(%) 領域 留学生のた 語例 (異なり語数) 中の 異な めの一般的 レベル 共通 り語 な語彙重要 (各カテゴリー中、一般的語彙重要度 領域 数 ランク最下位6語) 外来 混種 固有 度ランク (*1) 和語 漢語 数 語 語 名詞 (*2) 記号 不明 その 他 4 31 科学 規則 割合 生産 産業 講義 25.8 67.7 0.0 3.2 0.0 3.2 3 39 人口 ス ク リ ーン 数学 競争 工業 地理 20.5 71.8 7.7 0.0 0.0 0.0 4 559 発足 半数 配分 縮小 適正 見直し 20.6 74.6 2.1 2.5 0.0 0.2 JAWL II 3 542 演説 大小 実情 ス テ ージ ラ イ フ 担保 14.2 76.8 6.5 1.3 1.1 0.2 JAWL III 4 212 難問 能動 付随 定型 除 本稿 12.7 76.9 7.5 2.8 0.0 0.0 3 452 交錯 カ ウ ン ト 精度 一因 箇年 エ ン ド 12.4 75.9 9.1 1.5 0.9 0.2 4 103 併存 親和 盛況 散在 補填 関わ り 合う 8.7 82.5 7.8 1.0 0.0 0.0 3 328 帰着 編著 沿海 拮抗 常套 内情 13.1 75.0 9.5 1.5 0.3 0.6 4 56 閉 増刊 含意 複 活路 所与 16.1 66.1 10.7 3.6 0.0 3.6 3 269 付則 深度 孤 概算 頒布 円錐 14.1 71.4 11.2 1.9 0.0 1.5 JAWL 0 3級 679-1288 初級 JAWL I 1289-5000 JAWL IV 2級 5001-10000 中級 上級 前半 1級 JAWL V 級外 JAWL VI JAWL VII JAWL VIII 上級 10001-15000 後半 超 15000-20000 上級 予稿集には掲載していません 日本語学術共通語彙 (JAWL) 各レベルの旧日本語能力試験出題範囲別の異なり語数 留学生のた 4大領域 めの一般的 学術共通 中の共通 な語彙重要 レベル 領域数 語彙ラベル 度ランク (*2) (*1) 4 679-1288 JAWL 0 初級 3 4 JAWL I 1289-5000 中級 3 JAWL II 4 JAWL III 上級 5001-10000 前半 3 JAWL IV 4 JAWL V 上級 10001-15000 後半 3 JAWL VI 4 JAWL VII 超 15000-20000 上級 3 JAWL VIII JAWL全体 679-20000 全体 4/3 旧日本語能力試験出題範囲レベル (異なり語数) 3級 2級 31 -39 ---------70 1級 --- 異なり 語数 級外 合計 --- 308 268 28 39 2 5 2 8 171 173 46 118 5 28 3 10 660 554 80 101 138 295 96 295 51 251 31 39 559 542 212 452 103 328 56 269 1307 2591 予稿集には掲載していません 日本語学術共通語彙 (JAWL)各レベル の旧日本語能力試験出題範囲別の異なり語数の割合(%) 留学生のた 4大領域 めの一般的 学術共通 中の共通 な語彙重要 レベル 領域数 語彙ラベル 度ランク (*2) (*1) 4 679-1288 JAWL 0 初級 3 4 JAWL I 1289-5000 中級 3 JAWL II 4 JAWL III 上級 5001-10000 前半 3 JAWL IV 4 JAWL V 上級 10001-15000 後半 3 JAWL VI 4 JAWL VII 超 15000-20000 上級 3 JAWL VIII JAWL全体 679-20000 全体 4/3 旧日本語能力試験出題範囲レベル (異なり語数の割合(%)) 3級 2級 100.0 -100.0 ---------2.7 1級 --- 異なり 語数 級外 合計 --- 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 55.1 49.4 13.2 8.6 1.9 1.5 3.6 3.0 30.6 31.9 21.7 26.1 4.9 8.5 5.4 3.7 14.3 18.6 65.1 65.3 93.2 89.9 91.1 93.3 25.5 21.4 50.4 100.0 表 2 日 本 語 学 術 共 通 語 彙 の テ キ ス ト カ バ ー 率 ・ テ キ ス ト カ バ ー 効 率 の 比 較 MC 会話 N=1129538 ジャンル 旧日 本語 語彙 能力 レベ ラベル 試験 ル 出題 範囲 Basic 4級 (non3級 JAWL) JAWL II 中級 JAWL III 上級 前半 2級 JAWL IV 1級 JAWL V 級外 上級 後半 JAWL VI JAWL VII JAWL VIII テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) PC 一般書 BCCWJ全体 JN 新聞 N=2298828 N=32819424 N=5675357 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) テキ ストカ バー 率 (%) (*2) テキ スト カバ ー効 率 (*3) テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) IS 人文・社会系 N=42152 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) TB 社会系 N=186768 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) SS 社会系 N=50601 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) TN 理工系 N=74645 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) BM 生物・医学系 N=13904 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) 80.6 660 73.0 602 72.4 586 68.6 552 57.0 466 62.0 991 62.5 722 66.2 1237 59.8 1154 60.4 2033 JAWL 0 3級 初級 JAWL I 4大 領域 中の 共通 領域 数 (*1) BS 一般書 N=2102178 超 上級 4 0.58 3 0.65 4 0.77 3 0.53 4 0.03 3 0.07 4 0.01 3 0.02 4 0.00 3 0.01 187 166 17 12 3 3 2 2 3 2 1.18 382 1.26 405 1.63 525 2.07 667 2.40 1.39 356 1.31 337 1.38 354 1.85 475 2.38 3.14 56 2.66 48 4.57 82 8.70 156 10.2 1.46 27 1.56 29 2.62 48 6.58 122 4.66 6 0.07 4 0.16 8 0.32 15 0.23 0.12 5 0.19 4 0.35 8 0.77 17 0.57 0.21 3 0.02 2 0.03 3 0.05 5 0.06 0.02 3 0.06 2 0.11 3 0.25 8 0.16 0.06 1 0.01 1 0.01 2 0.01 3 0.04 0.00 2 0.03 2 0.05 2 0.11 4 0.05 0.03 799 701 221 126 39 42 41 35 37 32 2.75 888 2.99 998 3.65 1217 2.73 1139 2.35 654 2.22 673 1.80 561 1.65 1029 9.72 178 9.77 237 11.1 279 11.1 457 5.05 99 4.82 161 2.89 115 4.23 365 0.37 23 0.38 65 0.68 98 0.45 178 0.70 24 0.45 58 1.88 169 2.14 521 0.05 13 0.05 33 0.08 61 0.06 115 0.21 15 0.12 55 0.63 126 0.31 221 0.02 15 0.02 49 0.10 100 0.04 432 0.08 11 0.07 37 0.38 142 0.05 126 *1 人文,社会,理工,生物・医学の4大領域のうち,いくつの分野で特徴的かを示す。具体的には,専門テキストにおける対数尤度比 (一般テキストを参照コーパスにした場合)が,上記4分野のうち,いくつの分野で+となっているかを表す。 *2 そのカテゴリーの語彙がテキスト全体に占める延べ語数の割合。 *3 テキストカバー率を,そのカテゴリーの異なり語数で割り,1000000をかけたもの。そのカテゴリーの1種類の語が平均的にどれ だけのテキストをカバーするかを示す。延べ語数と異なり語数の関係はテキストのサイズによって異なるため,同じテキストの中で カテゴリー間を比較することはできるが,大きさの著しく異なるテキスト間で数値を比較する際は注意が必要である。この数値が大 きいほど,そのカテゴリーの語彙を学ぶことで効率よくそのテキストを理解できるようになることを予測する。 カバー率の検証(テストコーパス) テストコーパス: 特徴語抽出時に使用していないコーパス 学術テキストでのカバー率 AWL: 8.5% (Coxhead, 2000) 9.3~11.1% (Hyland & Tse, 2007) JAWLⅠ: 9.7~11.1% 一貫して高いカバー率(表2) 予稿集p.247 非学術テキストでのカバー率 AWL 創作テキスト: 1.4% JAWLⅠ 一般書(文芸書,エッセイなど):3%前後 会話:1%未満 ただし,単純な比較はできない AWLは英語のリスト AWLは抽出時に基本語彙集 GSL (West, 1953)の2000語を除外 AWLは “word family” 単位だが,JAWLは「語彙素」単位 サンプル・テキスト(Wikipedia 「文化人類学」より) 人類学は一般に、人類の進化や生物学的側面を研究する自 然人類学と、人類の社会的・文化的側面を研究する文化人類 学(Cultural Anthropology)あるいは社会人類学(Social Anthropology)に大別される。文化人類学の名称はアメリカにおい て用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類 学」の名称が用いられてきた。他のヨーロッパ諸国や日本において は民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名 称も用いられている(民族学を一分野とする場合も多い)。民俗学 (Folklore)もまた隣接分野として共通の研究テーマを共有すること が多い。 自然人類学は、人類を進化の過程によって形作られてきた 生物学的側面から捉える。それに対して、文化人類学は自然 の対義としての文化から人類を研究しようとする学問分野で ある。文化とは、進化の過程を経て形成された遺伝的な形質 のことではなく、人類が後天的に学習した行動パターンや言 語、人工物の総体を指している。したがって文化人類学の隣 接科学には言語学と考古学があり、アメリカの学部ではこれ らの学問に加えて自然人類学をあわせて総合的に教育されて いる。 初級語彙57.7% (旧日能試4級+3級 JAWL 0 6.8%含む) 人類学は一般に、人類の進化や生物学的側面を研究する 自然人類学と、人類の社会的・文化的側面を研究する文化人 類学(CulturalAnthropology)あるいは社会人類学 (SocialAnthropology)に大別される。文化人類学の名称はアメ リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸 国や日本においては民族学(英語圏でのEthnology、ドイツ語 圏でのEthnologie)の名称も用いられている(民族学を一分野 とする場合も多い)。民俗学(Folklore)もまた隣接分野として共 通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた 生物学的側面から捉える。それに対して、文化人類学は自然 の対義としての文化から人類を研究しようとする学問分野であ る。文化とは、進化の過程を経て形成された遺伝的な形質のこ とではなく、人類が後天的に学習した行動パターンや言語、人 工物の総体を指している。したがって文化人類学の隣接科学 には言語学と考古学があり、アメリカの学部ではこれらの学問 に加えて自然人類学をあわせて総合的に教育されている。 初級語彙(JAWL0含む) +JAWLⅠ 20.4% 人類学は一般に、人類の進化や生物学的側面を研究する 自然人類学と、人類の社会的・文化的側面を研究する文化人 類学(CulturalAnthropology)あるいは社会人類学 (SocialAnthropology)に大別される。文化人類学の名称はアメ リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸 国や日本においては民族学(英語圏でのEthnology、ドイツ語 圏でのEthnologie)の名称も用いられている(民族学を一分野 とする場合も多い)。民俗学(Folklore)もまた隣接分野として 共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた 生物学的側面から捉える。それに対して、文化人類学は自然 の対義としての文化から人類を研究しようとする学問分野であ る。文化とは、進化の過程を経て形成された遺伝的な形質の ことではなく、人類が後天的に学習した行動パターンや言語、 人工物の総体を指している。したがって文化人類学の隣接科 学には言語学と考古学があり、アメリカの学部ではこれらの学 問に加えて自然人類学をあわせて総合的に教育されている。 初級語彙 (JAWL0含む) +JAWLⅠ 計78.1% 人類学は一般に、人類の進化や生物学的側面を研究する 自然人類学と、人類の社会的・文化的側面を研究する文化人 類学(CulturalAnthropology)あるいは社会人類学 (SocialAnthropology)に大別される。文化人類学の名称はアメ リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸 国や日本においては民族学(英語圏でのEthnology、ドイツ語 圏でのEthnologie)の名称も用いられている(民族学を一分野 とする場合も多い)。民俗学(Folklore)もまた隣接分野として共 通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた 生物学的側面から捉える。それに対して、文化人類学は自然 の対義としての文化から人類を研究しようとする学問分野であ る。文化とは、進化の過程を経て形成された遺伝的な形質の ことではなく、人類が後天的に学習した行動パターンや言語、 人工物の総体を指している。したがって文化人類学の隣接科 学には言語学と考古学があり、アメリカの学部ではこれらの学 問に加えて自然人類学をあわせて総合的に教育されている。 初級語彙(JAWL0含む)+JAWLⅠ+JAWLⅡ 6.4% 人類学は一般に、人類の進化や生物学的側面を研究する 自然人類学と、人類の社会的・文化的側面を研究する文化人 類学(CulturalAnthropology)あるいは社会人類学 (SocialAnthropology)に大別される。文化人類学の名称はアメ リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸 国や日本においては民族学(英語圏でのEthnology、ドイツ語 圏でのEthnologie)の名称も用いられている(民族学を一分野 とする場合も多い)。民俗学(Folklore)もまた隣接分野として 共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた 生物学的側面から捉える。それに対して、文化人類学は自然 の対義としての文化から人類を研究しようとする学問分野であ る。文化とは、進化の過程を経て形成された遺伝的な形質の ことではなく、人類が後天的に学習した行動パターンや言語、 人工物の総体を指している。したがって文化人類学の隣接科 学には言語学と考古学があり、アメリカの学部ではこれらの学 問に加えて自然人類学をあわせて総合的に教育されている。 初級語彙57.7% (JAWL0含む) +JAWLⅠ20.4%+JAWLⅡ 6.4% 計84.5% 人類学は一般に、人類の進化や生物学的側面を研究する 自然人類学と、人類の社会的・文化的側面を研究する文化人 類学(CulturalAnthropology)あるいは社会人類学 (SocialAnthropology)に大別される。文化人類学の名称はアメ リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸 国や日本においては民族学(英語圏でのEthnology、ドイツ語 圏でのEthnologie)の名称も用いられている(民族学を一分野 とする場合も多い)。民俗学(Folklore)もまた隣接分野として共 通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた 生物学的側面から捉える。それに対して、文化人類学は自然 の対義としての文化から人類を研究しようとする学問分野であ る。文化とは、進化の過程を経て形成された遺伝的な形質の ことではなく、人類が後天的に学習した行動パターンや言語、 人工物の総体を指している。したがって文化人類学の隣接科 学には言語学と考古学があり、アメリカの学部ではこれらの学 問に加えて自然人類学をあわせて総合的に教育されている。 初級・JAWLⅠ・Ⅱ 84.5%+その他中級語彙 11.7% 計96.2% 人類学は一般に、人類の進化や生物学的側面を研究する 自然人類学と、人類の社会的・文化的側面を研究する文化人 類学(CulturalAnthropology)あるいは社会人類学 (SocialAnthropology)に大別される。文化人類学の名称はアメ リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸 国や日本においては民族学(英語圏でのEthnology、ドイツ語 圏でのEthnologie)の名称も用いられている(民族学を一分野 とする場合も多い)。民俗学(Folklore)もまた隣接分野として 共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた 生物学的側面から捉える。それに対して、文化人類学は自然 の対義としての文化から人類を研究しようとする学問分野であ る。文化とは、進化の過程を経て形成された遺伝的な形質の ことではなく、人類が後天的に学習した行動パターンや言語、 人工物の総体を指している。したがって文化人類学の隣接科 学には言語学と考古学があり、アメリカの学部ではこれらの学 問に加えて自然人類学をあわせて総合的に教育されている。 初級・中級語彙 96.2% +JAWLⅢ・Ⅳ 1.5% 計97.7% 人類学は一般に、人類の進化や生物学的側面を研究する 自然人類学と、人類の社会的・文化的側面を研究する文化人 類学(CulturalAnthropology)あるいは社会人類学 (SocialAnthropology)に大別される。文化人類学の名称はアメ リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸 国や日本においては民族学(英語圏でのEthnology、ドイツ語 圏でのEthnologie)の名称も用いられている(民族学を一分野 とする場合も多い)。民俗学(Folklore)もまた隣接分野として 共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた 生物学的側面から捉える。それに対して、文化人類学は自然 の対義としての文化から人類を研究しようとする学問分野であ る。文化とは、進化の過程を経て形成された遺伝的な形質の ことではなく、人類が後天的に学習した行動パターンや言語、 人工物の総体を指している。したがって文化人類学の隣接科 学には言語学と考古学があり、アメリカの学部ではこれらの学 問に加えて自然人類学をあわせて総合的に教育されている。 JAWLⅠ+Ⅱ+Ⅲ+Ⅳ 28.3% 人類学は一般に、人類の進化や生物学的側面を研究す る自然人類学と、人類の社会的・文化的側面を研究する 文化人類学(CulturalAnthropology)あるいは社会人類学 (SocialAnthropology)に大別される。文化人類学の名称は アメリカにおいて用いられ、イギリスおよび多くのヨー ロッパ諸国では「社会人類学」の名称が用いられてきた。 他のヨーロッパ諸国や日本においては民族学(英語圏で のEthnology、ドイツ語圏でのEthnologie)の名称も用い られている(民族学を一分野とする場合も多い)。民俗 学(Folklore)もまた隣接分野として共通の研究テーマを 共有することが多い。 自然人類学は、人類を進化の過程によって形作られて きた生物学的側面から捉える。それに対して、文化人類 学は自然の対義としての文化から人類を研究しようとす る学問分野である。文化とは、進化の過程を経て形成さ れた遺伝的な形質のことではなく、人類が後天的に学習 した行動パターンや言語、人工物の総体を指している。 したがって文化人類学の隣接科学には言語学と考古学が サンプル・テキスト(Wikipedia 「有機化合物」より) 有機化学は、有機化合物すなわち炭素化合物の合成、 性質についての研究を目的とする化学の分野である。伝統的 には二酸化炭素や一酸化炭素、炭酸などは有機化合物に含 めない。大体はC−C結合かC−H結合を持つものが有機化合 物である。また、ある有機化合物を炭素以外(金属元素の場 合も含む)の基で置換した構造を持つ化学物質も広義の有機 化合物として有機化学の対象とされる物もある。 構造有機化学、反応有機化学(有機反応論)、合成有機化 学、生物有機化学などの分野がある。 100を超える元素の中で炭素の化合物だけが特に取り上げ られる理由は、炭素が無限の多様性をもつ物質を作る材料に なりうるからである。実際、現在知られている化合物のうち、炭 素以外の元素のみからなるものは、炭素を含むものにはるか に及ばない。また生体を構成するタンパク質や核酸、糖、脂質 といった化合物もすべて炭素化合物である。 JAWLⅠ 18.8% 有機化学は、有機化合物すなわち炭素化合物の合成、 性質についての研究を目的とする化学の分野である。伝 統的には二酸化炭素や一酸化炭素、炭酸などは有機化合 物に含めない。大体はC−C結合かC−H結合を持つものが 有機化合物である。また、ある有機化合物を炭素以外 (金属元素の場合も含む)の基で置換した構造を持つ化 学物質も広義の有機化合物として有機化学の対象とされ る物もある。 構造有機化学、反応有機化学(有機反応論)、合成有 機化学、生物有機化学などの分野がある。 100を超える元素の中で炭素の化合物だけが特に取り 上げられる理由は、炭素が無限の多様性をもつ物質を作 る材料になりうるからである。実際、現在知られている 化合物のうち、炭素以外の元素のみからなるものは、炭 素を含むものにはるかに及ばない。また生体を構成する タンパク質や核酸、糖、脂質といった化合物もすべて炭 JAWLⅠ 18.8% +JAWLⅡ 7.8% 計26.6% 有機化学は、有機化合物すなわち炭素化合物の合成、 性質についての研究を目的とする化学の分野である。伝 統的には二酸化炭素や一酸化炭素、炭酸などは有機化合 物に含めない。大体はC−C結合かC−H結合を持つものが 有機化合物である。また、ある有機化合物を炭素以外 (金属元素の場合も含む)の基で置換した構造を持つ化 学物質も広義の有機化合物として有機化学の対象とされ る物もある。 構造有機化学、反応有機化学(有機反応論)、合成有 機化学、生物有機化学などの分野がある。 100を超える元素の中で炭素の化合物だけが特に取り上 げられる理由は、炭素が無限の多様性をもつ物質を作る 材料になりうるからである。実際、現在知られている化 合物のうち、炭素以外の元素のみからなるものは、炭素 を含むものにはるかに及ばない。また生体を構成するタ ンパク質や核酸、糖、脂質といった化合物もすべて炭素 JAWLⅠ・Ⅱ 26.6% +JAWL Ⅳ・Ⅴ 6.4% 計 33.0% 有機化学は、有機化合物すなわち炭素化合物の合成、 性質についての研究を目的とする化学の分野である。伝 統的には二酸化炭素や一酸化炭素、炭酸などは有機化合 物に含めない。大体はC−C結合かC−H結合を持つものが 有機化合物である。また、ある有機化合物を炭素以外 (金属元素の場合も含む)の基で置換した構造を持つ化 学物質も広義の有機化合物として有機化学の対象とされ る物もある。 構造有機化学、反応有機化学(有機反応論)、合成有 機化学、生物有機化学などの分野がある。 100を超える元素の中で炭素の化合物だけが特に取り上 げられる理由は、炭素が無限の多様性をもつ物質を作る 材料になりうるからである。実際、現在知られている化 合物のうち、炭素以外の元素のみからなるものは、炭素 を含むものにはるかに及ばない。また生体を構成するタ ンパク質や核酸、糖、脂質といった化合物もすべて炭素 表 2 日 本 語 学 術 共 通 語 彙 の テ キ ス ト カ バ ー 率 ・ テ キ ス ト カ バ ー 効 率 の 比 較 MC 会話 N=1129538 ジャンル 旧日 本語 語彙 能力 レベ ラベル 試験 ル 出題 範囲 Basic 4級 (non3級 JAWL) JAWL II 中級 JAWL III 上級 前半 2級 JAWL IV 1級 JAWL V 級外 上級 後半 JAWL VI JAWL VII JAWL VIII テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) PC 一般書 BCCWJ全体 JN 新聞 N=2298828 N=32819424 N=5675357 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) テキ ストカ バー 率 (%) (*2) テキ スト カバ ー効 率 (*3) テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) IS 人文・社会系 N=42152 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) TB 社会系 N=186768 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) SS 社会系 N=50601 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) TN 理工系 N=74645 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) BM 生物・医学系 N=13904 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) 80.6 660 73.0 602 72.4 586 68.6 552 57.0 466 62.0 991 62.5 722 66.2 1237 59.8 1154 60.4 2033 JAWL 0 3級 初級 JAWL I 4大 領域 中の 共通 領域 数 (*1) BS 一般書 N=2102178 超 上級 4 0.58 3 0.65 4 0.77 3 0.53 4 0.03 3 0.07 4 0.01 3 0.02 4 0.00 3 0.01 187 166 17 12 3 3 2 2 3 2 1.18 382 1.26 405 1.63 525 2.07 667 2.40 1.39 356 1.31 337 1.38 354 1.85 475 2.38 3.14 56 2.66 48 4.57 82 8.70 156 10.2 1.46 27 1.56 29 2.62 48 6.58 122 4.66 6 0.07 4 0.16 8 0.32 15 0.23 0.12 5 0.19 4 0.35 8 0.77 17 0.57 0.21 3 0.02 2 0.03 3 0.05 5 0.06 0.02 3 0.06 2 0.11 3 0.25 8 0.16 0.06 1 0.01 1 0.01 2 0.01 3 0.04 0.00 2 0.03 2 0.05 2 0.11 4 0.05 0.03 799 701 221 126 39 42 41 35 37 32 2.75 888 2.99 998 3.65 1217 2.73 1139 2.35 654 2.22 673 1.80 561 1.65 1029 9.72 178 9.77 237 11.1 279 11.1 457 5.05 99 4.82 161 2.89 115 4.23 365 0.37 23 0.38 65 0.68 98 0.45 178 0.70 24 0.45 58 1.88 169 2.14 521 0.05 13 0.05 33 0.08 61 0.06 115 0.21 15 0.12 55 0.63 126 0.31 221 0.02 15 0.02 49 0.10 100 0.04 432 0.08 11 0.07 37 0.38 142 0.05 126 *1 人文,社会,理工,生物・医学の4大領域のうち,いくつの分野で特徴的かを示す。具体的には,専門テキストにおける対数尤度比 (一般テキストを参照コーパスにした場合)が,上記4分野のうち,いくつの分野で+となっているかを表す。 *2 そのカテゴリーの語彙がテキスト全体に占める延べ語数の割合。 *3 テキストカバー率を,そのカテゴリーの異なり語数で割り,1000000をかけたもの。そのカテゴリーの1種類の語が平均的にどれ だけのテキストをカバーするかを示す。延べ語数と異なり語数の関係はテキストのサイズによって異なるため,同じテキストの中で カテゴリー間を比較することはできるが,大きさの著しく異なるテキスト間で数値を比較する際は注意が必要である。この数値が大 きいほど,そのカテゴリーの語彙を学ぶことで効率よくそのテキストを理解できるようになることを予測する。 日本語学術共通語彙の妥当性(1) 初級語彙の占める割合との関係 学術テキストでは初級の一般語彙の割合が一般テキストより低い 中級の学術共通語彙を足すと一般テキストでのカバー率に近づく テキストカバー効率 (本研究のために考案) =テキストカバー率を,そのカテゴリーの異なり語数で割り, 1000000をかけたもの =そのカテゴリーの語を1語学習することで 平均的にどのぐらい効率よくカバー率を上げられるか 大きさの異なるテキスト間の数値比較には注意が必要 延べ語数と異なり語数の関係がテキストの大きさで異なるため 同じテキスト中のカテゴリー間比較は可能 この数値が大きいほど,そのカテゴリーの語彙を学ぶことで 効率よくそのテキストを理解できるようになることを予測 表 2 日 本 語 学 術 共 通 語 彙 の テ キ ス ト カ バ ー 率 ・ テ キ ス ト カ バ ー 効 率 の 比 較 MC 会話 N=1129538 ジャンル 旧日 本語 語彙 能力 レベ ラベル 試験 ル 出題 範囲 Basic 4級 (non3級 JAWL) JAWL II 中級 JAWL III 上級 前半 2級 JAWL IV 1級 JAWL V 級外 上級 後半 JAWL VI JAWL VII JAWL VIII テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) PC 一般書 BCCWJ全体 JN 新聞 N=2298828 N=32819424 N=5675357 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) テキ ストカ バー 率 (%) (*2) テキ スト カバ ー効 率 (*3) テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) IS 人文・社会系 N=42152 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) TB 社会系 N=186768 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) SS 社会系 N=50601 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) TN 理工系 N=74645 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) BM 生物・医学系 N=13904 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) 80.6 660 73.0 602 72.4 586 68.6 552 57.0 466 62.0 991 62.5 722 66.2 1237 59.8 1154 60.4 2033 JAWL 0 3級 初級 JAWL I 4大 領域 中の 共通 領域 数 (*1) BS 一般書 N=2102178 超 上級 4 0.58 3 0.65 4 0.77 3 0.53 4 0.03 3 0.07 4 0.01 3 0.02 4 0.00 3 0.01 187 166 17 12 3 3 2 2 3 2 1.18 382 1.26 405 1.63 525 2.07 667 2.40 1.39 356 1.31 337 1.38 354 1.85 475 2.38 3.14 56 2.66 48 4.57 82 8.70 156 10.2 1.46 27 1.56 29 2.62 48 6.58 122 4.66 6 0.07 4 0.16 8 0.32 15 0.23 0.12 5 0.19 4 0.35 8 0.77 17 0.57 0.21 3 0.02 2 0.03 3 0.05 5 0.06 0.02 3 0.06 2 0.11 3 0.25 8 0.16 0.06 1 0.01 1 0.01 2 0.01 3 0.04 0.00 2 0.03 2 0.05 2 0.11 4 0.05 0.03 799 701 221 126 39 42 41 35 37 32 2.75 888 2.99 998 3.65 1217 2.73 1139 2.35 654 2.22 673 1.80 561 1.65 1029 9.72 178 9.77 237 11.1 279 11.1 457 5.05 99 4.82 161 2.89 115 4.23 365 0.37 23 0.38 65 0.68 98 0.45 178 0.70 24 0.45 58 1.88 169 2.14 521 0.05 13 0.05 33 0.08 61 0.06 115 0.21 15 0.12 55 0.63 126 0.31 221 0.02 15 0.02 49 0.10 100 0.04 432 0.08 11 0.07 37 0.38 142 0.05 126 *1 人文,社会,理工,生物・医学の4大領域のうち,いくつの分野で特徴的かを示す。具体的には,専門テキストにおける対数尤度比 (一般テキストを参照コーパスにした場合)が,上記4分野のうち,いくつの分野で+となっているかを表す。 *2 そのカテゴリーの語彙がテキスト全体に占める延べ語数の割合。 *3 テキストカバー率を,そのカテゴリーの異なり語数で割り,1000000をかけたもの。そのカテゴリーの1種類の語が平均的にどれ だけのテキストをカバーするかを示す。延べ語数と異なり語数の関係はテキストのサイズによって異なるため,同じテキストの中で カテゴリー間を比較することはできるが,大きさの著しく異なるテキスト間で数値を比較する際は注意が必要である。この数値が大 きいほど,そのカテゴリーの語彙を学ぶことで効率よくそのテキストを理解できるようになることを予測する。 日本語学術共通語彙の妥当性(2) JAWL は学術語彙の効率的な学習に適している おそらくは抽出方法も妥当 JAWLのカバー率は上級や超上級では極めて小さいが 他の語彙より,効率よく 学術テキストのカバー率を上げられる 上級以降ではカバー率を上げるために数千語も必要 たとえ0.1%でも効率よく学べることは重要 表 2 日 本 語 学 術 共 通 語 彙 の テ キ ス ト カ バ ー 率 ・ テ キ ス ト カ バ ー 効 率 の 比 較 MC 会話 N=1129538 ジャンル 旧日 本語 語彙 能力 レベ ラベル 試験 ル 出題 範囲 Basic 4級 (non3級 JAWL) JAWL II 中級 JAWL III 上級 前半 2級 JAWL IV 1級 JAWL V 級外 上級 後半 JAWL VI JAWL VII JAWL VIII テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) PC 一般書 BCCWJ全体 JN 新聞 N=2298828 N=32819424 N=5675357 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) テキ ストカ バー 率 (%) (*2) テキ スト カバ ー効 率 (*3) テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) IS 人文・社会系 N=42152 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) TB 社会系 N=186768 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) SS 社会系 N=50601 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) TN 理工系 N=74645 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) BM 生物・医学系 N=13904 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) 80.6 660 73.0 602 72.4 586 68.6 552 57.0 466 62.0 991 62.5 722 66.2 1237 59.8 1154 60.4 2033 JAWL 0 3級 初級 JAWL I 4大 領域 中の 共通 領域 数 (*1) BS 一般書 N=2102178 超 上級 4 0.58 3 0.65 4 0.77 3 0.53 4 0.03 3 0.07 4 0.01 3 0.02 4 0.00 3 0.01 187 166 17 12 3 3 2 2 3 2 1.18 382 1.26 405 1.63 525 2.07 667 2.40 1.39 356 1.31 337 1.38 354 1.85 475 2.38 3.14 56 2.66 48 4.57 82 8.70 156 10.2 1.46 27 1.56 29 2.62 48 6.58 122 4.66 6 0.07 4 0.16 8 0.32 15 0.23 0.12 5 0.19 4 0.35 8 0.77 17 0.57 0.21 3 0.02 2 0.03 3 0.05 5 0.06 0.02 3 0.06 2 0.11 3 0.25 8 0.16 0.06 1 0.01 1 0.01 2 0.01 3 0.04 0.00 2 0.03 2 0.05 2 0.11 4 0.05 0.03 799 701 221 126 39 42 41 35 37 32 2.75 888 2.99 998 3.65 1217 2.73 1139 2.35 654 2.22 673 1.80 561 1.65 1029 9.72 178 9.77 237 11.1 279 11.1 457 5.05 99 4.82 161 2.89 115 4.23 365 0.37 23 0.38 65 0.68 98 0.45 178 0.70 24 0.45 58 1.88 169 2.14 521 0.05 13 0.05 33 0.08 61 0.06 115 0.21 15 0.12 55 0.63 126 0.31 221 0.02 15 0.02 49 0.10 100 0.04 432 0.08 11 0.07 37 0.38 142 0.05 126 *1 人文,社会,理工,生物・医学の4大領域のうち,いくつの分野で特徴的かを示す。具体的には,専門テキストにおける対数尤度比 (一般テキストを参照コーパスにした場合)が,上記4分野のうち,いくつの分野で+となっているかを表す。 *2 そのカテゴリーの語彙がテキスト全体に占める延べ語数の割合。 *3 テキストカバー率を,そのカテゴリーの異なり語数で割り,1000000をかけたもの。そのカテゴリーの1種類の語が平均的にどれ だけのテキストをカバーするかを示す。延べ語数と異なり語数の関係はテキストのサイズによって異なるため,同じテキストの中で カテゴリー間を比較することはできるが,大きさの著しく異なるテキスト間で数値を比較する際は注意が必要である。この数値が大 きいほど,そのカテゴリーの語彙を学ぶことで効率よくそのテキストを理解できるようになることを予測する。 領域別の特徴 新聞には初級語彙が少なく, 中級の学術共通語彙が多い 理系(理工系,生物・医学系)には 文系(人文系,社会系)より上級の学術共通語彙が多い 3領域語(JAWLⅡなど)に欠けている1領域(一般テキストと 比較して学術テキストで高い割合を示さなかった領域) 生物・医学系が1630語中613語(37.6%)と最多 以下,人文系440語(27.0%),理工系343語(21.0%),社会系234語 (14.4%) 社会系は理工系や人文系との共通性が高い 生物・医学系は他の領域との共通性が相対的に低い 表 2 日 本 語 学 術 共 通 語 彙 の テ キ ス ト カ バ ー 率 ・ テ キ ス ト カ バ ー 効 率 の 比 較 MC 会話 N=1129538 ジャンル 旧日 本語 語彙 能力 レベ ラベル 試験 ル 出題 範囲 Basic 4級 (non3級 JAWL) JAWL II 中級 JAWL III 上級 前半 2級 JAWL IV 1級 JAWL V 級外 上級 後半 JAWL VI JAWL VII JAWL VIII テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) PC 一般書 BCCWJ全体 JN 新聞 N=2298828 N=32819424 N=5675357 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) テキ ストカ バー 率 (%) (*2) テキ スト カバ ー効 率 (*3) テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) IS 人文・社会系 N=42152 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) TB 社会系 N=186768 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) SS 社会系 N=50601 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) TN 理工系 N=74645 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) BM 生物・医学系 N=13904 テキス トカバ ー率 (%) (*2) テキ ストカ バー 効率 (*3) 80.6 660 73.0 602 72.4 586 68.6 552 57.0 466 62.0 991 62.5 722 66.2 1237 59.8 1154 60.4 2033 JAWL 0 3級 初級 JAWL I 4大 領域 中の 共通 領域 数 (*1) BS 一般書 N=2102178 超 上級 4 0.58 3 0.65 4 0.77 3 0.53 4 0.03 3 0.07 4 0.01 3 0.02 4 0.00 3 0.01 187 166 17 12 3 3 2 2 3 2 1.18 382 1.26 405 1.63 525 2.07 667 2.40 1.39 356 1.31 337 1.38 354 1.85 475 2.38 3.14 56 2.66 48 4.57 82 8.70 156 10.2 1.46 27 1.56 29 2.62 48 6.58 122 4.66 6 0.07 4 0.16 8 0.32 15 0.23 0.12 5 0.19 4 0.35 8 0.77 17 0.57 0.21 3 0.02 2 0.03 3 0.05 5 0.06 0.02 3 0.06 2 0.11 3 0.25 8 0.16 0.06 1 0.01 1 0.01 2 0.01 3 0.04 0.00 2 0.03 2 0.05 2 0.11 4 0.05 0.03 799 701 221 126 39 42 41 35 37 32 2.75 888 2.99 998 3.65 1217 2.73 1139 2.35 654 2.22 673 1.80 561 1.65 1029 9.72 178 9.77 237 11.1 279 11.1 457 5.05 99 4.82 161 2.89 115 4.23 365 0.37 23 0.38 65 0.68 98 0.45 178 0.70 24 0.45 58 1.88 169 2.14 521 0.05 13 0.05 33 0.08 61 0.06 115 0.21 15 0.12 55 0.63 126 0.31 221 0.02 15 0.02 49 0.10 100 0.04 432 0.08 11 0.07 37 0.38 142 0.05 126 *1 人文,社会,理工,生物・医学の4大領域のうち,いくつの分野で特徴的かを示す。具体的には,専門テキストにおける対数尤度比 (一般テキストを参照コーパスにした場合)が,上記4分野のうち,いくつの分野で+となっているかを表す。 *2 そのカテゴリーの語彙がテキスト全体に占める延べ語数の割合。 *3 テキストカバー率を,そのカテゴリーの異なり語数で割り,1000000をかけたもの。そのカテゴリーの1種類の語が平均的にどれ だけのテキストをカバーするかを示す。延べ語数と異なり語数の関係はテキストのサイズによって異なるため,同じテキストの中で カテゴリー間を比較することはできるが,大きさの著しく異なるテキスト間で数値を比較する際は注意が必要である。この数値が大 きいほど,そのカテゴリーの語彙を学ぶことで効率よくそのテキストを理解できるようになることを予測する。 学術共通語彙の意味的特徴 抽象性が高く,論理操作に不可欠 範囲: 「占める」 「特殊」 関係: 「優れる」 「属する」 段階: 「当初」 「現状」 量的変化: 「減少」 「強化」 論述の展開(書き手のスタンス):「取り上げる」「まとめる」 など 最頻出漢字: 「合」「定」「分」「一」「同」「数」「上」「体」「出」「大」 3領域語:「署名」「保健」など具体的なイメージの語も 4領域語:そのような語が極めて少ない 重要度のレベルが変わっても,その性格は変わらない 学術共通語彙の品詞(1) 普通名詞:1072語(41.4%) 例) 「形式」 「背景」 動名詞(=サ変語幹,スル動詞):882語(34.0%) 例)「設置」 「連続」 他のタイプの名詞とあわせて 2104語(81.2%)が名詞になり得る語 動詞(動名詞を除く):225語(8.7%) 例)「認める」 「述べる」 動名詞とあわせて1107語(42.7%)が動詞になり得る語 「形状詞」(ナ形容詞/名詞,解析用辞書UniDicの用語):95語(3.7%) 例) 「詳細」 「平等」 イ形容詞:9語(0.3%)のみ 例) 「著しい」 「等しい」 学術共通語彙の品詞(2) 接辞:106語(4.1%) 例) 「-期」 「-種」 「各-」 重要な位置を占める 副詞:34語(1.3%) 例) 「しばしば」 「あたかも」 その他(助詞,助動詞,連体詞など):22語(0.8%) 古語的な色彩を帯びた語が目立つ 例) 「のみ」 「つつ」 「べし」 「あらゆる」 「いかなる」 「我が」 「漠然」 「れる」「られる」(受身・可能・自発など)も 学術テキストに特徴的 学術共通語彙の(異なり語数)語種比率(1)(表1) 漢語:一貫して4分の3前後(全体では75.2%)。 混種語も漢語的 48語中36語が「漢字1字+する」の組み合わせ 例) 「達する」 「応ずる」 「接する」 副詞も漢語的 例) 「概して」 「総じて」 「単に」 学術共通語彙の77%程度が漢語系 学術共通語彙は 明治期に創出された新漢語(鈴木1981など)が多く 現代中国語との間で意味・用法のずれも小さい 学術テキストの語彙理解では, 中国語系学習者は相当に有利 表 1 日 本 語 学 術 共 通 語 彙 (JAWL) の レ ベ ル 別 異 な り 語 数 ・ 語 例 ・ 語 種 比 率 旧日 学術共 本語 能力 通語彙 試験 ラベル 出題 範囲 4大 語種比率(%) 領域 留学生のた 語例 (異なり語数) 中の 異な めの一般的 レベル 共通 り語 な語彙重要 領域 数 (各カテゴリー中、一般的語彙重要度 外来 混種 固有 ランク最下位6語) 度ランク (*1) 和語 漢語 数 語 語 名詞 (*2) 科学 規則 割合 生産 産業 講義 4 31 3 39 4 559 JAWL II 3 542 JAWL III 4 212 難問 能動 付随 定型 除 本稿 3 452 4 JAWL 0 3級 679-1288 1289-5000 JAWL IV 2級 5001-10000 25.8 67.7 0.0 3.2 0.0 3.2 人口 ス ク リ ーン 数学 20.5 71.8 競争 工業 地理 7.7 0.0 0.0 0.0 20.6 74.6 2.1 2.5 0.0 0.2 演説 大小 実情 14.2 76.8 ス テ ージ ラ イ フ 担保 6.5 1.3 1.1 0.2 12.7 76.9 7.5 2.8 0.0 0.0 交錯 カ ウ ン ト 精度 一因 箇年 エ ン ド 12.4 75.9 9.1 1.5 0.9 0.2 103 併存 親和 盛況 散在 補填 関わ り 合う 8.7 82.5 7.8 1.0 0.0 0.0 3 328 帰着 編著 沿海 拮抗 常套 内情 13.1 75.0 9.5 1.5 0.3 0.6 4 56 閉 増刊 含意 複 活路 所与 16.1 66.1 10.7 3.6 0.0 3.6 3 269 付則 深度 孤 概算 頒布 円錐 14.1 71.4 11.2 1.9 0.0 1.5 初級 JAWL I 中級 上級 前半 1級 JAWL V 級外 JAWL VI JAWL VII JAWL VIII 上級 10001-15000 後半 超 15000-20000 上級 記号 不明 その 他 発足 半数 配分 縮小 適正 見直し 学術共通語彙の(異なり語数)語種比率(2)(表1) 和語:JAWL 0 とⅠで20%を超えるが, それ以外では9~16%程度 一般テキストに比べかなり低い 一般に和語の比率(異なり語数)は 高頻度2000語除けばほぼ3分の1前後 (松下2009; 2010) ⇒ 語種比率の違いは, 母語による学習負担の違いに直結 ⇒ カリキュラム上も重要な問題 表 1 日 本 語 学 術 共 通 語 彙 (JAWL) の レ ベ ル 別 異 な り 語 数 ・ 語 例 ・ 語 種 比 率 旧日 学術共 本語 能力 通語彙 試験 ラベル 出題 範囲 4大 語種比率(%) 領域 留学生のた 語例 (異なり語数) 中の 異な めの一般的 レベル 共通 り語 な語彙重要 領域 数 (各カテゴリー中、一般的語彙重要度 外来 混種 固有 ランク最下位6語) 度ランク (*1) 和語 漢語 数 語 語 名詞 (*2) 科学 規則 割合 生産 産業 講義 4 31 3 39 4 559 JAWL II 3 542 JAWL III 4 212 難問 能動 付随 定型 除 本稿 3 452 4 JAWL 0 3級 679-1288 1289-5000 JAWL IV 2級 5001-10000 25.8 67.7 0.0 3.2 0.0 3.2 人口 ス ク リ ーン 数学 20.5 71.8 競争 工業 地理 7.7 0.0 0.0 0.0 20.6 74.6 2.1 2.5 0.0 0.2 演説 大小 実情 14.2 76.8 ス テ ージ ラ イ フ 担保 6.5 1.3 1.1 0.2 12.7 76.9 7.5 2.8 0.0 0.0 交錯 カ ウ ン ト 精度 一因 箇年 エ ン ド 12.4 75.9 9.1 1.5 0.9 0.2 103 併存 親和 盛況 散在 補填 関わ り 合う 8.7 82.5 7.8 1.0 0.0 0.0 3 328 帰着 編著 沿海 拮抗 常套 内情 13.1 75.0 9.5 1.5 0.3 0.6 4 56 閉 増刊 含意 複 活路 所与 16.1 66.1 10.7 3.6 0.0 3.6 3 269 付則 深度 孤 概算 頒布 円錐 14.1 71.4 11.2 1.9 0.0 1.5 初級 JAWL I 中級 上級 前半 1級 JAWL V 級外 JAWL VI JAWL VII JAWL VIII 上級 10001-15000 後半 超 15000-20000 上級 記号 不明 その 他 発足 半数 配分 縮小 適正 見直し 学術共通語彙の文字 (予稿集に出ていません) (漢字を常用漢字のみに制限した場合でも)文字の 70.4%は漢字 初級,中級では約4分の3が漢字だが,中級以降割合が 少しずつ下がり,JAWLⅧでは59.3% JAWL 0(初級),JAWLⅠ(中級)では初出が多いが, JAWLⅡ(中級)以降は初出は各レベルで半分以下 ⇒重複して使用される字がかなりある ⇒特にJAWLⅠで漢字学習が重要 よく使用される漢字 合定分同一数上体出立大実用要明度発論入有行成 学生理前動法点面付当特中変質自部進 学術共通語彙の漢字 (予稿集に出ていません) JAWL レベル別の異なり漢字数・初出漢字数(順に学習したと仮定した場合)・異なり語数 旧日本 語能力 試験出 題範囲 語彙 ラベル JAWL 0 レベ ル 3級 初級 JAWL I JAWL II 中級 JAWL III 上級 JAWL IV 2級 前半 1級 JAWL V 級外 上級 後半 JAWL VI JAWL VII JAWL VIII 超上 級 JAWL全 体 4大領 域中の 共通領 域数 異なり (*1) 漢字数 4 3 4 3 4 3 4 3 4 3 初出 初出の そのレ ベルで の割合 初出の 累積異 JAWL 累積異 なり漢 全体で なり漢 字数割 異なり の割合 字数 合 語数 語のJA WL全体 での割 合 42 42 100% 4% 42 4% 31 1% 56 51 91% 5% 93 9% 39 2% 439 378 86% 36% 471 45% 559 22% 472 202 43% 19% 673 64% 542 21% 5% 724 69% 212 8% 150 31% 14% 874 83% 452 17% 263 478 51 19% 146 21 14% 2% 895 85% 103 4% 386 85 22% 8% 980 93% 328 13% 86 14 16% 1% 994 94% 56 2% 312 62 20% 6% 1056 100% 269 10% 1056 1056 100% 2591 100% 5.今後の課題、まとめ 今後の課題(1) 低頻度レベルに,一部,不適切に見える語あり 例) 「同校」 「四面」 「ユア」 「そり」 「ずる」 「でんぷん」 解析ミスや採録基準のレベル設定の問題か (Leechほか (2001)は対数尤度比3.8を5%有意の基準に) 用例を確認して,何らかの基準で除去することを検討 レベルづけも恣意的な面あり 3領域語については,残りの一つが専門の学習者にとっては 一般的な重要性のみ JAWLⅡの最下位より,JAWLⅢの最上位のほうが重要かも 今後の課題(2) 複合辞・複合語・連語などは抽出できていない 短単位の語より頻度の高いものも多いはず 学術的な語が日常語の比喩表現などと同形の場合、 抽出できていない可能性あり (コーパスは多義表現に弱い) 例:「注ぐ」 「液体」-「力」「情熱」「心血」「精力」「愛情」 「(信濃)川が(日本)海に」 「視線」「火に油」「酒」 発展課題 作業の過程で2領域語,1領域語も抽出 学術テキストの語彙階層の全体像 語彙的な側面から見たテキスト・ジャンル(レジスター 変種)の特徴づけにも利用できる 入学試験,日本留学試験などの語彙のコントロール 学術共通語彙が一定程度以上含まれるようにすべき 国語教育にも貢献できる(Townsend & Collins, 2008) 一般的学力との関連の検証 そして,当然のことながら, 語彙リストを如何に学習,教育に活用できるか 抽象性が高いので工夫が必要 チェックリストとしても有効 まとめ 学術共通語彙(JAWL),9レベル,2591語 JAWLⅠ 559語 が最も重要 JAWLは学術テキストで著しく高いカバー率 JAWLは効率的な学術語彙リスト 名詞,動名詞,文語的語彙が多い 漢語系語彙が4分の3以上 中級JAWLは新聞語彙と高い共通性 理系は文系より上級の学術共通語彙が多い 中級でJAWL漢字の学習も重要 入試や国語教育にも活用できるはず ダウンロード 語彙リストおよび関連資料は,以下のサイトから URL: www.wa.commufa.jp/~tatsum/ (予稿集に書いてあります) このリストを活用した実践をなさった方は, ぜひ教えてください。 よろしくお願い申し上げます。 引用文献(1) 内山将夫・高橋真弓 (2003). 日英対訳文対応付けデータ. http://www2.nict.go.jp/x/x161/members/mutiyama/align/index.html 小木曽智信 (2007). 「茶まめ」(形態素解析ユーザーインター フェース) https://www.tokuteicorpus.jp/dist/modules/system/modules/me nu/main.php?page_id=1&op=change_page 工藤 拓 (2006). MeCab Ver. 0.98pre3(形態素解析器) http://mecab.sourceforge.net/ 国立国語研究所 (1962). 『現代雑誌九十種の用語用字 第一分 冊 総記および語彙表』秀英出版 国立国語研究所 (2009). 「現代日本語書き言葉均衡コーパス」 モニター公開データ2009 年度版 鈴木修次(1981). 『日本漢語と中国』中央公論社 角 知行 (2010). 「学術基本用語集作成の試み」 『アカデミック・ ジャパニーズ・ジャーナル』2, 11-21. 引用文献(2) 田地野 彰・寺内 一・笹尾洋介・マスワナ紗矢子(2007).「総合 研究大学における英語学術語彙リスト開発の意義 -EAPカリ キュラム開発の観点から-」『京都大学高等教育研究』13 伝 康晴・山田 篤・小椋秀樹・小磯花絵・小木曽智信 (2009). UniDic version 1.3.11(解析辞書) http://www.tokuteicorpus.jp/dist/ (Ver. 1.3.0.は 2007) バトラー後藤裕子 (2010). 「小中学生のための日本語学習語リ スト(試案)」『母語・継承語・バイリンガル教育研究』6, 42-58. 深尾百合子(2001).「「専門日本語教育研究」の現状と展望」 『2001年度 日本語教育学会秋季大会 予稿集』, 233-234. 札野寛子・深澤のぞみ(1995).「理工系学生を対象とした実験・ 研究に必要な日本語指導のための語彙表現研究 -『科学技 術基礎日本語』教材開発に向けて-」『平成7年度 日本語教 育学会春季大会 予稿集』, 186-191. 引用文献(3) 松下達彦 (2009).「マクロに見た常用漢字語の日中対照 研究 ―データベース開発の過程から―」『桜美林言語教 育論叢』5, 117-131. 松下達彦 (2010). 「日本語を読むために必要な語彙と は? -書籍とインターネットの大規模コーパスに基づく語 彙リストの作成-」『2010年度 日本語教育学会春季大会 予稿集』日本語教育学会, 335-336. 松下達彦 (2011). 日本語を読むための語彙データベース (Vocabulary database for reading Japanese) (=日本語を読 むためのTM語彙リスト Ver. 4.0,Ver. 1.0 は2010). http://www.wa.commufa.jp/~tatsum/index.html 水元光美・池田隆介(2003).「導入教育における「基礎専 門語」の重要性 -環境工学系留学生のための語彙調 査と分析から-」『専門日本語教育研究』5, 21-28 引用文献(4) Anthony, L. (2007). AntConc Version 3.2.1 (text analysis tool) http://www.antlab.sci.waseda.ac.jp/software.html (Version 1.0 first published in 2002) Anthony, L. (2009). AntWordProfiler Version 1.2 w (word profiler) http://www.antlab.sci.waseda.ac.jp/software.html (Version 1.0 first published in 2008) Chujo, K., & Utiyama, M. (2006). Selecting level-specific specialized vocabulary using statistical measures. System, 34, 255-269. Coxhead, A. (2000). A new academic word list. TESOL Quarterly, 34(2), 213-238. 引用文献(5) Dunning, T. (1993). Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19, 61–74. Hu, M. H. & Nation, P. (2000). Vocabulary density and reading comprehension. Reading in a Foreign Language, 13(1), 403-430. Hyland, K., & Tse, P. (2007). Is there an “Academic Vocabulary”? TESOL Quarterly, 41(2), 235-253. Leech, G., Rayson, P., & Wilson, A. (2001). Word Frequencies in Written and Spoken English. Harlow: Longman. Tajino, A., Dalsky, D., & Sasao, Y. (2010). Academic vocabulary reconsidered: An EAP curriculum-design perspective. Iranian Journal of Teaching English as a Foreign Language and Literature, 1(4), 3-21. 引用文献(6) Townsend, D., & Collins, P. (2008). Academic vocabulary and middle school English learners: An intervention study. Reading and Writing, 22(9), 993-1019. Utiyama, M. and Isahara, H. (2003) Reliable Measures for Aligning Japanese-English News Articles and Sentences. ACL-2003, 72-79. Ward, J. (1999). How large a vocabulary do EAP Engineering students need? Reading in a Foreign Language, 12(2), 309-323. West, M. (1953). A General Service List of English Words. London: Longman, Green & Co. Xue, G., & Nation, P. (1984). A university word list. Language Learning and Communication, 3(2), 215-229.
© Copyright 2024 ExpyDoc