Nagoya Interlanguage Corpus of English (NICE) の条件統制について

Nagoya Interlanguage Corpus of English (NICE) の条件統制について
2015 年 4 月 30 日
大名力
以下に示すのは,名古屋大学の杉浦正利氏が中心となって作成,公開しているコーパス Nagoya Interlanguage
Corpus of English (NICE) の関係者の論文等から,NICE の作文執筆条件および条件統制の必要性について述べ
ている個所を抜粋したものである。
A.
杉浦・成田・石田・阪上・村尾・村木 (2006)「学習者コーパスにおける属性の統制と多様性─ICLE と
LOCNESS との比較研究─」The ICLE/LINSEI Japanese Sub-Corpus Symposium, 2006 年 11 月 19 日
1.3.1 基本設計
学習者(年齢): 日本語母語大学生・大学院生
習熟度: TOEIC 等得点明記
タスク: 11 のテーマから一つを選び、辞書なしで、1時間で書く。
1) テーマの限定 → テーマ別のデータ分析が可能
2) 辞書の使用は不可 → 学習者の持つ言語産出能力を分析
3) 産出時間を 1 時間に限定 → 産出量の分析が可能
(pp. 1-2)
B.
杉浦正利・阪上辰也・成田真澄 (2007)「英語学習者コーパスにおける作文テーマの影響: 英語母語話者コ
ーパスとの比較分析」英語コーパス学会 第 29 回大会,2007 年 4 月 28 日,同志社大学
4.1 使用コーパス: NICE (Nagoya Interlanguage Corpus of English)
●
学習者: 日本語母語の大学生・大学院生
●
習熟度: TOEIC などの得点を明記
●
タスク: 11 のテーマから一つを選び、辞書無しで、1時間で書く。
1) テーマの限定 → テーマ別のデータ分析が可能
2) 辞書の使用は不可 → 学習者の持つ言語産出能力を分析
3) 産出時間を 1 時間に限定 → 産出量の分析が可能
(p. 2)
C.
「英語コーパス学会 第 29 回大会資料」の上記研究発表の要旨より
http://english.chs.nihon-u.ac.jp/jaecs/Archive/CONF/RESUME_29.pdf (p. 4)
現在構築中の、英語学習者及び英語母語話者コーパス (各 200 名分の英作文、辞書などの参考書 を
使用せず 1 時間の時間制限あり) データから、二つのテーマ “School Education” と“Sports” を取 り上げ、
それぞれの作文における総単語数・異なり語数・文数・平均単語長・平均文長・Type/Token 率を変数
とし、判別分析を行ない、こうした個々の作文の持つ語彙的特徴により、二つのテーマの違いを判別
できるかどうか、また、判別できるとしたらどの特徴が判別に寄与しているかを検証した。
2 D.
Sugiura, Narita, Ishida, Sakaue, Murao and Muraki (2007) “A Discriminant Analysis of Non-native Speakers and
Native Speakers of English”, Proceedings of the Corpus Linguistics Conference 2007.
[http://ucrel.lancs.ac.uk/publications/CL2007/paper/216_Paper.pdf]
a. As we have reviewed above, the ICLE can be regarded as well-designed, but its data are not as well-controlled as
SLA data. In order to pursue SLA research using learner corpora, we need well-controlled corpus data, which
can be called “Learner corpus 2.0.”
Based on the critical review above of the ICLE’s corpus design, we have compiled a new English learner
corpus, NICE-NNS, and a comparable corpus of native English speakers, NICE-NS. Each corpus consists of 200
essays. The task settings are: 1) timed, 60 minutes and 2) no reference tools; thus, all of the essays are collected
under the same conditions. (p. 4)
b. The time for essay writing is also controlled at 60 minutes, which enables us to compare and analyze the amount
of words produced when all students are under the same time pressure. (p. 6)
c. This paper has demonstrated several discriminant analyses based on data from the well-controlled learner corpus,
NICE. (p. 15)
d. Throughout this paper we have been insisting on just one point: the importance of controlling the variables in
SLA research using learner corpora. (p. 16)
E.
阪上辰也・杉浦正利・成田真澄 (2008)「学習者コーパス「NICE」の構築」,平成 17∼19 年度 科学研究費
補助金 (基盤研究(B))「英語学習者のコロケーション知識に関する基礎的研究」 (課題番号 17320084,研
究代表者 杉浦正利), pp. 1-13.
a. 上記の ICLE に見られる問題点を解消するために、NICE の構築においては以下の点について統制を
とることとした。
学習者:日本語を母語とする大学生・大学院生に限定
習熟度:TOEIC / TOEFL のスコアを明記(判明している分のみ)
タスク:11 個のテーマから 1 つを選び、辞書を使わず、1 時間で作成
(p. 2)
b. 最後に、1時間という時間制限を設けた。
「1時間でどれだけの語を多く産出することができるか」と
いう産出量の分析や比較が可能となる。(p. 3)
c.
表2:NICE の概要
総語数
ファイル数
平均語数
NICE-NNS
69,858
207
337
NICE-NS
117,571
200
588
(p. 7) d. 表 2 から、学習者よりも母語話者の総語数が 4 万語以上多いことが分かる。また、1 ファイルあたりの
平均語数も、母語話者の方が、学習者よりも約 250 語多く産出していることが分かる。1 時間という時
間制限を条件として設定したことにより、産出量の差が明らかになった。 (p. 7)
3 F.
北村まゆみ・杉浦正利 (2011)「英文エッセイ評価における指標としての接続語句」『英語コーパス研究』
18 号, pp. 33-48.
本研究では,初級から上級レベルの日本人英語学習者が 1 時間で産出したエッセイを収集して構築され
た NICE (Nagoya Interlanguage Corpus of English) (杉浦, 2008a) を用いて,... (p. 36)
G.
Kitamura (2011) “Influence of Japanese EFL learner errors on essay evaluation,” ARELE Vol. 22, pp. 169-184.
The NICE corpus is well-controlled in terms of conditions such as topics, the use of references, and time for
writing essays. In other words, all the essays are produced under the same conditions. Japanese university students
are requested to choose a topic from among 11 options and complete an essay on it in 60 minutes without using
dictionaries. (p. 171)
H.
阪上辰也 (2011)「学習者コーパス入門 ̶NICE を利用して̶」
『より良い外国語教育研究のための方法』(外
国語教育メディア学会 (LET) 関西支部メソドロジー研究部会 2010 年度報告論集), pp. 74–99.
学習者コーパスの場合,各学習者が,どれほど作文を書いたのかを分析することがある。例えば,あ
る学習者が,制限時間内 (NICE の場合,作文時間は 1 時間に制限されている) にいくつの文を書くこと
ができたか,という数値を求める場合を考えてみる。(p. 79)
I.
杉浦正利 (2011)「言語習得研究のための学習者コーパス」藤村逸子・滝沢直宏 (編)『言語研究の技法』
pp. 123-140.
a. NICE は第二言語習得研究のための統制のとれた学習者コーパスとして,著者を中心として名古屋大学
で構築された。[...] ライティングのテーマとして 11 個のテーマを提示し,その中から好きなテーマを
選んでもらい,60 分でエッセイを書いてもらった。時間を 60 分としたのは,日本語母語の英語学習者
の場合,エッセイを書くことになれていないため,ある程度のまとまった量を書くには,時間的な余
裕が必要であるためである。また,研究データとして使用するためには,同一条件でデータを収集す
る必要があるので,制限時間を設定した。エッセイを書く際には,辞書などの参考図書の使用を認め
ないことにした。これも,同一条件でデータを収集するためである。また,こうすることによって辞
書などの例文をそのまま使用することを防ぎ,学習者が知識として持っている表現を産出することを
意図した。(pp. 128-129)
b. コーパスが利用できるようになって以降,学習者コーパスも構築されそれを使った研究が始まったが,
第二言語習得研究のために信頼できるデータとするためには,統制のとれた学習者コーパスが必要で
あることを説明し,その実例として,NICE という学習者コーパスについて,その構築過程から,利用
の流れ,そして NICE を使った具体的な研究の実例を紹介した。(pp. 137-138)
J.
石田知美・杉浦正利 (2012)「日本人英語学習者による連語表現の言語的特徴―判別分析を活用して」,
『英
語コーパス研究』第 19 号, pp. 1-14.
この研究では,本研究の分析対象にもなっている Nagoya Interlanguage Corpus of English (以下 NICE) を
使用した。このコーパスは大学生または大学院生の日本人英語学習者のエッセイから構成されたコー
パス (NICE-NNS) と,英語母語話者のエッセイを収集したコーパス (NICE-NS) から構成されており,
エッセイは,辞書などを使用せず 1 時間で書かれたものである。 (pp. 3-4)
4 K.
投野由紀夫・杉浦正利・和泉絵美・金子朝子 (編著) (2013)『英語学習者コーパス活用ハンドブック』
(以下の引用は,すべて NICE 関係者執筆個所からのもの)
a. ライティングの際には,辞書等参考図書の使用を禁止した。これは,学習者自身の持つ英語の産出能
力をデータとして収集するためである。ライティングタスクには 1 時間という時間制限を設けた。(p.
75)
b. 2) タスクの統制
学習者データの収集においては,監督者立ち会いのもとでライティングタスクを行っているため,
辞書や参考書を見ずに 1 時間で産出したデータであることが確認されている。この点,データとして
は実験データに等しい質が保たれている。(p. 77)
c. 単に,学習者データの頻度を見るだけでなく,それを同条件で収集した母語話者データと比較するこ
と,そして,学習者データも,習熟度によってレベル分けして観察すること,さらに,使用したデー
タを,正用と誤用とに分けて使用頻度を観察することで,学習者のコロケーション表現の全体像を観
察することができることを示した。(p. 94)
d. 英語学習者と母語話者が 1 時間でエッセイを書くというタスクにより収集された学習者コーパス NICE
では,エッセイの総語数の平均が学習者では約 340 語,母語話者では約 600 語と,語彙的な違いが明
白である。(p. 99)
e. この結果は,同じタスクで書かれたエッセイにおいて単語の総語数と異なり語数という 2 つの特性を
観察することで,そのエッセイが学習者のグループに属するのか,母語話者のグループになるのかが
94.8%の判別率で分類できることを意味する。(p. 101)
f. 学習者と母語話者に同じ条件で産出をしてもらい,どのような違いが生じるのかを比較観察すること
で,ネイティブらしさと学習者の不自然さとを明らかにできる。(p. 117)
L.
阪上辰也 (2014)「第 10 章 学習者コーパスを使った事例研究」
『英語教師のためのコーパス活用ガイド』
私たち教師は,経験的に,学習者と母語話者が書く英語をそれぞれ比較すると,何らかの差があるこ
とを知っています。コロケーションはその最たるものだと言えるでしょう。その他にも,一定時間で
書ける・話せる語数が違ったり,使った表現の種類が違ったりすることで,結果的にそれらが学習者
と母語話者の差となるわけです。では,実際にどのような項目が,学習者と母語話者を分ける要因と
なっているのでしょうか。その要因を探ろうとしたのが,Sugiura et al. (2007) の研究です。この研究で
は,ICLE のような従来の学習者コーパスにおいて,書き手の属性や環境面の条件の統制が不十分なこ
とを指摘し,書くテーマや書く時間等を制限した NICE を用いて,学習者と母語話者を分ける要因とし
て何が関わっているのかを明らかにしようとしました。(p. 124, 下線は大名)