「「良い作文」に対する定量的分析」(日本語教育学会2015年秋大会予稿集)

「良い作文」に対する定量的分析
李在鎬・木戸光子・加藤あさぎ(筑波大学)
・小浦方理恵(麗澤大学)
1. 背景と目的
本研究では,プレースメントテストでの応用を視野に入れながら,良い作文とは何かという
問に対して,統計的な手法に基づいて考察する。具体的には,1)T 大学の作文クラスにおい
て 2012 春~2013 秋の期間中(4クラス×4学期)に収集した作文を電子化した。2)コース
担当者が当該レベルにおける達成度を主観判定した。3)作文単位でテキスト情報量を計算し
た。4)分散分析と決定木分析を行い,達成度を説明できる言語的要因は何であるかを分析し
た。分析の結果,レベルによって達成度に関する言語的要因が異なっていることが明らかにな
った。本研究の調査結果は主観的になりがちな達成度の判別に関する科学的な検証であり,
「良
い作文」が持つ多様性,複雑性の一端を明らかにするものと評価できる。また,計算モデルに
よる分析手法を庭安するものであるため,文章の自動評価の基礎研究になる。
2. 先行研究と問題提起
良い文章,良い作文とは何かという問に対しては,いわゆる人手作業に基づく評価基準を提
案する先行研究は数多い。しかし,これらの研究ではパフォーマンス評価に共通する信頼性・
妥当性の問題があり,根本的な課題解決には至っていない(作文評価については,田中・阿部
2014 参照,パフォーマンス評価の問題点については李(編著)2015 参照)
。
人手作業による作文評価の多くは,評価指標が経験的な要素で決まるため,データに基づく
妥当性の検証が難しい。本研究では,この課題を解決するため,評価指標の開発は反証可能な
形で議論を構成する必要があると考える。とりわけ,評価者に依存しない客観的評価指標を抽
出することと評価指標間の階層関係を明確にすることが重要と考える。この課題を踏まえ,本
研究では,機械的な処理モデルを用いて,いつ,誰が測定してもゆれのない評価軸を構築する
とともに,統計的なモデリングを行うことで,開発した指標の妥当性・汎用性についても明ら
かにする。研究調査の具体的な課題として,以下の2点を設定する。
1)良い作文と悪い作文を分ける言語的基準を習熟度に基づいて抽出する。
2)全集団において良い作文と悪い作文を分ける言語的基準(の階層構造)を明らかにする。
1)は到達度評価に関わる問題提起である。2)は熟達度評価に関わる問題提起である。1)
の課題設定をとおして,作文の良し悪しに関わる判断に,習熟度がどのようなバイアスを与え
るのか明らかにしたい。2)の課題設定をとおして,文章の読み手にとって良い作文が持つ普
遍的な要因を明らかにするとともに,その要因の強弱をデータサイエンスの観点から明らかに
する。
3. データと分析方法
分析に用いたデータは,2012 年春学期から 2013 年秋学期において4つのレベル(中級の下
(J500),中級の上(J600),上級の下(J700),上級の上(J800))の受講者が手書きで作成した作文
である(作文の総数は 582 件,総語数は 106,880 語,一作文の平均字数は 280.7 字)
。このデ
ータに対して,以下の手順で分析を行った。




ステップ 1:
ステップ 2:
ステップ 3:
ステップ 4:
手書き作文の電子化
コースの担当教員による達成度評価
該当テキストの言語処理と数量化
統計分析
ステップ1として,手書きの作文を手入力し,電子化した。ステップ 2 として,各コースを
担当した教員が,全作文に目をとおし,当該レベルとして,非常によくかけている作文(A 判
定作文)と当該レベルとして,よくない作文(C 判定作文)をそれぞれ 10 編ずつ選んだ。非常
によくかけている作文の判断基準は,ヒューリスティックな視点で行っており,評価用ルーブ
リックなどは作成していない。なぜなら,本研究は,ヒューリスティックな視点の中身を計算
モデルで再構築することを目的としているからである。なお,分析では,A 判定と C 判定のも
の以外に,どちらにも属さない作文(=良いとも悪いとも言えない作文)を B 判定作文にし,
ほかと同様に 10 編を選んだ。つまり,想定としては,A 判定は,よくできた作文,B 判定は,
まあまあできた作文,C 判定は,悪い作文という想定である。中級の下レベル(J500)から上
級の上レベル(J800 レベル)の 4 レベルで,A~C 判定の各 10 編が集まり,合計で 120 編(4
レベル× 3 水準× 10 編=120 編)の分析データが得られた。これをステップ 3 で
http://jreadability.net/を使い,数量データに変換した(図 1)
。
図 1. 数量化のイメージ
図 1 に示すとおり,120 編の文章データを延べ語数や異なり語数,さらには動詞や名詞類の使
用頻度,含有語彙レベルを集計した。数量化に使用した変数は,全部で 18 個あり,語種別の使
用率,語の長さ,文の長さ,品詞の使用率,語彙難易度の使用率などが入っている。ステップ
4 では,IBM SPSS ver.23 を使用し,達成度スケールを従属変数,数量化に用いた変数を独立
変数に指定し,分散分析と決定木分析を行った。
4. 結果と考察
統計分析の結果を述べる。まず,分散分析の結果を述べてから,決定木分析の結果を述べる。
分散分析の結果については,従属変数に対して統計的な有意差が確認された項目のみを取り上
げることにする。
まず,
「中級の下」レベルでは,合計文字数や内容語の総頻度において,習熟度による産出頻
度の統計的有意差が確認された(図 2a, 図 2b)
。これは,主に作品全体の長さによる差として
説明できる。つまり,このレベルにおいては,ある程度の長さをもち,内容語の絶対的な出現
頻度が作文の良し悪しに影響を与えていると考えられる。
次に「中級の上」レベルでは,初級前半語彙や内容語の使用率において有意差が確認された
(図 2c, 図 2d)
。これは,語彙の質的な属性による差として説明できる。とりわけ,内容語の
相対的な使用率が高いほど良い作文であると判定されている。また,語彙難易度の部分では,
初級レベルの語彙が多いほど, C 判定もしくは B 判定になっており,ある程度,難しい語彙
が使用されているかどうかが評価に影響していると考えられる(語彙レベルの判定は「日本語
教育語彙表(http://jhlee.sakura.ne.jp/JEV.html)
」に準拠して行った)
。
次に,
「上級の下」レベルでは1単語の平均的な長さにおいて統計的有意差が確認された(図
2e)
。これは,語彙知識として長い語彙を知っているかどうかの差として説明できる。
(F(2,27)=10.336, p<.001)
(F(2,27)=10.171, p<.001)
a)
b)
(F(2,27)=5.521, p<.01)
c)
d)
(F(2,27)=11.193, p<.001)
F(2,27)=8.244, p<.01)
(F(2,27)=10.160,
e)
f)
図 2. 分散分析の結果
最後に「上級の上」レベルでは,一文の平均的な長さにおいて,習熟度による産出頻度の統
計的有意差が確認された(図 2f)
。これは,複雑な文章作成の能力の差として説明できる。つま
り,複文などのように一文の物理的な長さが重要な要因として関与しているのである。
図 2 の結果から得られる示唆として,日本語教師にとって良い作文という判断は,学習者の
習熟度によってかなり異なるという事実が明らかになった。全体的な傾向として,中級では語
彙によって表現される内容面の豊かさや作文全体の長さが重要な要因になっている。一方,上
級では語や文章の長さが良い作文を線引きする要因になっており,どの程度,正確に表現する
ことができるかという観点が重要になっていると考えられる。
次に,習熟度の問題を超えて,読み手にとって良い作文とは何かという問題を考えてみたい。
すべての学習者における共通属性を捉えるべく,2つの決定木分析を行った。1つ目は,A~C
判定の到達度を従属変数に,2つ目は,J500~J800 の習熟度を従属変数にして,分析してみ
た。図 3 は到達度に対する決定木分析の結果であり,図 4 は,習熟度に対する決定木分析の結
果である。なお,決定木分析とは,従属変数に対して独立変数の統計的な有意差をもとに変数
を階層化しながらデータを分類する機械学習のアルゴリズムの一つである。本研究では,IBM
SPSS ver.23 の Classification Tree を使い,決定木分析を行った。
図 3 の決定木分析の結果については,以下のことが言える。
1.
2.
1語の平均的な長さと内容語の総頻度と作文全体の延べ語数で全体のデータが分類さ
れている。
データの分類にとって1語の平均的な長さがもっとも重要である。特に A 判定と B・C
判定の特徴抽出にとって1語の平均的な長さがもっとも大きな要因になっている。
この結果をもとに,A 判定を受けた全作文の共通要因と C 判定を受けた全作文の共通要因を次
のように推定することができる。1)A 判定を受けた作文に共通する性質として作文全体にお
ける1語の平均的な長さが 1.9 拍以上,作文全体において内容語が 63 語以上,使用されてい
る。2)C 判定を受けた作文に共通する性質として作文全体における 1 語の平均的な長さが 1.9
拍未満,作文全体において内容語が 63 語未満であり,全体の語数が 168 語未満である。
図3. 達成度に対する決定木
図4. 習熟度に対する決定木
次に図 4 の習熟度に対する決定木分析の結果については,以下のことが言える。
1.
2.
3.
中級後半の語彙が使えるかどうかで,中級の下(J500)とそれ以外のグループが別れる。
和語の総頻度で上級の下とそれ以外のグループが別れる。
漢語の使用率によって,中級の上(J600)と上級の下(J700)が別れる。
上述の特徴をもとに,
図3に対して行ったのと同じように,
中級の下
(J500)
~上級の上
(J800)
のレベルに共通する性質を推定できる。例えば,中級の下(J500)に共通する特徴としては次
のように記述できる。テキスト全体における中級後半語彙の使用率が 16%未満であり,和語の
総頻度が 124 語未満,漢語率が 25%未満である。
5. まとめと課題
本研究では,良い作文とはなにかという問に対して,T 大学で収集した大規模な作文データ
を,計算モデルをつかって定量的に分析した。本研究が設定した2つの課題に関して明らかに
なった点を述べる。
課題1)良い作文と悪い作文を分ける言語的基準を習熟度に基づいて抽出する。
→分散分析で4つの習熟度別に,良い作文と悪い作文の言語情報量を明らかにした。中級の
下(J500)では語数や内容語の総使用量が,中級の上(J600)では内容語の相対的な使用頻
度,上級の下(J700)では1語の平均的な長さ,上級の上(J800)では1文の平均的な長さ
において有意差が確認された。
課題2)全集団において良い作文と悪い作文を分ける言語的基準(の階層構造)を明らかに
する。
→決定木分析で到達度別・習熟度別にサブクラスを階層化した。到達度に関わる要因として
は,1語の平均的な長さや内容語の総頻度などが重要であることが明らかになった。習熟度
に係る要因としては,中級語彙や和語や漢語の使用頻度が重要であることが明らかになっ
た。
本研究では人の判定を計算モデルで考察したが,プレースメントテストに実装するための今
後の課題としては,計算モデルによって分類したデータを人の判定で検証する作業が必要であ
る。
*謝辞:本研究は,2013 年度および 2014 年度の筑波大学・学群教育充実事業経費の補助を受
けて行いました。データ入力および判定においては,本発表の第 2 著者,第 3 著者,第4著者
のほかに,筑波大学グローバル・コミュニケーション教育センター(旧留学生センター)の「書
く」クラス担当の石上綾子氏,田中孝始氏,長戸三成子氏,山本千波氏,渡邊芙裕美氏に大変
お世話になりました。深くお礼申し上げます。
【参考資料】
田中真理・阿部新(2014)
『Good writing へのパスポート―読み手と構成を考えた日本語ライ
ティング』くろしお出版
李在鎬(編著)(2015)『日本語教育のための言語テストガイドブック』くろしお出版.