自由英作文評価の改善: 評定結果の診断的活用

自由英作文評価の改善:
評定結果の診断的活用
第44回 大学英語教育学会
シンポジウム発表スライド
2005/09/10
山西 博之
広島大学大学院
1
本提案の目的

ある高等学校の生徒が書いた自由英作文を,その
高等学校の英語科教員が評価した結果を用いて,
自由英作文評価の「診断的」な改善方法を示すこと
具体的には,以下の2つの方法を扱う

①総合的評価尺度と分析的評価尺度の評定結果
を比較する,Microsoft Excelでも検討可能な方法

②分析的評価尺度の評定結果を,評価に関わる要
因ごとに検討する一般化可能性理論を用いた方法
2
評価における問題点

評価尺度の問題 (妥当性×実用性)
①総合的評価の問題(e.g., Hamp-Lyons, 1995)
②分析的評価の問題(e.g., Bacha, 2001)
→実用性と妥当性の兼ね合いを考慮に入れて,
いかに分析的な評価を改善するか?

評定者の問題 (信頼性×実用性)
①評価の一貫性の問題(e.g., 工藤・根岸, 2002)
②評価経験の問題(e.g., 山西, 2004, 印刷中)
→実用性と信頼性の兼ね合いを考慮に入れて,
いかに分析的な評価を改善するか?
3
改善点を見いだす方法

①評価の妥当性と実用性の検討
・幅広い要因を汲み取ることができる総合的評価
と比較することで,分析的評価の項目内容を検討
→本提案では,表計算ソフトや統計ソフトを用いた
相関分析を用いた方法を提示する(方法①)

②評価の信頼性と実用性の検討
・項目数(評定者数)を増減,または項目内容を変
更した場合の信頼性の検討
→本提案では,一般化可能性理論を用いた検討の
方法を提示する(方法②)
4
本提案で用いるデータ

山西(2004)のデータの一部を利用
・対象‥1校の高校生20名が書いた自由英作文
・評定者‥同校の英語科教員8名
・評価尺度‥総合的評価と分析的評価(Jacobs
et al.(1981)のESL Composition Profile(資料図1)
のレンジを変えたもの‥Content, Organization,
Vocabulary, Language use, Mechanicsの5項目)
・評定値のレンジ‥1~10点(資料図2)
(poor = 1-2点,fair = 3-5点,good = 6-8点,
very good = 9-10点)
5
本提案で用いるデータ
・課題‥大学入試で実施された自由英作文課題
(Describe something strange or frightening
you have witnessed or experienced in your life.)
・評価方法‥
①評価尺度ごとに,自由英作文と評価記入欄を
設けた評価シートを作成(資料図2)
②評価尺度セットごとに,すべての評定者において,
生徒の作文はランダムオーダー
(順序効果の影響を避けるため)
③総合的評価セット→分析的評価セットの順に評価
(分析的な評価項目の影響を総合的評価に
与えないため)
6
方法①
(手順)

①各評価項目・生徒ごとに,評定者の平均値を算出
することでデータを「圧縮」(資料図3)

②Microsoft Excelを用いて,相関係数を算出
(資料図4)‥「分析ツール」→「相関」

③分析的評価尺度内の相関係数の解釈(資料図5)

④評価尺度間(総合的評価尺度と分析的評価尺度)
の相関係数(総合的評価との併存的妥当性)の解釈
(資料図5下段)
7
方法①
(相関係数の解釈例)
極端に相関係数が高い(低い)項目はないため,
同様の能力を測定したり,見当外れな能力を測定
している項目はないと言える
総合的評価との相関が高いため,合計点で
作文の総合的な能力を測定可能であると言える
*相関係数の大きさは,目的に応じて相対的に判断
*妥当性と実用性の兼ね合いを検討する
8
方法①
(まとめ)

方法①のように評価尺度の相関係数を検討する
ことで,ローデータや平均値の検討以上に評価の
改善のためのポイントが見えてくる

その際,特に分析的評価尺度の検討を行う場合に
は,外的基準として総合的評価の評価結果を組み
合わせることで,得られる情報はより多くなる

方法①は簡便な方法であるが,技術的な問題点は,
①データを圧縮する必要があること,②さまざま要因
を一度に検討することが不可能であること,である
9
方法②
(一般化可能性理論について)




一般化可能性理論(Generalizability Theory)は,
評価の改善に適しており,以下の2つの段階からなる
①評価に関わる要因(変動要因:本提案では,評価項目,
評定者,生徒の主効果とそれらの交互作用)が
評定値に与える影響の大きさ(分散成分)を推定する
段階(Generalizability Study‥G-Study)
②分散成分の推定値を用いて,信頼性の指標である
一般化可能性係数を算出したり,評価項目数や評定者
数を増減させた場合の一般化可能性係数の変動の
シミュレーションを行う段階(Decision Study‥D-Study)
より詳しくは,「参考文献(一般化可能性理論)」参照
10
方法②
(手順)





①分散成分を推定可能なソフトウェア(SPSS
Advanced ModelsやGENOVA)用にデータ整形
(資料図6)
‥データの「圧縮」の必要なし
②SPSS Advanced Modelsを用いて,分散成分推定値
を算出(資料図7)
‥「分析」→「一般線型モデル」→「分散成分」→
得点を「従属変数」,生徒,評定者,項目を「変量因子」
③変動要因の主効果,交互作用を解釈(資料図8)
④計算式(1)に値を代入して一般化可能性係数を算出
⑤評定者数・評価項目数のシミュレーション
(資料図9,10)
11
方法②
(分散成分推定値の解釈)
「誤差」以外の推定値の合計で
各推定値を割って百分率を算出
百分率
生徒(p)
… 5.6%
評定者(r)
… 46. 9%
項目(i)
… 5. 3%
生徒×評定者(p×r)
…19.8%
生徒×項目(p×i)
… 2.2%
評定者×項目(r×i)
… 8.6%
生徒×評定者×項目(p×r×i)…11.6%
「評定者(r)」から評価の厳しさの違い
が大きかったこと,「生徒×評定者
(p×r)」から評定値の与え方のばらつ
きが比較的大きかったことが分かる
12
方法②
(項目数変化のシミュレーション例)
1
もともとの5項目を超えると,たとえ10項目
でも一般化可能性係数はあまり向上しない
0.9
0.8
一 0.7
般
化 0.6
可
0.5
能
性 0.4
係
数 0.3
3項目であってもG = 0.60を超えるため,
3項目の尺度でもそれなりに高い信頼性を
得ることが可能であると言える
0.2
0.1
0
1
2
3
4
5
6
7
8
9
10
評価項目数
*信頼性と実用性の兼ね合いを検討する
13
方法②
(まとめ)

一般化可能性理論を用いることで,どの程度の
信頼性で評価が行われたのか検討可能である

その際,評定者,評価項目,生徒といった変動
要因ごとの,評価に対する影響の大きさを検討
することが可能である

また,評定者数,評価項目数を変化させることで
シミュレーションを行うことが可能であるため,
今後の評価の改善のためのポイントを把握する
ことが可能である
14
本提案のまとめ



実際に行った自由英作文の評定結果を用いること
で,実用性を考慮に入れた上での妥当性や信頼性
の検討を,改善のポイントを明確にしながら診断的
に行うことが可能である
本提案では,方法①において実用性と妥当性を
検討し,方法②において実用性と信頼性を検討
したが,両者を組み合わせることで,効果的に
評価の改善を行うことが可能であると言える
各方法の詳しい手順は下記URLを参照
http://home.att.ne.jp/banana/yamanishi/kenkyu.
html
15
参考文献
Bacha, N. (2001). Writing evaluation: What can
analytic versus holistic essay scoring tell us?
System, 29, 371-383.
Hamp-Lyons, L. (1995). Rating nonnative writing:
The trouble with holistic scoring. TESOL
Quarterly, 29, 759-765.
Jacobs, H. L., Zinkgraf, S. A., Wormuth, D. R.,
Hartfiel, V. F., & Hughey, J. B. (1981). Testing
ESL composition: A practical approach. Rowley,
MA: Newbury House.
16
参考文献
工藤洋路・根岸雅史 (2002). 「自由作文の採点方法
による採点者間信頼性について」 Annual Review
of English Language Education in Japan
(ARELE), 13, 91-100.
山西博之 (2004). 「高校生の自由英作文はどのよう
に評価されているのか-分析的評価尺度と総合的
評価尺度の比較を通しての検討-」 JALT Journal,
26, 189-205.
山西博之 (印刷中). 「一般化可能性理論を用いた高
校生の自由英作文評価の検討」 JALT Journal,27.
17
参考文献(一般化可能性理論)
Brennan, R. L. (1992). Elements of
generalizability theory (Rev. ed.). Iowa City:
ACT Publications.
池田央 (1994). 『現代テスト理論』朝倉書店.
Shavelson, R. J., & Webb, N. M. (1991).
Generalizability theory: A primer. Newbury Park,
CA: Sage Publications.
山森光陽 (2002). 「一般化可能性理論を用いた観点
別評価の方法論の検討」 STEP Bulletin, 14, 6270.
18