タイトル

NLP若手の会 第3回シンポジウム
発表32
レポート評価支援について
(剽窃部分と指導箇所の検出)
2008/9/23
峯脇 さやか
弓削商船高等専門学校 情報工学科
研究の目的
大学生・高専生のレポートはコピペが多い
 情報技術の発展
• ネット上には,多種多様な記述が存在
• マウスを使うだけで,コピペ完了
 ネット上の記述をコピペすることに,意識が低い
• 盗用(=犯罪)であることを知らない
• 著作権についてよく知らない
 学生への教育が不十分
• コピペさせない指導とは?
– “いたちごっこ”のような気も・・・
 安易にコピペすることにより,文を書く力が向上
しない
2/16
研究の目的
教員にとって,レポートチェックはとても大変
 1つ1つ手作業でチェックする
 時間も労力もかかる
 コピペレポートをチェックしてもむなしい
レポート評価を支援するソフトがあると,とて
も便利
3/16
レポート評価支援
剽窃部分の検出
 どの部分がコピペか自動検出
• 他者から/ネットから
 類似度計算
 Web検索
指導箇所の検出
 模範解答を用いて,課題にあった回答かどうか
チェック
 文章校正
• 誤字脱字
• 表記ゆれ …など
4/16
本研究の立場
レポート = 自由記述文
 実験のレポート
 授業での課題
 e-Learningで使えれば,出題の幅が広がる
• 現在は,多肢選択式がほとんど
教師のレポート評価を支援しようという立場
 全ての評価を自動で行うという立場ではない
• 評価は教師がすべきものであって,支援ソフトなどの
使い方は,その教師次第
5/16
先行研究
「コピペ」を発見するソフト/杉光
 ネット上に類似する文章があるか検索
 2009年中に市販予定
内容の独自性を視覚化するレポート評価支援シ
ステム/川口,砂山[2007]
 オリジナリティで評価
ニューラルネットワークを用いた実習レポート
評価支援システムの開発 /渡辺[2008]
 1対比較法とTF・IDF法でコピーレポート判定
 理解度チェック単語数で考察の評価
6/16
剽窃部分の検出
剽窃とは
 他人の作品・学説などを自分のものとして発表す
ること(goo辞書より)
 いわゆる「パクリ」
 引用との違い
• 引用は,自説を補強するためのもの
剽窃部分 = コピペされた部分
7/16
剽窃部分の検出
コピペの傾向
 他学生からのコピペ
• ある1学生から
– 同級生
– 上級生(過去の合格レポート)
• 複数の学生から良い所取り
 ネットからのコピペ
• ある1つのサイトから
• 複数のサイトから
8/16
他学生からのコピペ検出
1文ごとに類似度を計算する
 共通の単語を持つときのみ計算
依存構造木を用いたテキスト間の類似度計算
 依存構造木
• ノード:文節
• リンク:係り受け関係
 類似度 ≒ 共通部分木の数
• 正規化
9/16
他学生からのコピペ検出
類似度が大きいものの密度を調べる
 似ている文が連続している場合
 似ている文が分散している場合
レポートA
レポートB
レポートA
レポートC
文1
文2
文3
文4
文5
・・・
文1
文2
文3
文4
文5
・・・
文1
文2
文3
文4
文5
・・・
文1
文2
文3
文4
文5
・・・
レポートBの文2~文5は
レポートAの文1~文4を
コピペした可能性が高い
似ている文が分散している場合
コピペしたと判断するのは・・・?
10/16
ネットからのコピペの検出
Googleで文をレポート中の文を1文ずつ検索
 検索キーを文字コードに変換&URL生成
• Unicode(UTF-8)
http://www.google.co.jp/search?hl=ja
&q=%E5%AE%9A%E5%9E%8B%E5%8C%96 ... &lr=&aq=f&oq=
定
型
化
Unicode(UTF-8)
定:0xE5AE9A
型:0xE59E8B
化:0xE58C96
11/16
ネットからのコピペ検出
検索結果ページ(HTML)を取得
 ソースを解析
emタグで囲まれている
(文字を強調する)
12/16
指導箇所の検出
模範解答を用いて,課題にあった回答かどうか
チェック
 模範解答との文書間類似度を計算
• ベクトル空間モデル
 模範解答とは
• 教師が作成したもの
• 過去の合格レポート
13/16
指導箇所の検出
文章校正
 誤字脱字
 表記ゆれ
 文末表現
• ○:「~である」
• ×:「~です」
 字数
• (字数指定がある場合)クリアしているか?
• 少なすぎないか?(説明が不十分)
• 多すぎないか?(冗長)
14/16
まとめ
レポート評価支援
 蔓延するコピペを少しでもなくす
 レポートチェックにかかる教師の手間を軽減
剽窃部分の検出
 学生間のコピペは,テキスト間類似度を使用
 ネットからのコピペは,Googleで検索&結果ペー
ジを解析
指導箇所の検出
 模範解答との類似度を計算
15/16
学生への指導
コピペさせない教育をどのようにするか?
 コピペが発覚したら減点する?
 “いたちごっこ”にならないようにするには?
著作権についての教育




著作物とは
コピペ = 著作物の盗用(犯罪)
著作権法第32条に“引用”について記述
参考:『引用』と『盗用』の境界線
http://yaplog.jp/momo_shiro/archive/149
16/16