スライド(ALST2006)

Webからの剽窃レポート
検出手法の実装と評価
福井大学工学部知能システム工学科
高橋 勇 宮川勝年 小高 知宏
白井 治彦 黒岩 丈介 小倉 久和
はじめに
剽窃(コピー&改変)によりレポートを作成する学習者
剽窃行為の問題
・学習者の学習機会を奪う
・教師の成績評価の妨げ
・著作権侵害の可能性
指導が必要
確認作業にかける教師の負担大
状況の変化
学生間のレポートのコピー
Web上の文書のコピーへ
研究の目的
Webからのコピーレポートの発見を支援する
システムの枠組みの設計・実装・評価
特徴と方針
学習者間のコピーによるレポートの評価
小高知宏他,「n-gramを用いた学生レポート評価手法の提案」
電子情報通信学会論文誌 2003/9 Vol.J86-D-I No.9
Webからのコピーとの違い
学習者間のコピー
剽窃元
教師が保持
剽窃部分の傾向 全体を写す
Webからのコピー
Web上に存在
一部を抜き出す
・Web検索エンジンの利用
・剽窃判定の評価方法をWebからの剽窃へ対応
Webからのコピーレポート発見のトータルな支援
コピーレポートと発見支援の方法
支援内容
・剽窃元Webページの検出
・剽窃の可能性の推定
・剽窃個所の特定
Web検索エンジン
Web検索
支援システム
コピー&ペースト
・・・ついて考えましょう.
一般にコンピュータは
電子計算機と呼ばれ
ます.電気で計算を
する機械のことですが
現在使われているコン
ピュータは電卓などの
機械とは異なり,単に
数字を計算するだけの
ものではありません.
特に重要な特徴と・・・
剽窃の可能性 82%
剽窃元候補
レポート
一般にコンピュータは
一般にコンピュータは
電子計算機のことで
電子計算機と呼ばれ
あり,電気で計算を
ます.電気で計算を
する機械ではあるが
する機械のことですが
現在使われているコン
現在使われているコン
ピュータは電卓などの
ピュータは電卓などの
機械とは異なり,単に
機械とは異なり,単に
数字を計算するだけの
数字を計算するだけの
ものではない.
ものではありません.
改変
学習者
提出
コンピュータは電子
計算機のことであり,
電気で計算をする
機械ではあるが,電
卓などの機械とは
異なり,単に数字を
計算するだけのもの
ではない.
レポート課題:
コンピュータについて
調べてまとめなさい
教師
・・・ついて考えましょう.
一般にコンピュータは
電子計算機と呼ばれ
ます.電気で計算を
する機械のことですが
現在使われているコン
ピュータは電卓などの
機械とは異なり,単に
数字を計算するだけの
ものではありません.
特に重要な特徴と・・・
システムに必要な機能
Web検索機能
レポートに基づいた検索ワードの生成
Web検索による剽窃元候補Webページの収集
剽窃評価機能
剽窃元候補Webページとレポートの類似性の評価
視覚表示機能
評価値に基づく剽窃元候補Webページの整理
剽窃個所の特定
システム構成
Web&検索エンジン
Web検索部
レポートDB
剽窃元候補
Webページ
剽窃検査部
視覚表示部
剽窃レポートの情報
ユーザインタフェース
レポート
教
師
Web検索部
検索ワードの生成
・レポートに含まれる特徴的な文字列を複数抽出
・AND・ORを用いた組み合わせ検索
漢字・英字・カタカナが連続する長い文字列
抽出例(ネットワーク関連の課題の例)
大容量イーサネット専用回線 ワンクリック料金請求
ネットワーク敷設時
無線LANアクセスポイント
あらかじめ定めた論理演算式に適用
論理演算式の例 W1・W2・W3 , W1+W2+W3 など
剽窃元候補Webページの収集
・既存の検索エンジンで検索+検索結果上位のURL取得
・非対応フォーマットのファイル(PDF,Word形式等)の削除
・Webアクセスによるページの取得
剽窃評価部
文章
3-gram
n-gram による類似度評価 これは計算機です これは
れは計
は計算
計算機
・文章を n文字の列 に分解
・出現頻度の分布により評価
改変の影響が少ない評価指標
レポート間:母集団はレポート間で共通の n-gram
↓ 修正
Web・レポート間:母集団はレポート内の n-gram
算機で
機です
出現回数
1
1
1
1
1
1
レポート全体のn-gramがどの程度Webページに含まれるか評価
評価式
R = 1- 1
K
Σ
K i=1
P (X i ) -Q (X i )
P (X i ) +Q (X i )
2
K :レポート内のn-gram数
Xi :レポート内の各n-gram
P(Xi) :レポートでの出現頻度
Q(Xi) :Webページでの出現頻度
剽窃候補Webページのランク付け
剽窃元候補Webページ
レポート
評価
XXX
WWW
0.77
0.18
YYY
0.35
ZZZ
0.23
剽窃元候補
1: http://XXX
2: http://YYY
3: http://ZZZ
:
:
全剽窃候補Webページに評価値を付与
評価の高い順にソートして提示
視覚表示部
Webページに一定の長さ以上一致する文字列が
存在する部分をマーク
剽窃候補Webページ
レポート
コンピュータは電子
計算機のことであり,
電気で計算をする
機械ではあるが,
:
(1) マッチ可能な
文字列の最大の
長さを調べる
・・・ついて考えましょう.
一般にコンピュータは
電子計算機と呼ばれ
ます.電気で計算を
する機械のことですが
現在使われているコン
ピュータは電卓など・・・
(2) 一定の長さ以上ならマーク
(3) 次の文字に着目して同様の作業を繰り返す
(一定の長さ以下なら1文字ずらす)
システムの実装例
開発言語
PHP
動作環境
Apache+PHP
(Web上で動作可)
システムの動作
レポートファイルの選択
開始ボタンのクリック
システムの動作
剽窃元と疑われる
ページのURL
評価値
視覚表示機能の呼び出し
評価値0.77
評価値0.13
評価実験
目的 手作業
主観的評価
による剽窃検査との比較
実験対象 福井大学・知能システム工学科の授業
課題1:
学年:大学1年生
字数制限:200字以上
テーマ:
「CRTと液晶以外にはどのような表示装置があるか調査せよ」
件数:46件
課題2:
学年:大学3年生
字数制限:1000字以上
テーマ:
「イーサネットの現状と今後」
件数:53件
手作業・主観による調査の方法
(1)調査者の主観で検索キーワードを想定
20分程度の調査
(2)調査者の主観で疑わしいと思われるもの
1時間程度の調査
(3)調査者の主観で剽窃の程度を判定
半分以上剽窃と思われる→剽窃レポートとみなす
レポートを3つに分類
剽窃レポート
:剽窃と判断されたレポート
非剽窃レポート :剽窃と判断されなかったレポート
文献明記レポート:本文中に引用が明記されているレポート
本システムにより検出された最も剽窃元の可能性が
高いWebページの評価値と比較
結果:課題1
評
価
類
値
似
度
0.5
0.50
0.45
0.4
0.40
0.35
0.30
0.3
0.25
0.20
0.2
0.15
0.10
0.1
0.05
0.00
×剽窃レポート
26件
剽窃
○非剽窃レポート
20件
非剽窃
△文献明記
0件
00
55
10
10
15 20
20 25
25 30
35
15
30
35
レポート
レポート番号(昇順にソート)
40
40 45
45
結果:課題2
評
価
類
値
似
度
1.0
1.00
0.90
0.8
0.80
0.70
0.6
0.60
0.50
0.4
0.40
0.30
0.2
0.20
0.10
0.0
0.00
×剽窃レポート
29件
剽窃
○非剽窃レポート
22件
非剽窃
文献
△文献引用
2件
0
0
55 10
30 35
35 40
10 15
15 20
20 25
25 30
40 45
45 50
50 55
レポート番号(昇順にソート)
レポート
考察
手作業・主観による判定
本システムの結果
剽窃レポート
→
高い評価値に集中
非剽窃レポート
→
低い評価値に集中
剽窃レポート発見支援に有効
評価値が低い剽窃レポート
・Web側が画像やPDF形式のデータであったケース
・レポート中の誤字により,検索ワードに誤字が含まれるケース
→検索ワード生成方法の検討
・複数のWebページから数行ずつコピーしたケース
→複数のWebページとレポートとの評価手法の検討
評価値が中程度の剽窃レポート
・複数のWebページからコピーしたケース
特に複数のページからの剽窃への対応が重要!
まとめ
Webページからの剽窃レポートの発見支援
枠組みの検討とシステムの設計
・Web検索エンジンの利用
・類似度評価手法の応用
実装・評価 → 手作業・主観的評価とほぼ一致
→支援の可能性を示唆
今後の課題
手法の改良
・複数のWebページからのコピーへの対応
・検索ワード作成手法の再検討
複数のレポートの一括チェック手法の検討
おわり
使用した論理演算式
3つの単語のANDとOR
w1 w2 w3
w1+w2+w3
(w1+w2)w3 +(w2+w3)w1+(w3+w1)w2
(w1w2+w3)+(w2w3+w1)+(w3w1+w2)
・等価な論理式でも書き方によって異なる結果が出る
(w1+w2 と w2+w1で結果が変わることがある)
・同じ論理式でも検索時間帯によって異なる結果が出る
(例えば「グーグルダンス」と呼ばれる現象など)
厳密な検討はあまり意味がない
→検索できそうな組み合わせを経験的に用意
シミュレーション実験(1)
目的 Webページの機械的な改変によるレポート
→本手法で剽窃元の発見が可能か?
実験方法
・下記の方法に従って20テーマのレポート(80件)を作成
(1) 末尾の「です・ます調」「だ・である調」を相互変換
(2)行数の入れ替え
(3)行の削除
(4)複数ページの混合(剽窃元の25%を別ページへ置き換え)
・本システムを用いて下記を調査
(A) 評価結果のうち,剽窃元Webページの順位
(B) 剽窃元Webページの評価値
擬似剽窃レポートの調査結果
改変項目
(1)文末変換
(2)順序変更
(3)文章削除
(4)複数混合
順位
3.50 ± 2.14
4.85 ± 2.43
3.55 ± 1.82
3.35 ± 2.23
評価値
0.983
0.956
0.961
0.794
※剽窃元を検索できないレポートは存在しなかった.
順位が1位にならないケースの原因
・同種の文章が載っている異なるWebページ
擬似剽窃レポートの評価値
類似度(剽窃レポート)
1.00
0.90
0.80
0.70
類 0.60
似 0.50
度 0.40
0.30
0.20
0.10
0.00
文末変換
文章削除
0
2
4
6
8
10
12
レポート
順序変更
複数混合
14 16
18
20
シミュレーション実験(2)
目的 オリジナルと思われる文章
→本手法で剽窃でないという判断が可能か?
実験方法
論文誌や研究報告:Webからの剽窃でないとみなす
→高い評価値のWebページが出てこないことの確認
・論文誌の序論200字程度を抽出した文書を20件を作成
(先頭から200文字以上の最初の句点までを使う)
・本システムの評価結果のうち評価値が最大のものを調査
結果
評価値の平均 0.218
論文誌から抽出した文章の評価値
類似度(非剽窃レポート)
1.00
0.90
0.80
0.70
類 0.60
似 0.50
度 0.40
0.30
0.20
0.10
0.00
0
2
4
6
8
10 12
レポート
14
16
18
20
シミュレーション実験の結果
類似度(非剽窃レポート)
類似度(剽窃レポート)
1.00
0.90
0.80
0.70
類 0.60
似 0.50
度 0.40
0.30
0.20
0.10
0.00
文末変換 順序変更
文章削除 複数混合
0 2 4 6 8 10 12 14 16 18 20
レポート
機械的なWebページの改変
0.7以上に集中
1.00
0.90
0.80
0.70
類 0.60
似 0.50
度 0.40
0.30
0.20
0.10
0.00
0 2 4 6 8 10 12 14 16 18 20
レポート
論文誌の序論
0.3程度以下に集中
考察
Webページの改変によるレポート
全て検索可+高評価値
論文誌の序論
低評価値
Webからの剽窃発見支援に有効
複数のWebページからの混合
→割合に応じて評価値が低下
複数のページからの剽窃への対応が必要
Webからの剽窃手順とその発見方法
Webページ
Webページ
Webページ
Web検索エンジン
検
索
キ
|
ワ
|
ド
剽窃元
Web
ページ
剽窃元候補
Web
ページ
Web検索エンジン
検索キーワード生成
剽窃
剽窃の判定
レポート
レポート課題
レポート
学習者
Web
ページ
Web
ページ
剽窃
教師
剽窃個所の特定