Webからの剽窃レポート 検出手法の実装と評価 福井大学工学部知能システム工学科 高橋 勇 宮川勝年 小高 知宏 白井 治彦 黒岩 丈介 小倉 久和 はじめに 剽窃(コピー&改変)によりレポートを作成する学習者 剽窃行為の問題 ・学習者の学習機会を奪う ・教師の成績評価の妨げ ・著作権侵害の可能性 指導が必要 確認作業にかける教師の負担大 状況の変化 学生間のレポートのコピー Web上の文書のコピーへ 研究の目的 Webからのコピーレポートの発見を支援する システムの枠組みの設計・実装・評価 特徴と方針 学習者間のコピーによるレポートの評価 小高知宏他,「n-gramを用いた学生レポート評価手法の提案」 電子情報通信学会論文誌 2003/9 Vol.J86-D-I No.9 Webからのコピーとの違い 学習者間のコピー 剽窃元 教師が保持 剽窃部分の傾向 全体を写す Webからのコピー Web上に存在 一部を抜き出す ・Web検索エンジンの利用 ・剽窃判定の評価方法をWebからの剽窃へ対応 Webからのコピーレポート発見のトータルな支援 コピーレポートと発見支援の方法 支援内容 ・剽窃元Webページの検出 ・剽窃の可能性の推定 ・剽窃個所の特定 Web検索エンジン Web検索 支援システム コピー&ペースト ・・・ついて考えましょう. 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓などの 機械とは異なり,単に 数字を計算するだけの ものではありません. 特に重要な特徴と・・・ 剽窃の可能性 82% 剽窃元候補 レポート 一般にコンピュータは 一般にコンピュータは 電子計算機のことで 電子計算機と呼ばれ あり,電気で計算を ます.電気で計算を する機械ではあるが する機械のことですが 現在使われているコン 現在使われているコン ピュータは電卓などの ピュータは電卓などの 機械とは異なり,単に 機械とは異なり,単に 数字を計算するだけの 数字を計算するだけの ものではない. ものではありません. 改変 学習者 提出 コンピュータは電子 計算機のことであり, 電気で計算をする 機械ではあるが,電 卓などの機械とは 異なり,単に数字を 計算するだけのもの ではない. レポート課題: コンピュータについて 調べてまとめなさい 教師 ・・・ついて考えましょう. 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓などの 機械とは異なり,単に 数字を計算するだけの ものではありません. 特に重要な特徴と・・・ システムに必要な機能 Web検索機能 レポートに基づいた検索ワードの生成 Web検索による剽窃元候補Webページの収集 剽窃評価機能 剽窃元候補Webページとレポートの類似性の評価 視覚表示機能 評価値に基づく剽窃元候補Webページの整理 剽窃個所の特定 システム構成 Web&検索エンジン Web検索部 レポートDB 剽窃元候補 Webページ 剽窃検査部 視覚表示部 剽窃レポートの情報 ユーザインタフェース レポート 教 師 Web検索部 検索ワードの生成 ・レポートに含まれる特徴的な文字列を複数抽出 ・AND・ORを用いた組み合わせ検索 漢字・英字・カタカナが連続する長い文字列 抽出例(ネットワーク関連の課題の例) 大容量イーサネット専用回線 ワンクリック料金請求 ネットワーク敷設時 無線LANアクセスポイント あらかじめ定めた論理演算式に適用 論理演算式の例 W1・W2・W3 , W1+W2+W3 など 剽窃元候補Webページの収集 ・既存の検索エンジンで検索+検索結果上位のURL取得 ・非対応フォーマットのファイル(PDF,Word形式等)の削除 ・Webアクセスによるページの取得 剽窃評価部 文章 3-gram n-gram による類似度評価 これは計算機です これは れは計 は計算 計算機 ・文章を n文字の列 に分解 ・出現頻度の分布により評価 改変の影響が少ない評価指標 レポート間:母集団はレポート間で共通の n-gram ↓ 修正 Web・レポート間:母集団はレポート内の n-gram 算機で 機です 出現回数 1 1 1 1 1 1 レポート全体のn-gramがどの程度Webページに含まれるか評価 評価式 R = 1- 1 K Σ K i=1 P (X i ) -Q (X i ) P (X i ) +Q (X i ) 2 K :レポート内のn-gram数 Xi :レポート内の各n-gram P(Xi) :レポートでの出現頻度 Q(Xi) :Webページでの出現頻度 剽窃候補Webページのランク付け 剽窃元候補Webページ レポート 評価 XXX WWW 0.77 0.18 YYY 0.35 ZZZ 0.23 剽窃元候補 1: http://XXX 2: http://YYY 3: http://ZZZ : : 全剽窃候補Webページに評価値を付与 評価の高い順にソートして提示 視覚表示部 Webページに一定の長さ以上一致する文字列が 存在する部分をマーク 剽窃候補Webページ レポート コンピュータは電子 計算機のことであり, 電気で計算をする 機械ではあるが, : (1) マッチ可能な 文字列の最大の 長さを調べる ・・・ついて考えましょう. 一般にコンピュータは 電子計算機と呼ばれ ます.電気で計算を する機械のことですが 現在使われているコン ピュータは電卓など・・・ (2) 一定の長さ以上ならマーク (3) 次の文字に着目して同様の作業を繰り返す (一定の長さ以下なら1文字ずらす) システムの実装例 開発言語 PHP 動作環境 Apache+PHP (Web上で動作可) システムの動作 レポートファイルの選択 開始ボタンのクリック システムの動作 剽窃元と疑われる ページのURL 評価値 視覚表示機能の呼び出し 評価値0.77 評価値0.13 評価実験 目的 手作業 主観的評価 による剽窃検査との比較 実験対象 福井大学・知能システム工学科の授業 課題1: 学年:大学1年生 字数制限:200字以上 テーマ: 「CRTと液晶以外にはどのような表示装置があるか調査せよ」 件数:46件 課題2: 学年:大学3年生 字数制限:1000字以上 テーマ: 「イーサネットの現状と今後」 件数:53件 手作業・主観による調査の方法 (1)調査者の主観で検索キーワードを想定 20分程度の調査 (2)調査者の主観で疑わしいと思われるもの 1時間程度の調査 (3)調査者の主観で剽窃の程度を判定 半分以上剽窃と思われる→剽窃レポートとみなす レポートを3つに分類 剽窃レポート :剽窃と判断されたレポート 非剽窃レポート :剽窃と判断されなかったレポート 文献明記レポート:本文中に引用が明記されているレポート 本システムにより検出された最も剽窃元の可能性が 高いWebページの評価値と比較 結果:課題1 評 価 類 値 似 度 0.5 0.50 0.45 0.4 0.40 0.35 0.30 0.3 0.25 0.20 0.2 0.15 0.10 0.1 0.05 0.00 ×剽窃レポート 26件 剽窃 ○非剽窃レポート 20件 非剽窃 △文献明記 0件 00 55 10 10 15 20 20 25 25 30 35 15 30 35 レポート レポート番号(昇順にソート) 40 40 45 45 結果:課題2 評 価 類 値 似 度 1.0 1.00 0.90 0.8 0.80 0.70 0.6 0.60 0.50 0.4 0.40 0.30 0.2 0.20 0.10 0.0 0.00 ×剽窃レポート 29件 剽窃 ○非剽窃レポート 22件 非剽窃 文献 △文献引用 2件 0 0 55 10 30 35 35 40 10 15 15 20 20 25 25 30 40 45 45 50 50 55 レポート番号(昇順にソート) レポート 考察 手作業・主観による判定 本システムの結果 剽窃レポート → 高い評価値に集中 非剽窃レポート → 低い評価値に集中 剽窃レポート発見支援に有効 評価値が低い剽窃レポート ・Web側が画像やPDF形式のデータであったケース ・レポート中の誤字により,検索ワードに誤字が含まれるケース →検索ワード生成方法の検討 ・複数のWebページから数行ずつコピーしたケース →複数のWebページとレポートとの評価手法の検討 評価値が中程度の剽窃レポート ・複数のWebページからコピーしたケース 特に複数のページからの剽窃への対応が重要! まとめ Webページからの剽窃レポートの発見支援 枠組みの検討とシステムの設計 ・Web検索エンジンの利用 ・類似度評価手法の応用 実装・評価 → 手作業・主観的評価とほぼ一致 →支援の可能性を示唆 今後の課題 手法の改良 ・複数のWebページからのコピーへの対応 ・検索ワード作成手法の再検討 複数のレポートの一括チェック手法の検討 おわり 使用した論理演算式 3つの単語のANDとOR w1 w2 w3 w1+w2+w3 (w1+w2)w3 +(w2+w3)w1+(w3+w1)w2 (w1w2+w3)+(w2w3+w1)+(w3w1+w2) ・等価な論理式でも書き方によって異なる結果が出る (w1+w2 と w2+w1で結果が変わることがある) ・同じ論理式でも検索時間帯によって異なる結果が出る (例えば「グーグルダンス」と呼ばれる現象など) 厳密な検討はあまり意味がない →検索できそうな組み合わせを経験的に用意 シミュレーション実験(1) 目的 Webページの機械的な改変によるレポート →本手法で剽窃元の発見が可能か? 実験方法 ・下記の方法に従って20テーマのレポート(80件)を作成 (1) 末尾の「です・ます調」「だ・である調」を相互変換 (2)行数の入れ替え (3)行の削除 (4)複数ページの混合(剽窃元の25%を別ページへ置き換え) ・本システムを用いて下記を調査 (A) 評価結果のうち,剽窃元Webページの順位 (B) 剽窃元Webページの評価値 擬似剽窃レポートの調査結果 改変項目 (1)文末変換 (2)順序変更 (3)文章削除 (4)複数混合 順位 3.50 ± 2.14 4.85 ± 2.43 3.55 ± 1.82 3.35 ± 2.23 評価値 0.983 0.956 0.961 0.794 ※剽窃元を検索できないレポートは存在しなかった. 順位が1位にならないケースの原因 ・同種の文章が載っている異なるWebページ 擬似剽窃レポートの評価値 類似度(剽窃レポート) 1.00 0.90 0.80 0.70 類 0.60 似 0.50 度 0.40 0.30 0.20 0.10 0.00 文末変換 文章削除 0 2 4 6 8 10 12 レポート 順序変更 複数混合 14 16 18 20 シミュレーション実験(2) 目的 オリジナルと思われる文章 →本手法で剽窃でないという判断が可能か? 実験方法 論文誌や研究報告:Webからの剽窃でないとみなす →高い評価値のWebページが出てこないことの確認 ・論文誌の序論200字程度を抽出した文書を20件を作成 (先頭から200文字以上の最初の句点までを使う) ・本システムの評価結果のうち評価値が最大のものを調査 結果 評価値の平均 0.218 論文誌から抽出した文章の評価値 類似度(非剽窃レポート) 1.00 0.90 0.80 0.70 類 0.60 似 0.50 度 0.40 0.30 0.20 0.10 0.00 0 2 4 6 8 10 12 レポート 14 16 18 20 シミュレーション実験の結果 類似度(非剽窃レポート) 類似度(剽窃レポート) 1.00 0.90 0.80 0.70 類 0.60 似 0.50 度 0.40 0.30 0.20 0.10 0.00 文末変換 順序変更 文章削除 複数混合 0 2 4 6 8 10 12 14 16 18 20 レポート 機械的なWebページの改変 0.7以上に集中 1.00 0.90 0.80 0.70 類 0.60 似 0.50 度 0.40 0.30 0.20 0.10 0.00 0 2 4 6 8 10 12 14 16 18 20 レポート 論文誌の序論 0.3程度以下に集中 考察 Webページの改変によるレポート 全て検索可+高評価値 論文誌の序論 低評価値 Webからの剽窃発見支援に有効 複数のWebページからの混合 →割合に応じて評価値が低下 複数のページからの剽窃への対応が必要 Webからの剽窃手順とその発見方法 Webページ Webページ Webページ Web検索エンジン 検 索 キ | ワ | ド 剽窃元 Web ページ 剽窃元候補 Web ページ Web検索エンジン 検索キーワード生成 剽窃 剽窃の判定 レポート レポート課題 レポート 学習者 Web ページ Web ページ 剽窃 教師 剽窃個所の特定
© Copyright 2025 ExpyDoc