ていじじゅんとはんていしゃくどがれればんすはんていに

提示順と判定基準が
レレバンス判定に与える影響
安形 輝(亜細亜大学)
[email protected]
http://itasan.mydns.jp/
情報検索評価の枠組み
検索手法の評価
レレバンス判定
主題的
レレバンス
レレバンス概念
利用者志向
レレバンス
レレバンス判定そのものに関する研究は十分でない
⇒ (最近の情報環境下における)レレバンス判定について実験
ここでは判定尺度と提示順に焦点
先行研究:判定尺度の影響
範囲をあまり定めずに
• レレバンス判定は一般的に段階尺度
で行われる
与えられた刺激を任意
の数値等で表現させる
– 「レレバント」「ノンレレバント」
制限の少ない尺度
– 細かさにより2、3、5、7段階など
• Eisenberg(1988)
“Measuring Relevance Judgment”
– 段階尺度とマグニチュード推定法の比較
⇒マグニチュード推定法の方が自由度が高く
提示順などの影響を受けにくい
先行研究:提示順の影響
• 順序効果
– 何らかの価値判断を行うときに提示順が影響
例)最高裁裁判官国民審査、料理コンテストなど
• Eisenberg&Barry(1988)
“Order Effects : A Study of the Possible Influence of Presentation Order on User Judgment
of Document Relevance”
– 提示順別のレレバンス判定を比較
• 「大⇒小」過小評価
• 「小⇒大」過大評価
• Parkerら(1990)
– 文献数が15件以下であれば影響はみられない
研究目的
既往研究の手法によるウェブの判定実験
レレバンス判定において
*判定尺度による影響*
*提示順の影響*
が観察されるか
• 既往研究との違い
– 提示順と判定尺度を関連させた分析
– ウェブシステムを使う
• 対象がインターネット上のニュース
• GUI部品を使った判定尺度(スライダー)の追加
– 被験者数
• 被験者
実験環境
– 亜細亜大学夏期司書講習の受講生
• 2回の実験
– 実験1-分析の中心となる実験
• 対象:2004年度受講生
• 検索質問:1問
• 提示文献数:10件x1問
– 実験2-追加的な実験
• 対象:2005年度受講生
• 検索質問:3問
• 提示文献数:6件x3問
検索質問
• インターネット上で新聞記事を探すとき
にある程度の件数がヒットすると予想さ
れる質問
• 利用者の欲しい文献、背景、検索に使わ
れたキーワードから構成
• 質問例)
レレバンス判定の対象文献
• 検索質問のキーワードで実際に検索した記事
– Yahoo! NEWS、Google ニュース日本版
• 専門知識がなくとも判定可能な一般記事
• あらかじめレレバンス評価を行い「大⇒小」順
「小⇒大」順、「混合」の3グループを用意
①5段階尺度
3
種
類
の
判
定
尺
度
②スライダー
③マグニチュード推定法
3種類の提示順
レ
レ
バ
ン
ス
の
度
合
い
提示順③「混合」
始
終
実験の手順
1. システムへアクセス
2. 実験の説明
3. 基本的な属性の入力
4. 検索質問の説明
5. レレバンス判定
6. 協力への謝辞
実験の手順
1. システムへアクセス
2. 実験の説明
3. 基本的な属性の入力
4. 検索質問の説明
5. レレバンス判定
6. 協力への謝辞
実験の手順
1. システムへアクセス
2. 実験の説明
3. 基本的な属性の入力
4. 検索質問の説明
5. レレバンス判定
6. 協力への謝辞
実験の手順
1. システムへアクセス
2. 実験の説明
3. 基本的な属性の入力
実験1では1問
4. 検索質問の説明
実験2では3問
5. レレバンス判定
この時に判定尺度と提示
順を機械的に割り当て
6. 協力への謝辞
実験の手順
1. システムへアクセス
2. 実験の説明
3. 基本的な属性の入力
実験1では1問
4. 検索質問の説明
5. レレバンス判定
6. 協力への謝辞
実験2では3問
実験1では10件
この時に判定尺度と提示
順を機械的に割り当て
実験2では6件
実験の手順
1. システムへアクセス
2. 実験の説明
3. 基本的な属性の入力
4. 検索質問の説明
5. レレバンス判定
6. 協力への謝辞
実験1では10件
実験2では6件
被験者の基本的属性
年代
小計
総計
20
30
40
50
女性
72
27
14
7
120
実験1
実験2
性別
性別
男性 不明 女性 男性
26
0
64
26
5
1
15
6
7
0
8
3
4
0
3
1
42
1
90
36
163
126
被験者への割当て
提示順
実験1(人数)
合計
大⇒小 小⇒大 混合
5段階
18
17
18
53
尺度
スライダー
17
19
19
55
マグニチュード
18
18
19
55
合計
53
54
56
163
ほぼ同じ数
の被験者
実験2(延べ人数)
尺度
5段階
スライダー
マグニチュード
合計
大⇒小
45
43
40
128
提示順
小⇒大
44
40
41
125
混合
42
41
39
122
合計
131
124
120
375
判定尺度の正規化
• 各判定尺度での値は単位が異なるため比較ができ
ない
• 個々の質問の判定間では判定基準は一定と仮定
• 最小値=0、最大値=1として各尺度の正規化
判定値-最小値
正規化された値=
最大値-最小値
マグニチュード推定法の値について
「どのような値でも」と指示しているにも関わら
ず100点満点にしている被験者が多い
• 全判定の25.4%の最大値が100
• 全判定の47.2%の判定値が0-100の範囲内
– 日本人独特の特性?あるいは指示の不徹底?
• マグニチュード推定法:参考値
判定尺度ごとの判定値分布
5 段階尺度
スラ イ ダー
マ グニ チ ュ ード
50%
40%
30%
20%
10%
スライダー(とマグニチュード推
定法)は5段階尺度と比べ極端
な値が多い
0%
1
2
3
4
5
提示順の影響
• Eisenbergらの研究と同様の形で分散分析
• 「大⇒小」「小⇒大」グループ間に差が見ら
れるか
↓
• 「大⇒小」「小⇒大」グループ間の分析では
どの尺度も統計的に有意な差
– p値の1%水準で「提示順グループ間の平均は等
しい」という帰無仮説を棄却
– 実験2でも同様の結果
既往研究との比較
• Eisenbergらの研究との比較
– 5段階尺度
• 提示順の影響
→
同様の傾向
– マグニチュード推定法(*)
• 提示順の影響 → 異なる傾向
• Parkerらの研究との比較
– 少ない文献数でも提示順の影響→異なる傾向
5段階
小⇒大
文献1
文献2
文献3
文献4
文献5
文献6
文献7
文献8
文献9
文献10
最大値
最小値
2.12
1.76
2.00
スライダー
大⇒小
1.47
1.18
1.29
小⇒大
18.2
8.9
10.59
大⇒小
12.71
11.41
12.82
提
今回とEisenbergらの研 示
1.82
1.41 究
9.47
17.53 順
2.00
1.18
13.41
20.29 ご
↓
3.24
2.06
56.29
37.82 と
4.12
4.18
87.12
69.53 の
大⇒小:過小評価
同様の傾向92.18
4.06
4.00
68.47 違
3.82
2.82
81.76
48.76 い
小⇒大:過大評価
4.24
3.94
95.00
77.35
5段階評価: 同様の傾向
4.24スライダー:最小値では異なる傾向?
4.18
95.00
77.35
1.76
1.18
8.94
11.41
判定尺度と提示順:最小値頻度
最小値頻度:ある質問の判定中に最小値が何回出現するか
≒下限への到達しやすさ
判定尺度
最小値頻度
5段階
提
示
順
スライダー
マグニチュード
大⇒小
4.83回 2.82回 2.94回
小⇒大
3.53回 3.00回 2.44回
混合
3.56回 2.32回 2.95回
大
「大⇒小」最小値頻度の違い
(イメージ図)
レ
レ
バ
ン
ス
の
度
合
い
小
始
4.83件
2.82件 2.94件
終
まとめ
• レレバンス判定に関する判定実験を行い簡
単な分析を行った
– 判定尺度間で異なる分布見られた
– 提示順による違いが確認された
– 5段階尺度は提示順により過大評価や過小評価、
最小値にすぐ到達するなどの傾向が見られた
今後の展開
• 実験データの整理とより高度な分析
• マグニチュード推定法の判定値に関する
検討
• 判定時間の分析
提示順と判定基準が
レレバンス判定に与える影響
安形 輝(亜細亜大学)
[email protected]
http://itasan.mydns.jp/
キーワードのハイライト
*インターネット上の検索システムあ
るいはブラウザによってキーワード
をハイライト
(黄色く色づけ)
⇒ キーワードを容易に識別
情報検索評価の枠組み
検索手法の評価
レレバンス判定
レレバンス概念
情報検索評価の枠組み
検索手法の評価
レレバン
ス判定
主題的
レレバンス
利用者志向
レレバンス
レレバンス判定そのものに関する研究は十分でない
⇒ (最近の情報環境下における)レレバンス判定について実験
具体的には判定尺度と提示順に焦点
発表の構成
• 本研究の背景
– レレバンス判定に関する研究の必要性
– 既往研究の成果
• レレバンス判定実験
– 実験環境
– 実験結果
• まとめ
判定尺度の影響
• 分散分析により5段階尺度、スライダー、マ
グニチュード推定法(を正規化した値)の間
に差が見られるか
↓
• 各尺度グループ間の分散分析で統計的に有意
な差
– p値の1%水準で「各尺度グループ間の平均は等
しい」という帰無仮説を棄却
– 実験2でも同様の結果