poster

D-60 クラウドソーシングワーカの
自己申告属性を用いた回答統合法
馬場 雪乃(京大)清水 伸幸、藤田 澄男(Yahoo! JAPAN研究所)
概要
SNSアカウントの属性推定タスクにおける回答統合法を提案
ワーカの自己申告属性を利用、嘘つきワーカの存在を考慮
問題設定
SNSアカウントの属性を推定したい
性別: 男性?女性?
年齢:20代?30代?...
最終学歴: 中学?高校?...
配偶者:有り?無し?
入力:回答ラベル集合
自己申告ラベル集合 クラウドソーシングで聞いた結果を利用
Q1:
Q2:
女性
このアカウントの性別は? 男性
あなたの
女性
男性
性別は?
ワーカ
自身の
20代
30代...
年齢は?
属性も
最終学歴は? 中学
高校...
聞く
配偶者は?
無し
有り
出力:属性推定結果 属性推定タスク,
ワーカ
属性種類(例:「性別」),
自己申告ラベル集合
回答ラベル集合,
データセット
Twitterアカウントの属性データ:409アカウント分
クラウドソーシングでの回答:409アカウント×80ワーカ=32,720件
対象属性:性別(2クラス)、年齢(7クラス)、学歴(5クラス)、配偶者(2クラス)
初期分析
(1) ワーカ属性ごとに得意不得意がある, (2)自己申告属性に一貫性のないワーカが存在
「最終学歴:高校」と自己申告したワーカの回答傾向(8,699件)
中学
高校
大学
大学院
「最終学歴:大学」と自己申告したワーカの回答傾向(13,846件)
中学
高校
短・専
回答
回答
※「正解がXのときに各回答をした割合」を掲載。正答の場合は黒枠。カッコ内の数字は回答数
回答統合法
BCC
[Kim+, ʻ12]
CBCC
[Venanzi+, ʻ14]
回答
正解
ワーカ個人の
回答傾向
短・専
中学
高校
正
解 短・専
大学
大学院
コミュニティ
ごとの回答傾向
ワーカの回答傾向を
混同行列で表現、
正解ラベル推定に利用
実験結果
ワーカ
個人の
回答傾向
ワーカの所属コミュニ
ティ(推定)とコミュ
ニティごとの混同行列
からワーカ個人の混同
行列が生成される
提案法1
「女性」 「40代」 「大卒」
ワーカの ワーカの ワーカの
回答傾向 回答傾向 回答傾向
「女性, 40代, 大卒」
のワーカ個人の
回答傾向
ワーカ属性ごとの混同
行列から
ワーカ個人の混同行列
が生成される
0.966
0.512
0.533
0.644
BCC
0.955
0.532
0.564
0.668
CBCC
0.968
0.532
0.559
0.709
大学
大学院
提案法2
自己申告傾向
回答
男性 女性
男性
中卒
女性
高卒
正解
中学
高校
正
解 短・専
大学
大学院
男性 女性
短・専卒
...
ワーカの属性推定結果
ワーカの自己申告結果
からワーカの真の属性
を推定し提案法1と
組み合わせる
本研究はJST, ERATO,
河原林巨大グラフプロジェクトの支援
を受けたものです