D-60 クラウドソーシングワーカの 自己申告属性を用いた回答統合法 馬場 雪乃(京大)清水 伸幸、藤田 澄男(Yahoo! JAPAN研究所) 概要 SNSアカウントの属性推定タスクにおける回答統合法を提案 ワーカの自己申告属性を利用、嘘つきワーカの存在を考慮 問題設定 SNSアカウントの属性を推定したい 性別: 男性?女性? 年齢:20代?30代?... 最終学歴: 中学?高校?... 配偶者:有り?無し? 入力:回答ラベル集合 自己申告ラベル集合 クラウドソーシングで聞いた結果を利用 Q1: Q2: 女性 このアカウントの性別は? 男性 あなたの 女性 男性 性別は? ワーカ 自身の 20代 30代... 年齢は? 属性も 最終学歴は? 中学 高校... 聞く 配偶者は? 無し 有り 出力:属性推定結果 属性推定タスク, ワーカ 属性種類(例:「性別」), 自己申告ラベル集合 回答ラベル集合, データセット Twitterアカウントの属性データ:409アカウント分 クラウドソーシングでの回答:409アカウント×80ワーカ=32,720件 対象属性:性別(2クラス)、年齢(7クラス)、学歴(5クラス)、配偶者(2クラス) 初期分析 (1) ワーカ属性ごとに得意不得意がある, (2)自己申告属性に一貫性のないワーカが存在 「最終学歴:高校」と自己申告したワーカの回答傾向(8,699件) 中学 高校 大学 大学院 「最終学歴:大学」と自己申告したワーカの回答傾向(13,846件) 中学 高校 短・専 回答 回答 ※「正解がXのときに各回答をした割合」を掲載。正答の場合は黒枠。カッコ内の数字は回答数 回答統合法 BCC [Kim+, ʻ12] CBCC [Venanzi+, ʻ14] 回答 正解 ワーカ個人の 回答傾向 短・専 中学 高校 正 解 短・専 大学 大学院 コミュニティ ごとの回答傾向 ワーカの回答傾向を 混同行列で表現、 正解ラベル推定に利用 実験結果 ワーカ 個人の 回答傾向 ワーカの所属コミュニ ティ(推定)とコミュ ニティごとの混同行列 からワーカ個人の混同 行列が生成される 提案法1 「女性」 「40代」 「大卒」 ワーカの ワーカの ワーカの 回答傾向 回答傾向 回答傾向 「女性, 40代, 大卒」 のワーカ個人の 回答傾向 ワーカ属性ごとの混同 行列から ワーカ個人の混同行列 が生成される 0.966 0.512 0.533 0.644 BCC 0.955 0.532 0.564 0.668 CBCC 0.968 0.532 0.559 0.709 大学 大学院 提案法2 自己申告傾向 回答 男性 女性 男性 中卒 女性 高卒 正解 中学 高校 正 解 短・専 大学 大学院 男性 女性 短・専卒 ... ワーカの属性推定結果 ワーカの自己申告結果 からワーカの真の属性 を推定し提案法1と 組み合わせる 本研究はJST, ERATO, 河原林巨大グラフプロジェクトの支援 を受けたものです
© Copyright 2025 ExpyDoc