ワイン評判情報マイニングのため の属性・評価表現辞書の構築 情報ネットワーク工学講座 安藤研究室 03T204 市橋剛 はじめに Web上には,商品・サービスに対する評判情報 が多く存在する 評判情報を抽出・集計・分析し,ユーザに提示 → 意思決定,購入判断の手助け 当研究室では,辞書を用いてWeb上のワイン評 判情報を抽出するシステムを研究中 辞書を利用した評判情報抽出 ブログ記事 評価表現辞書 ・・・.そこでシャトー・アルノー マッチング を飲んだ.安くてお手軽だが, タニックで硬く,筋肉質と 欠点も多い.・・・. シャトー・アルノーの 評判情報 安い・硬い・筋肉質 甘い 辛い おいしい 硬い 高い 安い 筋肉質 ・・・ 評価表現 評価極性 例) 美味しい → 肯定的 不味い → 否定的 少ない → ? 臭みが少ない 旨みが少ない 対象・属性・評価 例) シャトー・アルノー は 臭み が 強い 対象 属性 評価表現 目的 ワイン用属性・評価表現辞書の構築 属性辞書 香り,酸味,果実味,タンニン,甘み,・・・ 評価表現辞書 素晴らしい,良い,最高,濃厚な,・・・ レビューサイトを利用 ノイズ文が少ない 情報の質が高い 抽出手法 抽出ルール例 <評価表現> + <属性> 例) <属性> + 助詞 + <評価表現> 例) すばらしい + 香り 酸味 + が + 強い <評価表現> + 助動詞 + <属性> 例) 豊富 + な + 果実味 あらかじめ一方の辞書が必要 属性・評価表現の分析 評価表現 : 筋肉質な ,外向的な,角のとれた,・・・ → 独特で豊富な表現がある : 高い,低い,強い,弱い,おいしい,・・・ → 様々な対象に使われる表現もある 属性 : 香り、舌触り、酸味、甘味、タンニン、色、・・・ → 表現は限られる ワイン属性と共起すれば, ワイン評価表現である可能性が高い 提案手法 高精度の属性抽出 属性とルールによる評価表現抽出 評価表現とルールにより属性抽出 相互情報量による絞込み 高精度の属性抽出 <属性> + が|は|も + 形容詞 (名詞-一般|複合) 抽出数より,精度を重視 属性とルールによる評価表現抽出 ①.<評価表現> + <属性> (品詞:形容詞) ②.<評価表現> + な + <属性> ③.<属性> + が|は|も|を +(副詞+)<評価表現> 例) すばらしい + 果実味 + を + 感じる ① ③ 評価表現とルールによる属性抽出 ①.<評価表現> + <属性候補> ②.<評価表現> + 助動詞 + <属性候補> ③.<属性候補> + が|は|も|を +(副詞+)<評価表現> 相互情報量 P( AandB) I ( A, B) P( A) P( B) F値を利用して基準値を決定 実験(1) 実験用データ615文を収集 ワインレビューサイトwinenote(http://www.winenote.jp/) ワインの表現方法 (http://www1.odn.ne.jp/young/DateWine/WineExpression.htm) 実験(2) 実験データから提案手法により属性・評価表現抽出 属性辞書,評価表現辞書の精度 辞書登録語のうち正解 と判定した数 精度 辞書登録語数 結果 抽出語数と精度 高精度の属性抽出 : 評価表現辞書 評価表現による属性抽出 : 相互情報量適用後 : : 46語 95.7% 168語 82.1% 84語 45語 54.5% 71.1% (基準値 2.5) 属性辞書 : 91語, 81.2% 考察 属性の階層性 「AのB」 例) タンニンのバランスが良い 属性値 例) 香り は ベリー系 が 強い <属性> <属性値> 複合表現 例) 底が浅い,角のとれた,鼻に付く,・・・ まとめ ワイン用属性・評価表現辞書の構築 ノイズとなる文の少ないレビューサイトを利用 ルールによる属性・評価表現抽出 相互情報量による絞込み 評価実験 実験用データ615文に対し,提案手法による抽出 精度: 属性辞書 81.2%, 評価表現辞書 82.1% 今後の課題 共起尺度の検討 ブログからの抽出
© Copyright 2024 ExpyDoc