blogからのワイン 評判情報抽出に関する研究 安藤研究室 04T248 谷本美穂 研究の背景と目的 近年,blogが急激に普及 個人により様々な情報が発信されるようになった レビュー・感想 口コミ これらの情報は,商品購入の有用な手がかりになる 評判情報を自動抽出する利点 検索エンジンで検索(例:ワイン 赤 甘い) 膨大な件数の記事が出力 必要としない情報が多く含まれる ワインについての評判情報のみを抽出できれば 膨大なblogから,必要な情報を容易に得られる 商品購入の参考にできる 本研究ではblogからワインに関する 評判情報を自動抽出する手法を提案 情報抽出手法 同じ単語でも,肯定か否定かは分からない 渋みがない → 肯定 甘みがない → 否定 同じ「ない」という評価でも,肯定/否定が分かれる 場合がある 「何」の「どの部分」について「どのような」評価がされて いるのかを抽出することが必要 情報を3つ組で抽出! 3つ組の構成要素 対象 属性 ワイン名 対象物の特徴や性質(香り、味など) 評価 評価者の主観的な評価を表す表現 (美味しい、強いなど) 3つ組+程度表現=4つ組 「しっかり」「多少」といった程度を表す表現も 活用する 対象・属性・評価・程度の4つ組で抽出 評判情報抽出の流れ クローラ WWW blog収集 形態素解析 評判情報抽出 対象、属性、 評価表現辞書 評判情報の分析 ユーザに提示 評判情報の抽出方法 評判情報抽出ルールを作成し,ルールにマッチした 情報を4つ組として抽出 抽出ルール 評価節の記述パターンを形態素の並びで表現したもの ルール:<対象>は<属性>が<程度><評価> 適用される文:ラギューヌは果実味がとても甘い 抽出結果:(ラギューヌ,果実味,とても,甘い) 抽出ルール作成のための分析 実際に表現がどのような形で出現するか,blogを調査 Googleブログ検索で 「ワイン レビュー」 「ワイン 感想」 等のキーワードで検索,人手でワインについての 記事を50件抽出 blog分析結果より 対象が属性,程度,評価と同じ文に存在することが少ない →ルールを利用して4つ組を同時に抽出するのは困難 ルールで抽出するのは評価組(属性,程度,評価) 後から別処理で,評価組に適切な対象を付与 作成したルール(一部) ルールの有用性の評価 作成したルールの有用性を検証するため ルール作成に使用したデータ(データ1) 新たに収集したデータ(データ2) 2つの実験データにルールを適用 →抽出精度を比較 ルールの有用性の評価方法 それぞれのデータに対し,人手で評価情報と 判断できる評価組を抽出(=正解) ルールを適用して抽出を行い,再現率を求めて 比較 ルールで抽出できた評 価の正解数 再現率= 文書中の評価組の正解 数 ルールの有用性の評価・結果 再現率 データ1 67.1(550/818) データ2 62.9(327/520) ルール作成に未使用のデータは多少再現率が低下 使用データ 下がり幅は小さいので,どんなデータにでも ある程度 対応可能 再現率の向上が課題 再現率向上のために 抽出できなかった表現の例 要素の列挙(“バター、アーモンド、バニラ、ハチミツの香 り”の下線部分) 色に関する記述(濃いルビー色,淡い黄色) 列挙に対応する為の ルールが不十分 2つ以上の形態素から なる表現に対する対応 どちらも,新たにルールを追加することで対応可能 対象の出現位置に関する分析 ルールで抽出した評価組に対象を付与 ・・・対象は評価組より前に現れることが多い 対象候補となる語の出現位置と,対象を 評価組に付与する範囲(対象範囲)を変化させ 対象特定の精度に与える影響を調査 対象範囲 対象候補語 評価組 評価組 評価組 評価組 対象の出現位置に関する分析(2) 分析対象はデータ1+データ2 再現率と精度を以下の式で求め,比較 対象範囲内の評価組の 正解の数 再現率= 文書中の評価組の正解 数 精度= 対象を正しく付加でき た評価組の数 対象範囲内の評価組の 正解数 対象範囲の変化・結果 対象範囲 再現率 精度 1文後 47.7(415/870) 94.0(390/415) 2文後 65.1(566/870) 93.9(532/566) 100文字後 60.1(523/870) 91.8(480/523) 150文字後 73.1(636/870) 92.6(589/636) 200文字後 80.0(696/870) 92.4(643/696) 範囲なし 100(870/870) 86.0(798/870) 対象範囲を広げると,再現率は向上,反面精度は低下 対象範囲の変化・考察 対象範囲を文数や文字数の単位で定める方法では 充分な再現率と精度の両立は難しい 評価組の対象特定には blog記事のタイトルを利用 箇条書きや表といった表現形式を利用 対象の周囲の表現,文脈を解析 など,他の手法の検討が必要 おわりに 本研究では,blog記事からの評判情報抽出を 自動で行うためのルールを作成,有用性を検証 抽出 ルール作成に使用したデータ…67.1% ルール作成に使用していないデータ…62.9% 対象特定は,提案手法のみでは不十分 今後の課題として 4つ組では表現できないものも収集する手法 対象を正しく特定する手法
© Copyright 2025 ExpyDoc