意見抽出を目的とした 機械学習による属性-評価値同定 奈良先端科学技術大学院大学 飯田龍 小林のぞみ 乾健太郎 松本裕治 NECインターネット研究所 立石健二 福島俊一 NL-165-4 1 意見抽出の研究 Web上のレビュー記事やblogなどから 意見や評判を分類/抽出する 抽出 車1 デザイン Web文書 文章中から意見に該 当する箇所を抽出 悪くない 車1 デザイン シンプルすぎ … 車1を購入した。 車1 走り 満足している (Nasukawa ‘03, デザインは悪くないが Kanayama ‘04) シンプルすぎ。 文書集合を肯定的 ちょっと物足りないかな。(否定的)な文書に 肯定的 否定的 走りに関しては 分類 な記事 な記事 (Turney ’02, Pang ‘04) 満足しています。 分類 NL-165-4 2 意見要約(立石ら ‘04) 抽出の観点からの研究の一例 対象記事中の意見をレーダーチャートの形で 要約 内装 5 Web文書 車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては 満足しています。 4 3 2 性能 要約 0 価格 安全性 車1 NL-165-4 外装 1 車2 3 意見の定義 抽出対象となる意見をどのように捉える のかが問題となる 「意見」というものを2つの観点から考える 1. 意見の構成素 2. 意見性 NL-165-4 4 意見の構成素 〈対象, 属性, 評価値〉の3つ組 対象: 商品名など 属性: 対象のある側面を表す表現 評価値: 属性値か主観評価のどちらかを含む 属性値: 属性の値を指す表現 主観評価: 属性値に該当しない書き手の 個人的な感想などを指す 例) 車1の内装が{きれい/落ち着く}。 (属性値) {好きだ/許せない}。 (主観評価) NL-165-4 5 意見性 どのような表現を意見とするかの基準 伝聞 例) 彼は車1の内装がよいと言っていた 仮定表現 例) デザインがもう少し落ち着いた感じならば、… 記事の書き手の主観的な意見のみが意見 性を持つ 例) o エンジンの音が静かですね。 x エンジンの音が静かだったら、… (仮定) x エンジンの音が静かだと聞いている (伝聞) NL-165-4 6 意見の定義(まとめ) 「意見」とは.. 1. 意見の構成素 〈対象, 属性, 評価値〉の3つ組 2. 意見性 記事の書き手の主観的な意見のみが 意見性を持つ この2つの条件を満たすものを 抽出の対象とする NL-165-4 7 意見要約の処理 Web文書 車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては 満足しています。 Web文書 5 4 3 (2) デザイン 走り … 属性-評価値 抽出 (4) チャート 作成 2 性能 辞書作成 (Kobayashi ‘04) 車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては 満足しています。 内装 (1) 属性表現 辞書 価格 (3) 車1 内装 きれい 車1 走り 満足 車2 値段 高い 外装 安全性 車1 車2 良い 悪い … 属性 属性 走り評価 評価 車1 満足 1 0 評価値表現 辞書 NL-165-4 P P N Positivenegative (P/N)判定 8 意見要約の処理 Web文書 車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては 満足しています。 (1) 辞書作成 (Kobayashi ‘04) Web文書 車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては 満足しています。 (2) 属性-評価値 抽出 (4) チャート 目的 作成 5 4 3 2 外装 1 0 価格 デザイン 走り … 評価値表現 辞書 良い 悪い … 属性 属性 走り評価 評価 車1 満足 (3) Positive車1 内装 きれい negative P (P/N)判定 車1 走り 満足 属性-評価値抽出のタスクに着目し, P 精度良く属性と評価値の対を抽出 車2 値段 高い N NL-165-4 9 内装 性能 属性表現 辞書 安全性 車1 車2 目次 1. 2. 3. 4. 5. 意見抽出の研究 意見抽出の先行研究 意見抽出の提案手法 評価実験とその考察 まとめ NL-165-4 10 意見抽出の先行研究(Kanayama ‘04) 1. 文章を述語項構造に変換 2. 抽出パタンを用いて意見のみを抽出 車1を購入した。 デザインは悪くないがシンプルすぎ。 ちょっと物足りないかな。 走りに関しては満足しています。 車1 デザイン 車1 デザイン シンプルすぎ 述語項構造 変換 悪くない(デザイン) シンプルすぎ(デザイン) 物足りない(φ,デザイン) 満足している(φ,走り) 悪くない 抽出 … NL-165-4 11 意見抽出の先行研究 項構造解析の処理には ゼロ照応解析などさまざまな処理を伴う デザイン 1は悪くないが (φ1ガ)シンプルすぎ。 (φ2ガ) (φ1ヲ)ちょっと物足りないかな。 (φ2ガ)走りに関しては満足しています。 述語項構造 述語が取り得る項を記した辞書 ゼロ照応解析の処理 NL-165-4 悪くない(デザイン) シンプルすぎ(デザイン) 物足りない(φ,デザイン) 満足している(φ,走り) 12 研究の動機 頑健な項構造解析の実現は困難 すべての述語について項構造解析を 行う必要はない 意見性を持った〈対象,属性,評価値〉という 限られた構造の抽出に焦点を当てる 既存のゼロ照応解析の技術を導入することで どの程度意見が抽出可能であるかを調査する NL-165-4 13 目次 1. 2. 3. 4. 5. 意見抽出の研究 意見抽出の先行研究 意見抽出の提案手法 評価実験とその考察 まとめ NL-165-4 14 意見抽出の問題設定 構成素〈対象,属性,評価値〉のうち, 「対象(商品)」は自明である場合が多い 2つ組〈属性,評価値〉を抽出対象に 属性 属性 走り評価 評価 車1 満足 車1: デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては 満足しています。 属性 評価 属性 走り 評価 満足 NL-165-4 15 意見抽出の提案手法 車1を購入した。 デザインは悪くないが シンプルすぎ。 ちょっと物足りないかな。 走りに関しては 満足しています。 A1 A2 … A3 … A4 A5 E1 A6 … E2 … E3 … Ai : 属性候補 Ei : 評価値 NL-165-4 16 意見抽出の提案手法 1. 属性候補,評価値候補の抽出 2. 評価値候補と対となる属性を同定 3. 評価値候補の意見性の判定 文書集合 A1 A2 … A3 … A4 A5 E1 A6 … E2 … E3 … (1) 候補抽出 A1, … , A6 E1 A1, … , A6 E2 A1, … , A6 E3 A1 (2) 属性同定 A3 E1 A6 E2 A4 E3 (3) E1 意見性判定 A3 E1 A4 E3 Ai : 属性候補 Ei : 評価値候補 NL-165-4 17 1.候補抽出 属性表現辞書,評価値表現辞書に 存在する表現のみを抽出 文書集合 A1 A2 … A3 … A4 A5 E1 A6 … E2 … E3 … (1) 候補抽出 A1, … , A6 E1 A1, … , A6 E2 A1, … , A6 E3 A1 (2) 属性同定 A3 E1 A6 E2 A4 E3 (3) E1 意見性判定 A3 E1 A4 E3 属性表現辞書 評価値表現辞書 A1, A2, A3, A4, A5, A6 E1, E2, E3 NL-165-4 18 2.属性同定 評価値と属性候補集合から 〈属性,評価値〉を抽出する 解析のモデル: トーナメントモデル(飯田 ‘04)を使用 文書集合 A1 A2 … A3 … A4 A5 E1 A6 … E2 … E3 … (1) 候補抽出 A1, … , A6 E1 A1, … , A6 E2 A1, … , A6 E3 NL-165-4 A1 (2) 属性同定 A3 E1 A6 E2 A4 E3 (3) E1 意見性判定 A3 E1 A4 E3 19 トーナメントモデル 評価値に対して最も属性らしい候補を 同定するモデル 内装 デザイン 内装 内装 エンジン 属性候補集合 広い 広い 評価値 NL-165-4 20 トーナメントモデル A:属性候補 E:評価値 学習データ A1 A2 A3 A4 属性 A5 テストデータ E A1’ A2 A3 E A3 A4 E left A3 A5 E left A1’ A2’ A2’ NL-165-4 E’ A2’ (a) 訓練事例 クラス right A3’ (b) 属性同定の処理 評価値 素性 A2’ A3’ E’ を対となる属性と決定 21 3.意見性判定 意見性の基準「記事の書き手の主観的な意 見」を満たしているか否かを判定するモデル を作成 文書集合 A1 A2 … A3 … A4 A5 E1 A6 … E2 … E3 … (1) 候補抽出 A1, … , A6 E1 A1, … , A6 E2 A1, … , A6 E3 NL-165-4 A1 (2) 属性同定 A3 E1 A6 E2 A4 E3 (3) E1 意見性判定 A3 E1 A4 E3 22 意見性判定モデル 今回定義した意見性の基準は 前後文脈の表層的な手がかりで ある程度特徴を捉えることができる エンジンが良いと思う → 意見性有り エンジンが良いという人もいる → 意見性無し 評価値単体では意見性を判定するのが 困難な場合もある (人が)…。 …多い。 (ノイズが)…。 …多い。 →対となる属性を提示する NL-165-4 23 意見性判定モデル (訓練事例作成) 学習データ A2 A3 評価値 A4 E1 … A1 属性 正例 E2 A2 E1 負例 A:属性候補 E:評価値 意見性を持たない評価値 … 属性同定 モデル A3 NL-165-4 A3 E2 24 〈属性,評価値〉対の抽出 テストデータ A1’ A2’ A3’ E A2’ E 属性同定モデル A2’ A1’ 意見性判定モデル A2’ A2’ A3’ E A2’ を対となる属性と決定 NL-165-4 E 25 目次 1. 2. 3. 4. 5. 意見の定義 意見抽出の先行研究 意見抽出の提案手法 評価実験とその考察 まとめ NL-165-4 26 意見タグ付きコーパス作成 車とデジカメのドメインのレビュー記事 に対して〈属性,評価値〉のタグを 人手で付与 車 デジカメ 287 4442 2649 文章数 文数 属性-評価値の対 NL-165-4 835 10707 3654 27 辞書の抽出 タグ付与されたコーパスから抽出 タグ付きコーパス 室内が広い。 後ろの座席はとっても快適。 動力性能がよい。 属性辞書 室内 座席 動力性能 NL-165-4 評価値辞書 広い 快適 よい 28 共起用例の抽出 タグ付与されたコーパスから抽出 タグ付きコーパス 室内が広い。 後ろの座席はとっても快適。 動力性能がよい。 共起用例 室内-広い 座席-快適 動力性能-よい NL-165-4 29 ベースラインモデル 共起用例に該当する対を網羅的に抽出 室内が広い。 評価事例 後ろの座席はとっても快適。 動力性能が悪い。 属性 属性 評価 室内 評価 快適 室内 広い 座席 快適 適用 NL-165-4 共起用例 室内-広い 座席-快適 動力性能-よい 30 素性 共起用例 室内-広い 座席-快適 動力性能-よい •共起用例と同じ 組み合わせか否か •係り受けの関係に あるか否か •距離情報 属性候補 評価値 対象文節の •表層文字列 •品詞 係り元(先)の文節の •表層文字列 •品詞 対象文節の •表層文字列 •品詞 係り元(先)の文節の •表層文字列 •品詞 NL-165-4 31 評価実験 実験の設定 分類器にはSVM(多項2次カーネル)を使用 10分割交差検定 NL-165-4 32 辞書/用例の適用 属性辞書 適用 9/10 1/10 評価値辞書 共起用例 訓練事例 対全体 評価用事例 作成 車 デジカメ 2649 3654 抽出可能な対 1841 (69.5%) 2765 (75.7%) NL-165-4 再現率の 上限値 33 実験結果 再現率の 上限値 対全体 車 デジカメ 2649 3654 抽出可能な対 1841 (69.5%) 手法 ベースライン モデル 精度 再現率 トーナメントモデ ル+意見性判定 精度 再現率 車 43.2% 18.6% 78.3% 39.3% (493/1142) (493/2649) (1042/1331) (1042/2649) 2765 (75.7%) デジカメ 26.2% (608/2324) 16.6% (608/3654) 70.2% (1328/1893) 36.3% (1328/3654) ベースラインモデル 辞書(用例)の網羅性が低い NL-165-4 34 誤り分析(属性同定) 1. 共起不可能な対の抽出 例1) 荷物が広い (既存の辞書で対応可能) 例2) VTECが静か NL-165-4 35 誤り分析(属性同定) 2.共起可能な対の抽出 タグの仕様: 評価値に対して 複数タグ付与可能な場合は 最下層の属性にタグを付与 サウンドシステム(上位) 音(下位) 例) 音の悪すぎるサウンドシステム 誤って上位属性を同定 → ドメイン依存の知識を導入する必要がある NL-165-4 36 誤り分析(意見性判定) 条件,仮定表現 例)「内装がきれいならば」 Bag-of-words素性で 意見性を捉えられていない 誤り事例をさらに調査し, 追加すべき素性を検討 NL-165-4 37 まとめ 意見抽出を目的とした 属性-評価値の対を抽出する 機械学習モデルを提案した 提案するモデルは 共起用例のみを用いた単純な抽出モデルと 比べて,精度よく対の抽出が可能 NL-165-4 38 今後の課題 さまざまな意見性の基準で提案手法を評価 今回の基準:「書き手の主観的な意見」 抽出したい意見情報は用途によって異なる 例) 伝聞,条件,要求なども抽出の対象とする 異なる意見性の基準で提案手法を評価する ドメインに依存した知識獲得 応用可能性の評価 既存の辞書獲得手法で構築された辞書の利用 立石らの意見要約の枠組みへ導入 NL-165-4 39
© Copyright 2024 ExpyDoc