Document

意見抽出を目的とした
機械学習による属性-評価値同定
奈良先端科学技術大学院大学
飯田龍 小林のぞみ 乾健太郎 松本裕治
NECインターネット研究所
立石健二 福島俊一
NL-165-4
1
意見抽出の研究
 Web上のレビュー記事やblogなどから
意見や評判を分類/抽出する
抽出
車1 デザイン
Web文書
文章中から意見に該
当する箇所を抽出
悪くない
車1 デザイン シンプルすぎ
…
車1を購入した。
車1
走り 満足している
(Nasukawa ‘03,
デザインは悪くないが Kanayama ‘04)
シンプルすぎ。
文書集合を肯定的
ちょっと物足りないかな。(否定的)な文書に
肯定的
否定的
走りに関しては
分類
な記事
な記事
(Turney
’02,
Pang
‘04)
満足しています。
分類
NL-165-4
2
意見要約(立石ら ‘04)
抽出の観点からの研究の一例

対象記事中の意見をレーダーチャートの形で
要約
内装
5
Web文書
車1を購入した。
デザインは悪くないが
シンプルすぎ。
ちょっと物足りないかな。
走りに関しては
満足しています。
4
3
2
性能
要約
0
価格
安全性
車1
NL-165-4
外装
1
車2
3
意見の定義
 抽出対象となる意見をどのように捉える
のかが問題となる
「意見」というものを2つの観点から考える
1. 意見の構成素
2. 意見性
NL-165-4
4
意見の構成素
〈対象, 属性, 評価値〉の3つ組



対象: 商品名など
属性: 対象のある側面を表す表現
評価値: 属性値か主観評価のどちらかを含む
 属性値: 属性の値を指す表現
 主観評価: 属性値に該当しない書き手の
個人的な感想などを指す
例) 車1の内装が{きれい/落ち着く}。 (属性値)
{好きだ/許せない}。 (主観評価)
NL-165-4
5
意見性
どのような表現を意見とするかの基準

伝聞
例) 彼は車1の内装がよいと言っていた

仮定表現
例) デザインがもう少し落ち着いた感じならば、…
記事の書き手の主観的な意見のみが意見
性を持つ
例) o エンジンの音が静かですね。
x エンジンの音が静かだったら、…
(仮定)
x エンジンの音が静かだと聞いている (伝聞)
NL-165-4
6
意見の定義(まとめ)
「意見」とは..
1. 意見の構成素

〈対象, 属性, 評価値〉の3つ組
2. 意見性

記事の書き手の主観的な意見のみが
意見性を持つ
この2つの条件を満たすものを
抽出の対象とする
NL-165-4
7
意見要約の処理
Web文書
車1を購入した。
デザインは悪くないが
シンプルすぎ。
ちょっと物足りないかな。
走りに関しては
満足しています。
Web文書
5
4
3
(2)
デザイン
走り
…
属性-評価値
抽出
(4) チャート
作成
2
性能
辞書作成
(Kobayashi ‘04)
車1を購入した。
デザインは悪くないが
シンプルすぎ。
ちょっと物足りないかな。
走りに関しては
満足しています。
内装
(1)
属性表現
辞書
価格
(3)
車1
内装 きれい
車1
走り
満足
車2
値段
高い
外装
安全性
車1
車2
良い
悪い
…
属性
属性 走り評価
評価
車1
満足
1
0
評価値表現
辞書
NL-165-4
P
P
N
Positivenegative
(P/N)判定
8
意見要約の処理
Web文書
車1を購入した。
デザインは悪くないが
シンプルすぎ。
ちょっと物足りないかな。
走りに関しては
満足しています。
(1)
辞書作成
(Kobayashi ‘04)
Web文書
車1を購入した。
デザインは悪くないが
シンプルすぎ。
ちょっと物足りないかな。
走りに関しては
満足しています。
(2)
属性-評価値
抽出
(4) チャート
目的 作成
5
4
3
2
外装
1
0
価格
デザイン
走り
…
評価値表現
辞書
良い
悪い
…
属性
属性 走り評価
評価
車1
満足
(3)
Positive車1 内装 きれい
negative
P
(P/N)判定
車1 走り 満足
属性-評価値抽出のタスクに着目し,
P
精度良く属性と評価値の対を抽出
車2 値段 高い
N
NL-165-4
9
内装
性能
属性表現
辞書
安全性
車1
車2
目次
1.
2.
3.
4.
5.
意見抽出の研究
意見抽出の先行研究
意見抽出の提案手法
評価実験とその考察
まとめ
NL-165-4
10
意見抽出の先行研究(Kanayama ‘04)
1. 文章を述語項構造に変換
2. 抽出パタンを用いて意見のみを抽出
車1を購入した。
デザインは悪くないがシンプルすぎ。
ちょっと物足りないかな。
走りに関しては満足しています。
車1
デザイン
車1
デザイン シンプルすぎ
述語項構造
変換
悪くない(デザイン)
シンプルすぎ(デザイン)
物足りない(φ,デザイン)
満足している(φ,走り)
悪くない
抽出
…
NL-165-4
11
意見抽出の先行研究
項構造解析の処理には
ゼロ照応解析などさまざまな処理を伴う
デザイン
1は悪くないが

(φ1ガ)シンプルすぎ。
(φ2ガ) (φ1ヲ)ちょっと物足りないかな。
(φ2ガ)走りに関しては満足しています。
述語項構造
述語が取り得る項を記した辞書
ゼロ照応解析の処理
NL-165-4
悪くない(デザイン)
シンプルすぎ(デザイン)
物足りない(φ,デザイン)
満足している(φ,走り)
12
研究の動機
頑健な項構造解析の実現は困難
すべての述語について項構造解析を
行う必要はない
意見性を持った〈対象,属性,評価値〉という
限られた構造の抽出に焦点を当てる
既存のゼロ照応解析の技術を導入することで
どの程度意見が抽出可能であるかを調査する
NL-165-4
13
目次
1.
2.
3.
4.
5.
意見抽出の研究
意見抽出の先行研究
意見抽出の提案手法
評価実験とその考察
まとめ
NL-165-4
14
意見抽出の問題設定
構成素〈対象,属性,評価値〉のうち,
「対象(商品)」は自明である場合が多い

2つ組〈属性,評価値〉を抽出対象に
属性
属性 走り評価
評価
車1
満足
車1:
デザインは悪くないが
シンプルすぎ。
ちょっと物足りないかな。
走りに関しては
満足しています。
属性
評価
属性
走り 評価
満足
NL-165-4
15
意見抽出の提案手法
車1を購入した。
デザインは悪くないが
シンプルすぎ。
ちょっと物足りないかな。
走りに関しては
満足しています。
A1 A2 … A3 …
A4 A5 E1 A6
… E2 … E3 …
Ai : 属性候補
Ei : 評価値
NL-165-4
16
意見抽出の提案手法
1. 属性候補,評価値候補の抽出
2. 評価値候補と対となる属性を同定
3. 評価値候補の意見性の判定
文書集合
A1 A2 … A3 …
A4 A5 E1 A6
… E2 … E3 …
(1)
候補抽出
A1, … , A6
E1
A1, … , A6
E2
A1, … , A6
E3
A1
(2)
属性同定 A3
E1
A6
E2
A4
E3
(3)
E1 意見性判定
A3
E1
A4
E3
Ai : 属性候補
Ei : 評価値候補
NL-165-4
17
1.候補抽出
属性表現辞書,評価値表現辞書に
存在する表現のみを抽出
文書集合
A1 A2 … A3 …
A4 A5 E1 A6
… E2 … E3 …
(1)
候補抽出
A1, … , A6
E1
A1, … , A6
E2
A1, … , A6
E3
A1
(2)
属性同定 A3
E1
A6
E2
A4
E3
(3)
E1 意見性判定
A3
E1
A4
E3
属性表現辞書 評価値表現辞書
A1, A2, A3,
A4, A5, A6
E1, E2, E3
NL-165-4
18
2.属性同定
 評価値と属性候補集合から
〈属性,評価値〉を抽出する

解析のモデル:
トーナメントモデル(飯田 ‘04)を使用
文書集合
A1 A2 … A3 …
A4 A5 E1 A6
… E2 … E3 …
(1)
候補抽出
A1, … , A6
E1
A1, … , A6
E2
A1, … , A6
E3
NL-165-4
A1
(2)
属性同定 A3
E1
A6
E2
A4
E3
(3)
E1 意見性判定
A3
E1
A4
E3
19
トーナメントモデル
評価値に対して最も属性らしい候補を
同定するモデル
内装
デザイン
内装
内装
エンジン
属性候補集合
広い
広い
評価値
NL-165-4
20
トーナメントモデル
A:属性候補
E:評価値
学習データ
A1
A2
A3
A4
属性
A5
テストデータ
E
A1’
A2
A3
E
A3
A4
E
left
A3
A5
E
left
A1’
A2’
A2’
NL-165-4
E’
A2’
(a) 訓練事例
クラス
right
A3’
(b) 属性同定の処理
評価値
素性
A2’
A3’
E’
を対となる属性と決定
21
3.意見性判定
意見性の基準「記事の書き手の主観的な意
見」を満たしているか否かを判定するモデル
を作成
文書集合
A1 A2 … A3 …
A4 A5 E1 A6
… E2 … E3 …
(1)
候補抽出
A1, … , A6
E1
A1, … , A6
E2
A1, … , A6
E3
NL-165-4
A1
(2)
属性同定 A3
E1
A6
E2
A4
E3
(3)
E1 意見性判定
A3
E1
A4
E3
22
意見性判定モデル
 今回定義した意見性の基準は
前後文脈の表層的な手がかりで
ある程度特徴を捉えることができる


エンジンが良いと思う
→ 意見性有り
エンジンが良いという人もいる → 意見性無し
 評価値単体では意見性を判定するのが
困難な場合もある
(人が)…。 …多い。
 (ノイズが)…。 …多い。
→対となる属性を提示する

NL-165-4
23
意見性判定モデル
(訓練事例作成)
学習データ
A2
A3
評価値
A4
E1
…
A1
属性
正例
E2
A2
E1
負例
A:属性候補
E:評価値
意見性を持たない評価値
…
属性同定
モデル
A3
NL-165-4
A3
E2
24
〈属性,評価値〉対の抽出
テストデータ
A1’
A2’
A3’
E
A2’
E
属性同定モデル
A2’
A1’
意見性判定モデル
A2’
A2’
A3’
E
A2’
を対となる属性と決定
NL-165-4
E
25
目次
1.
2.
3.
4.
5.
意見の定義
意見抽出の先行研究
意見抽出の提案手法
評価実験とその考察
まとめ
NL-165-4
26
意見タグ付きコーパス作成
車とデジカメのドメインのレビュー記事
に対して〈属性,評価値〉のタグを
人手で付与
車
デジカメ
287
4442
2649
文章数
文数
属性-評価値の対
NL-165-4
835
10707
3654
27
辞書の抽出
タグ付与されたコーパスから抽出
タグ付きコーパス
室内が広い。
後ろの座席はとっても快適。
動力性能がよい。
属性辞書
室内
座席
動力性能
NL-165-4
評価値辞書
広い
快適
よい
28
共起用例の抽出
タグ付与されたコーパスから抽出
タグ付きコーパス
室内が広い。
後ろの座席はとっても快適。
動力性能がよい。
共起用例
室内-広い
座席-快適
動力性能-よい
NL-165-4
29
ベースラインモデル
共起用例に該当する対を網羅的に抽出
室内が広い。
評価事例 後ろの座席はとっても快適。
動力性能が悪い。
属性
属性
評価
室内 評価
快適
室内
広い
座席
快適
適用
NL-165-4
共起用例
室内-広い
座席-快適
動力性能-よい
30
素性
共起用例
室内-広い
座席-快適
動力性能-よい
•共起用例と同じ
組み合わせか否か
•係り受けの関係に
あるか否か
•距離情報
属性候補
評価値
対象文節の
•表層文字列
•品詞
係り元(先)の文節の
•表層文字列
•品詞
対象文節の
•表層文字列
•品詞
係り元(先)の文節の
•表層文字列
•品詞
NL-165-4
31
評価実験
実験の設定


分類器にはSVM(多項2次カーネル)を使用
10分割交差検定
NL-165-4
32
辞書/用例の適用
属性辞書
適用
9/10
1/10
評価値辞書
共起用例
訓練事例
対全体
評価用事例
作成
車
デジカメ
2649
3654
抽出可能な対 1841
(69.5%)
2765
(75.7%)
NL-165-4
再現率の
上限値
33
実験結果
再現率の
上限値
対全体
車
デジカメ
2649
3654
抽出可能な対 1841
(69.5%)
手法
ベースライン
モデル
精度
再現率
トーナメントモデ
ル+意見性判定
精度
再現率
車
43.2%
18.6%
78.3%
39.3%
(493/1142)
(493/2649)
(1042/1331)
(1042/2649)
2765
(75.7%)
デジカメ
26.2% (608/2324)
16.6% (608/3654)
70.2% (1328/1893)
36.3% (1328/3654)
 ベースラインモデル

辞書(用例)の網羅性が低い
NL-165-4
34
誤り分析(属性同定)
1. 共起不可能な対の抽出
例1) 荷物が広い (既存の辞書で対応可能)
例2) VTECが静か
NL-165-4
35
誤り分析(属性同定)
2.共起可能な対の抽出
 タグの仕様:
評価値に対して
複数タグ付与可能な場合は
最下層の属性にタグを付与
サウンドシステム(上位)
音(下位)
例) 音の悪すぎるサウンドシステム
 誤って上位属性を同定
→ ドメイン依存の知識を導入する必要がある
NL-165-4
36
誤り分析(意見性判定)
条件,仮定表現
例)「内装がきれいならば」

Bag-of-words素性で
意見性を捉えられていない
誤り事例をさらに調査し,
追加すべき素性を検討
NL-165-4
37
まとめ
意見抽出を目的とした
属性-評価値の対を抽出する
機械学習モデルを提案した
提案するモデルは
共起用例のみを用いた単純な抽出モデルと
比べて,精度よく対の抽出が可能
NL-165-4
38
今後の課題
さまざまな意見性の基準で提案手法を評価


今回の基準:「書き手の主観的な意見」
抽出したい意見情報は用途によって異なる
例) 伝聞,条件,要求なども抽出の対象とする
異なる意見性の基準で提案手法を評価する
ドメインに依存した知識獲得
応用可能性の評価


既存の辞書獲得手法で構築された辞書の利用
立石らの意見要約の枠組みへ導入
NL-165-4
39