心理学定義に基づく感情辞書構築に関する研究

心理学定義に基づく感情辞書構築に関する研究
主担当教員
18110122 上月 悠也
伊藤紀子准教授
波多野賢治准教授
1. はじめに
近年,テキストに対する感性情報処理が産業界で注目
を集めている.その例として語が「ポジティブ」または
「ネガティブ」のどちらの意味を持つかという感情極性を
推定する研究が数多く行われている.
その一方で,
「ポジティブ」と「ネガティブ」の二通り
では新聞記事に対する感情を十分に表現することができ
ないとする研究も存在する.例えば 張他 (2013) は,記
事の感情を推定するための新たな感情極性を設計し,単
語とその単語が表す感情を数値で表現した値 (感情値) の
組で構成された辞書の構築手法を提案している.
しかし,この新たに設計された感情極性は,研究者の
主観を前提に記事の評価に適した語を選択しているため,
極性が記事の評価に相応しいという根拠がなく,また,大
規模な被験者実験を行っているため,膨大な人的コスト
が発生するという問題と,辞書構築のために感情を表す
語群が含まれる記事のみを利用するため,語群が少ない
場合に利用可能なデータが少なくなってしまうという問
題の二つが起こりうる.
そこで本研究では,文書の感情を評価する際にヒトの感
性を網羅的に捉えることを目的として,心理学者 Plutchik
の定義する感情モデル [Plutchik (2001)] に従った辞書構
築手法の提案を行う.
2. 関連研究
張らは記事の感情を評価するために改めて感情極性を
設計し,記事に含まれる単語と感情値の組で構成された
辞書の構築を行っている.
例えば,
「喜び ー 悲しみ」という感情極性に対する語 w
の感情値算出について考えると,
「悲しみ」を表す感情語
群より「喜び」を表す感情語群を多く含む記事で w が出
現する確率 Joy(w) と,
「喜び」を表す感情語群より「悲
しみ」を表す感情語群を多く含む記事で w が出現する
確率 Sorrow(w) をそれぞれ求め,w がどちらの感情と
よく共起しているかを比較することで w の「喜び ― 悲
しみ」という極性極性に対する感情値 v(w) が算出され,
v(w) が 0 に近ければ「悲しみ」, 1 に近ければ「喜び」
を表す.v(w) は式 (1) によって求められる.
Joy(w)
v(w) =
(1)
Joy(w) + Sorrow(w)
3. 提案手法
従来手法では感情語群が少ないため,利用データが膨
大であったとしても辞書構築に利用可能なデータは微量
になってしまうという問題や極性が記事の評価に相応し
いという根拠がないという問題がある.
そこで本研究では,感情極性に Plutchik の定義する
「喜び ― 悲しみ」,
「需要 ― 嫌悪」,
「恐れ ― 怒り」,
「驚
き ― 期待」の四種類の感情極性と八つの感情で表現し
たモデルを利用する.
また,感情極性の設計に用いる感情語群が少ないとい
う問題を解決するために日本語 WordNet [Bond et al.
(2009)] からそれぞれ感情の同義語を再帰的に収集するこ
とで問題の解決を目指す.
副担当教員
4. 評価実験
本研究では提案手法の有効性を示すため,提案手法と
従来手法によって構築した感情辞書を基に記事の評価を
行い,どちらの辞書がよりヒトの感性に近い評価を行う
ことができるか,比較を行う.
まず,被験者実験によって記事の感情を評価した値(評
価値)を正解とし,次に提案手法と従来手法によって構
築したそれぞれの辞書から算出した記事の評価(算出値)
を用意する.ここで算出値は,辞書から記事に含まれる
名詞・動詞・形容詞に対応する感情値を参照し,全ての
感情値を極性ごとに合計し,平均した値とする.そして,
正解率は評価値を分母とし,評価値と算出値の一致数を
分子とした値とする.
実験データは, 2000 年から 2009 年の毎日新聞記事
1,003,484 件を母集団とし,無作為抽出によって 400 件
を標本として抽出し実験を行った.表 1 に結果を示す.
表 1: 評価値と感情値の正解率
1
2
同義語取得回数
提案手法
0.468
0.521
従来手法
0.524
-
表 1 の実験結果より,提案手法は多大な人的コストを
用いた従来手法と同等の正解率とすることができた.正
解率が従来手法と同等となった理由として感情の解明を
目指す心理学の立場で構築された感情のモデルを利用す
ることでヒトの感性を捉えることができ,また感情の同
義語を再帰的に感情語群に加える事によって辞書収録語
数の増加と感情値の精度向上が理由として考えられる.
5. おわりに
本研究は心理学定義に基づく感情モデルを感情軸とし
た辞書構築手法の提案を行った.正解率では従来手法に
劣るが人的コストが低くかつ大規模な被験者実験と同等
の正解率を示せた点は大きい.ただし,辞書を用いて記
事を評価する際,ただ単に記事に含まれる単語の感情値
を足合せ平均した値が記事の評価に直結しているとは考
え難い.
今後の課題として,従来手法に対しても同義語を再帰
的に取得することで同じ条件による評価を行う必要性と
新聞記事とは他のテキストの感情推定を行うことで辞書
の汎用性を示す必要性がある.
参考文献
Bond, F., Isahara, H., Fujita, S., Uchimoto, K., Kuribayashi, T., and Kanzaki, K.(2009). Enhancing the
Japanese WordNet, in Proceedings of the 7th Workshop on Asian Language Resources, 1–8.
Plutchik, R.(2001). The nature of emotions, American
Scientist, 89 (4), 344–350.
張建偉,河合由起子,熊本忠彦,白石優旗,田中克己
(2013). 『多様な印象に基づくニュースサイト報道傾
向分析システム』『知能と情報』, 25 (1), 568–582.