統計的言語特性を考慮した評判情報のトピックモデリング Review Topic

DEIM Forum 2011 A8-2
統計的言語特性を考慮した評判情報のトピックモデリング
小西
卓哉†
手塚 太郎†† 木村
文則†††
前田
亮††
† 立命館大学理工学研究科 〒525-8577 滋賀県草津市野路東 1-1-1
††,††† 立命館大学情報理工学部 〒525-8577 滋賀県草津市野路東 1-1-1
E-mail: †[email protected], †††[email protected]
††{tezuka,amaeda}@media.ritsumei.ac.jp
あらまし 近年 Web サービスを通じて提供される評判情報が個人レベルから活発に発信されている.本研究では
これら評判情報の文書データに対してトピックモデルによる解析手法を提案する.既存手法の一つに Titov らによ
る Multi Grain-LDA があるが,本稿では文の連結による 2 段階の学習をも用いたその性能向上を提案する.さらに
Pitman-Yor トピックモデルを応用することで,さらなる精度向上が可能か検討する.
キーワード 評判情報,トピックモデル,テキストモデリング
Review Topic Modeling with Statistical Language Property
Takuya KONISHI†
Taro TEZUKA††
Fuminori KIMURA†††
Akira MAEDA††
†Graduate School of Science and Engineering, Ritsumeikan University
1-1-1 Noji-Higashi, Kusatsu, Shiga 525-8577, Japan
††,†††College of Information Science and Engineering, Ritsumeikan University
1-1-1 Noji-Higashi, Kusatsu, Shiga 525-8577, Japan
E-mail: †[email protected], †††[email protected]
††{tezuka,amaeda}@media.ritsumei.ac.jp
Abstract In recent years, online review provided through Web services are contributed by many users. In this paper, we
propose a method to analyze these online review documents by using a topic model. While Titov and McDonald suggested
Multi-grain LDA for this task, we propose its performance improvement by 2 level learning model. This model connects
sentences using 1st learing results. In addition, we apply Pitman-Yor Topic model’s idea. This model models statistical lexical
property “Power-Law” in these review documents. We test this model for improving precision.
Keyword review, topic model, text analysis
1. は じ め に
られる.
近 年 Web の 発 展 に 伴 い 個 人 か ら の 情 報 発 信 が 容 易
本研究ではこのような評判情報に付随している文
と な っ て い る . 特 に Blog や Twitter な ど の ソ ー シ ャ ル
書データ(評判文書)に対してトピックモデルの適用
メディアを通して発信される情報は,様々な対象への
による知識発見を提案する.トピックモデルとは文書
意 見 や 評 価 を 含 ん で い る . こ の よ う な 意 見 情 報 は Web
データを確率的生成モデルによってモデリングする手
の発展以前には取得が困難であった情報であり,その
法である.文書や単語の背後に存在する潜在的な話題
情報を集約することで有益な知識の獲得が可能になる
(トピック)を仮定し,コーパス中の文書や単語間の
と考えられる.
関 連 性 を 推 定 す る こ と を 実 現 す る [3][4].
意見情報の中でも商品・サービスを評価した評判情
本研究ではこれらトピックモデルを利用して,評判
報 が Web 上 で 活 発 に 発 信 さ れ て い る .代 表 的 な も の と
文書集合がもつ商品・サービスの潜在的な評価基準の
し て , Amazon[1] や 価 格 .com[2] の よ う な Consumer
推定手法を提案する.商品・サービスには評価される
Generated Media( CGM) を 提 供 す る Web サ ー ビ ス が ,
際にポイントとなる性質や側面があると考えられ,本
商品に対して自由な評価を投稿できるシステムを構築
稿ではこれを評価基準と呼ぶこととする.例えばカメ
している.これらのサイトでは,評価されている対象
ラ の 評 判 情 報 に は ,“ カ メ ラ の デ ザ イ ン ”“ 撮 影 し た 時
が明確であり,かつ特定の商品への定型化された情報
の画質”
“ 操 作 の し や す さ ”と い っ た カ メ ラ の 良 し 悪 し
が集約されているため有用な知識が眠っていると考え
を判断する評価基準が考えられる.このような評価基
準は評判文書内に現れ,文書集合からこれらを推定す
ることは評判情報から知識を得る上で重要な要素だと
考えられる.
評 判 文 書 の ト ピ ッ ク モ デ ル と し て Titov ら が Multi
Grain-LDA( MG-LDA) を 提 案 し て い る [5]. こ れ は 本
研究で所望する評価基準を推定する手法を提供してい
る .本 研 究 で は こ の MG-LDA に 対 し て ,文 の 連 結 を 用
いた 2 段階学習による予測精度の向上を提案する.ま
た 佐 藤 ら [6]に よ っ て 提 案 さ れ て い る Pitman-Yor ト ピ
ックモデルを応用することによって,さらなる性能向
上が可能か検証する.
2 章で本稿において扱う評判文書を解説し,3 章で
は先行研究について紹介する.4 章では提案手法につ
いて述べ,5 章では評価実験と本手法の応用例につい
て示す.最後に 6 章で今後の課題と展望について議論
する.
2. 本 研 究 で 扱 う 評 判 文 書
トピックモデルによる文書のモデル化を検討する上
で,評判文書について説明する必要がある.本章では
本稿で扱う評判文書について紹介する.
この機種はデザインが最高だと思います。画質は
コンデジとして普通です。現在所有しているパナ
ソニックやニコンのコンデジと比べて画質でのア
ドバンテージはほとんど分りません。所有してい
る デ ジ イ チ や ソ ニ ー の NEX と 比 べ る と 画 質 で は
劣ります。センサーというよりレンズの差がでま
す。特にぼけの表現は無理です。ただし携帯のカ
メラと比べれば圧倒的に優れていることから何処
でも持って行けるコンデジの特性を考えれば大満
足 で す 。顔 認 証 は 我 が 家 の 柴 犬 も 認 証 し ま す 。様 々
な機能は記念撮影に優れていると思います。露出
もやや明るめで記念撮影向けです。絵作りも人物
の描写に特化しているとさえ感じます。
機能はいろいろ設定できますが、呼び出すのに数
アクション必要ですこし面倒くさいです。基本的
にフルオートで撮るカメラだと思います。一言で
感想を言うと、機能的にも誰にでも勧められるコ
ンデジらしいコンデジです。
図 1: デ ジ タ ル カ メ ラ の 評 判 文 書 の 一 例
まず本稿で扱う評判文書集合とは,ある 1 つの商品
カテゴリについて記述された評判文書の集合と仮定す
る 2 つの先行研究について述べる.
る . 商 品 カ テ ゴ リ と は 例 え ば “ パ ソ コ ン ”“ 携 帯 電 話 ”
3.1 LDA
“テレビ”のような大域的な商品のカテゴリである.
LDA[4] は 確 率 的 生 成 モ デ ル を 用 い た 文 書 モ デ ル 化
評判文書集合は単一の商品カテゴリに属する,個別の
手法であり,代表的なトピックモデルとして盛んに研
商品について評価した評判文書から構成される.パソ
究が行われている.
コンの評判文書集合であれば,様々なパソコンが評価
こ こ で 本 稿 に お け る LDA の ト ピ ッ ク モ デ ル の 表 記
された文書を集まり,一つのコーパスを構成する.こ
法 を 示 す . T は ト ピ ッ ク の 種 類 数 , D は 文 書 数 , Nj は
のような特定の商品カテゴリの評判文書集合を利用す
文 書 j に お け る ト ー ク ン 数 を そ れ ぞ れ 示 す . φ (t ) は ト
るため,一般的なトピックモデルの実験等で利用され
ピ ッ ク t に お け る 単 語 の 出 現 確 率 を 表 す ベ ク ト ル ,θ j
る新聞記事などと比較すると,相対的に狭い話題が展
は文書 j におけるトピックの出現確率を表すベクトル
開される文書集合を解析対象とする.
を そ れ ぞ れ 表 し ,w j , i は 文 書 j に お け る i 番 目 に 出 現 し
本 稿 で は 評 判 文 書 集 合 を 価 格 .com が 提 供 す る 商 品
た ト ー ク ン を , z j ,i は 文 書 j に お け る i 番 目 の ト ー ク ン
カ テ ゴ リ 「 デ ジ タ ル カ メ ラ 」 か ら 13638 件 分 取 得 し ,
に割り当てられたトピックをそれぞれ表す.またαお
その中から名詞のみを取り出して素性データとした.
よびβはディリクレ分布のパラメータを表す.その生
図 1 は 価 格 .com で 実 際 に 取 得 し た デ ジ タ ル カ メ ラ の 評
成過程は以下のようにモデル化される.
判文書の一例である.この文書では一重線を引いたセ
1. φ(t) ~ Dir( ) for t 1. . . T
ンテンスがカメラの“デザイン”の評価,点線が“画
2. θ j ~ Dir( ) for j 1. . . D
質”の評価,二重線がカメラの“機能性の良さ”の評
価をそれぞれ記述している.このように評判文書内に
3. z j,i ~ Multi(θ j ) and wj,i ~ Multi(φz j,i ) for i 1. . . Nj
は,その対象が評価される軸を表す評価基準が存在し
な お p~Dir(q)お よ び p~Multi(q)は q を パ ラ メ ー タ と
ていることがわかる.本研究ではこの評価基準を,評
するディリクレ分布と多項分布から確率変数 p を生成
判文書集合の学習により推定することを目指す.
することを表す.このような生成過程を通して単語が
生 成 さ れ る こ と を 仮 定 す る .こ れ は LDA 登 場 以 前 に 提
3. 先 行 研 究
案 さ れ た PLSI[3]と 比 較 し て , 点 推 定 で な く ベ イ ズ 推
本章ではまずトピックモデルの代表的な手法であ
定である点,事前分布としてディリクレ分布を仮定す
る latent Dirichlet allocation( LDA) に つ い て 簡 単 に 紹
ることで,より自然なスムージングを実現している点
介する.次に本稿の提案手法に先立って提案されてい
か ら ロ バ ス ト な モ デ ル 化 が 成 さ れ て い る .LDA の 潜 在
変 数 ( ト ピ ッ ク ) は 近 似 推 論 法 [4] や サ ン プ リ ン グ [7]
によって推定する.
文書
LDA を は じ め 多 く の ト ピ ッ ク モ デ ル は Bag-of-words
と呼ばれる文書表現を想定したモデルである.これは
隣 接 センテンス
文 書 を 1 つ の 袋( Bag)と み な し ,そ の 中 に 単 語( word)
隣 接 センテンス
が詰められていることを表したものであり,文書内部
の語順を無視して単語の出現頻度のみを用いる.単語
センテンス
の出現順序を考慮しないことから,言語モデルの観点
隣 接 センテンス
からはユニグラムモデルとみなすことができる.
隣 接 センテンス
3.2 MG-LDA
評 判 文 書 へ の ト ピ ッ ク モ デ ル 適 用 は Titov ら が
MG-LDA を 提 案 し て い る [5].2 章 で 示 し た よ う に 評 判
文 書 は 通 常 の LDA が 想 定 す る 文 書 集 合 と 比 較 し て 非
図 2: MG-LDA に お け る ウ ィ ン ド ウ
常に狭い集合をモデル化の対象とする.このような評
判文書を対象としてトピックモデルの学習を行う場合,
3.3 Pitman-Yor ト ピ ッ ク モ デ ル
複数の文書内に同様の単語が出現する.例えばカメラ
通 常 の LDA を 基 に 様 々 な モ デ ル が 提 案 さ れ て い る
の評判文書の場合“画質”という単語はカメラの画質
が ,こ こ で 本 研 究 で の 応 用 が 期 待 で き る 佐 藤 ら [6]が 提
性能を指すため,評価基準を推定する上で重要な単語
案 す る Pitman-Yor ト ピ ッ ク モ デ ル ( PYTM) に つ い て
であるが,カメラの評判文書の多くに出現することが
紹 介 す る .こ の 手 法 は 通 常 の LDA に 加 え ,文 書 コ ー パ
予想でき,特徴量としての抽出が難しい.これは前述
ス に 現 れ る 言 語 特 性 で あ る Power-Law を モ デ ル 化 し 適
の Bag-of-words に お い て 文 書 を 1 つ の Bag と み な す こ
応化することで精度向上を実現する.
とに起因する.このように今回の研究目的である評価
Power-Law と は 冪 乗 則 あ る い は 冪 乗 分 布 と 呼 ば れ る
基 準 を ト ピ ッ ク と し て 推 定 す る た め に は ,LDA の よ う
自然界の様々な場面で現れる法則である.自然言語に
なオーソドックスなモデルを工夫する必要がある.
おいては単語の出現順位と頻度が反比例の関係になる
そ こ で MG-LDA で は ウ ィ ン ド ウ と 呼 ば れ る 潜 在 要
こ と が ,こ の 法 則 に 当 て は ま る も の と し て 有 名 で あ る .
素を導入する.文書の内部の隣接センテンスを 1 つの
図 3 は前述のデジタルカメラの評判文書コーパスにお
集合とみなすことで,通常のトピックモデルでは困難
ける単語の中で名詞の出現頻度を表したものである.
な文書内部の局所的なトピック(評価基準)を推定す
縦軸が単語出現頻度,横軸が各単語の順位を表してお
る .こ れ に よ り 通 常 の LDA で 想 定 す る 文 書 レ ベ ル で の
り,図 3 はその両対数グラフである.
グローバルなトピックに加え,ウィンドウレベルでの
最も出現頻度の多い“撮影”という単語はコーパス
ローカルなトピックの推定が可能となる.この局所的
中 で 13096 回 出 現 し て い る が , 順 位 が 下 が る に つ れ て
に表れるローカルなトピックこそ評判文書集合の評価
出現頻度が反比例的に減少している.ただし低い順位
基準となる.
の単語が数多く出現しており,単語分布がロングテー
ウィンドウの概念を図 2 に示す.ウィンドウは潜在
ルな分布をしていることがわかる.これらの性質はコ
変 数 と し て 表 現 さ れ ,い く つ の セ ン テ ン ス を 覆 う か( ウ
ーパスレベルだけでなく 1 文書の中でも現れる.この
ィンドウ幅)はモデル選択の 1 つとして決定する.図
ような同じ単語が何度も繰り返し出現するという言語
2 はウィンドウ幅が 3 の場合である.この例では中央
の 統 計 的 性 質 は ,前 述 の LDA に お け る 単 語 生 成 過 程 に
の「センテンス」に対して 3 つのウィンドウが考えら
影響を及ぼすと考えられる.
れる.どのウィンドウから生成されるかは確率的に決
そ こ で Pitman-Yor ト ピ ッ ク モ デ ル で は LDA の 生 成
定されるものとし,学習過程の 1 つに組み込まれてい
過 程 に 加 え て ,Pitman-Yor 過 程 に よ っ て Power-Law の
る.どのウィンドウから生成されやすいか学習が進む
性質に適応化させるモデル化を行っている.近年確率
につれて収束していく.
的生成モデルの学習過程においてモデルの複雑さにつ
本稿ではこのウィンドウ単位で生成されるローカルな
いても学習させる方法として,ノンパラメトリックベ
トピックが評価基準を表すものとし注目する.通常の
イ ズ モ デ ル が 注 目 を 集 め て お り , Pitman-Yor 過 程 も こ
MG-LDA で は 文 書 単 位 の ト ピ ッ ク と ウ ィ ン ド ウ 単 位
れ を 実 現 す る 確 率 過 程 で あ る . Piman-Yor 過 程 は
のローカルトピックの両方を推定するが,本稿ではロ
Power-Law
ー カ ル ト ピ ッ ク の み を 推 定 す る 簡 略 化 し た MG-LDA
て お り [8],こ れ を 用 い る こ と で 同 じ 単 語 が 何 度 も 繰 り
を用いて,次章以降で利用する.
返し出現するという自然言語の特性を取り込んだトピ
に従う確率分布を生成することが示され
1050
10000
1000
パープレキシティ
出現頻度
1000
100
10
950
window
size : 1
900
850
window
size : 2
800
750
window
size : 3
700
1
1
10
100
1000
10000
5
100000
25
35
45
トピック数
単語出現順位
図 3: 評 判 文 書 コ ー パ ス の 単 語 出 現 頻 度 お よ び 順 位
15
図 4:ウ ィ ン ド ウ 幅 毎 の MG-LDA に よ る パ ー プ レ キ シ
ティ
ックモデルを構成している.この手法によりトピック
モデルのパープレキシティを低く抑えることができ,
ベ ー ス と な る の は 前 章 で 紹 介 し た MG-LDA で あ る .
特に少数のトピック数でのモデル化を行う際にその低
ウィンドウによって隣接センテンスの集合内でトピッ
下が顕著に表れることが示されている.
ク 分 布 を 構 成 す る こ と で ,通 常 の LDA で は 難 し い 局 所
以 上 の 3.2 節 お よ び 3.3 節 に て 紹 介 し た MG-LDA と
的に表れるトピックである評価基準を推定する.しか
PYTM を 本 研 究 に お い て 先 行 研 究 と し , 本 稿 に お け る
し 4.1 節 で 示 し た よ う に ウ ィ ン ド ウ の 導 入 に よ っ て ,
提案手法では,これら 2 つの手法を応用することとす
モデルのパープレキシティが低下してしまう.これを
る.
防ぐために本稿ではトピックモデルによる学習を 2 段
階に分ける手法を提案する.
4. 提 案 手 法
4.1 従 来 手 法 の 課 題
ま ず 1 段 階 目 の 学 習 と し て ,各 セ ン テ ン ス を 1 つ の 素
性 デ ー タ と し た LDA に よ る 学 習 を 行 う . こ れ は
ま ず 従 来 手 法 で あ る MG-LDA の 課 題 に つ い て 検 討
MG-LDA に お け る ウ ィ ン ド ウ 幅 1 の と き の 学 習 と 等 価
す る .図 4 は MG-LDA を 用 い て 前 述 の デ ジ タ ル カ メ ラ
である.これにより各センテンスに割り当てられるト
の評判文書を学習したモデルに対して,各トピック数
ピ ッ ク (評 価 基 準 )を 推 定 す る .
におけるパープレキシティをウィンドウ幅毎にグラフ
次に 1 段階目の学習により推定されるセンテンス毎
化したものである.ここでパープレキシティとは単語
の ト ピ ッ ク を 基 に ,隣 接 す る セ ン テ ン ス の 連 結 を 行 う .
平均予測数を表す指標である.この値が低いほど単語
隣接するセンテンス間で同じトピックが推定された場
の予測性能が高いと考えられ,精度が高いと言える.
合,これらセンテンスが連続した文脈を持っていると
図 4 が示すようにウィンドウ幅が 1 のモデルが全体的
仮 定 す る .隣 接 セ ン テ ン ス が 同 じ ト ピ ッ ク を 持 つ 場 合 ,
に低いパープレキシティとなっている.ウィンドウ幅
これらセンテンスを連結し,1 つの素性データとして
が 1 の場合とは 1 センテンスを 1 つの素性データとし
再構成する.連結するセンテンスとそうでないセンテ
て扱う場合である.これはセンテンス毎にトピックを
ンスが生まれるが,これにより適応的に素性データの
推定することと等価であり,事実上ウィンドウが機能
集合を構成する.また決定論的なセンテンス集合の構
していない.このような結果になる原因は各センテン
築 を 行 う た め , 4.1 節 で 示 し た ウ ィ ン ド ウ が も つ 冗 長
スが独立に意味を持つ場合が多く,ウィンドウの導入
性を改善することができると考えられる.
によって冗長性が生まれることで逆に精度が低下する
最後にこの新たに生成された学習データに対する
ためだと考えられる.ただ,センテンス毎に推定を行
LDA に よ る 学 習 を 行 う .一 連 の 学 習 過 程 を 図 5 に 示 す .
うことは 1 つの素性データに含まれる単語が少なくな
1 段階目の段階である程度トピックの推定ができて
り,単語の共起性が小さくなる.同一の文脈から生成
いることを前提とするが,再学習させることにより各
されたと考えられるセンテンスは 1 つの素性データに
素性データがもつ単語の共起情報が増加するため,よ
まとめて学習を行うことにより,より予測性能の高い
り高い精度でトピック推定が行えると考えられる.
モデルを構成することが可能になると考えられる.
4.3 PYTM の 適 用
4.2 提 案 手 法 : 2 段 階 学 習
前 節 の 2 段 階 学 習 に 加 え ,3 章 で 紹 介 し た PYTM に よ
本 節 で は MG-LDA を 基 に 評 判 文 書 の ト ピ ッ ク モ デ ル
る さ ら な る 学 習 精 度 向 上 を 目 指 す . PYTM は 文 書 の 単
を 2 段階に拡張したモデル化を提案する.
語 分 布 を Power-Law に 従 う よ う な 適 応 化 を 行 う モ デ ル
同 じトピックを持 つ
隣 接 文 を連 結
文 毎 単 位 の LDA による学 習
文書
文書
【デザイン】ブラックを購 入
しました。
デザイン
【デザイン】ブラックを購 入
しました。
レンズの沈 胴 式 の部 分 ま
でブラックに統 一 されてい
て、珍 しいです。
デザイン
レンズの沈 胴 式 の部 分 ま
でブラックに統 一 されてい
て、珍 しいです。
黒 の 周 り に シ ル バ ーの リ ン
グがあしらわれていてとて
も高 級 感 があります。
デザイン
黒 の 周 り に シ ル バ ーの リ ン
グがあしらわれていてとて
も高 級 感 があります。
バッテリー
バッテリーは初 期 のためも
う少 し使 えば持 ちが良 くな
るかもしれませんが、もう
少 し容 量 が大 きいほうが
いいと思 います。
バッテリーは初 期 のためも
う少 し使 えば持 ちが良 くな
るかもしれませんが、もう
少 し容 量 が大 きいほうが
いいと思 います。
文書
【デザイン】ブラックを購 入
しました。レンズの沈 胴 式
の部 分 までブラックに統
一 されていて、珍 しいで
す。黒 の周 りにシルバー
のリングがあしらわれてい
てとても高 級 感 がありま
す。
バッテリーは初 期 のため
もう少 し使 えば持 ちが良 く
なるかもしれませんが、も
う少 し容 量 が大 きいほう
がいいと思 います。
推 定 されたトピック
図 5: 提 案 手 法 . 2 段 階 に 分 け た セ ン テ ン ス レ ベ ル で の 学 習 過 程
として用いられる.本稿では情報量の少ない素性デー
次 に PYTM を 組 み 込 ん だ モ デ ル ( 緑 , 赤 ) と そ う で
タを補間する目的で本手法を上記の 2 段階手法に対し
ないモデル(青,黄色)との比較を行う.若干の違い
て導入することを検討する.
はあるが,全体的に組み込んだモデルとほぼ同等の精
度にとどまっている.このような結果となるのは,モ
5. 評 価 実 験 お よ び 学 習 結 果
本 章 で は 提 案 手 法 の 評 価 実 験 結 果 を 示 す .ま た 提 案 手
デ ル 内 で Power-Law が 現 れ る よ う な デ ー タ が な い( も
しくはほとんどない)ことが原因だと考察する.素性
法の学習結果と応用例について紹介する.
デ ー タ 中 に 前 述 の Power-Law が 出 現 し な い 場 合 ,
5.1 評 価 実 験
PYTM は 通 常 の LDA と 等 価 な 性 能 を 示 す .今 回 は 文 レ
本 節 で は 提 案 手 法 の 評 価 実 験 結 果 に つ い て 示 す .評 価
ベルでの非常に少数の単語を一つの単位とするため,
に は 2 章 で 示 し た デ ジ タ ル カ メ ラ の 評 判 文 書 13638 件
Power-Law が 出 現 し な か っ た こ と が , 漸 近 す る よ う な
から名詞を素性データとするコーパスを用いる.また
結果となった要因だと考えられる.2 段階学習による
4 章で紹介したパープレキシティを評価指標に利用す
文の連結によって,1 つの素性中の単語量を増加させ
る .今 回 は デ ー タ の 90% を 学 習 デ ー タ ,10% を 訓 練 デ
る こ と を 狙 っ た が ,PYTM に お い て Power-Law を 再 現
ータとして学習を行い,3 つの学習サンプルから得ら
する程度の単語量は得られなかったと考察する.
れたパープレキシティの平均をとり,従来手法である
5.2 学 習 結 果 と 商 品 特 性 可 視 化 へ の 応 用
MG-LDA と 提 案 手 法 と 比 較 し た . さ ら に 4.3 節 で 示 し
た PYTM を 組 み 込 ん だ モ デ ル に つ い て も 同 様 に 評 価 対
象とする.
実際に得られた結果を図 6 に示す. 青色のグラフは
本節ではトピックモデルによって得られる評判文書
の学習結果について示す.
LDA は ト ピ ッ ク の 推 定 に よ っ て 文 書 と 単 語 間 の 関 連
性を推定する.ここでは各トピックのもとに推定され
従 来 手 法 で あ る MG-LDA( ウ ィ ン ド ウ 幅 :1),緑 色 の グ
た 単 語 上 位 10 語 を ま と め た 結 果 を 表 1 に 示 す .ト ピ ッ
ラ フ は 上 記 MG-LDA に 対 し て PYTM を 組 み 込 ん だ モ
ク 数 は 15 と 設 定 し た モ デ ル で の 結 果 で あ る .
デル,黄色は提案手法である 2 段階学習,赤色のグラ
表 1 を み る と ,あ る 程 度 意 味 の あ る 単 語 が 一 つ の ト ピ
フ は 2 段 階 学 習 に さ ら に PYTM を 組 み 込 ん だ モ デ ル の
ックとして抽出できていることが分かる.例えば,ト
結果をそれぞれ示している.
ピック 1 はデザインに関する単語が上位に来ている.
ま ず 青 色 の グ ラ フ と 黄 色 の グ ラ フ を 比 較 す る と ,全 体
他 に も ト ピ ッ ク 8 は 携 帯 性 に 関 す る 単 語 ,ト ピ ッ ク 14
的に従来手法よりも提案手法の方がパープレキシティ
はバッテリーに関する単語がそれぞれ上位に来ている.
の低下が確認できる.2 段階に学習を分けることで精
このようなトピックは本研究で目標とした評価基準を
度の改善が実現できている.この例から本稿で提案し
表すトピックを構成している.他のトピックも同じよ
ている手法が上手く機能していると言える.
うに評価基準となるトピックが推定できているが,中
定 し ,こ れ を 用 い て 商 品 毎 の ト ピ ッ ク 分 布 を 算 出 し た .
パープレキシティ
900
window
size :1
850
PYTM
800
結 果 を 図 7 に 示 す . な お ト ピ ッ ク 数 は 18 と し た . 図
7 の結果からわかるように,他の商品と比べてトピッ
クの分布に偏りのある商品が存在する.例えばトピッ
ク 14 で は 商 品 1 と 商 品 4 が 大 き な 値 を 示 し て い る .こ
のように個別の商品に限定してトピックモデルを応用
750
2 level
learning
することで,文書中の記述から商品の大まかな特性を
発見することが期待できる.
700
5
15
25
35
45
2level +
PYTM
トピック数
6. 今 後 の 展 望
本 稿 で は MG-LDA の 精 度 向 上 を 目 的 と し た 2 段 階 学
図 6: パ ー プ レ キ シ テ ィ に よ る 2 段 階 学 習 と の 比 較
習による評判情報のトピックモデリングについて提案
し,実験の結果モデルの性能向上が確認できた.
には評価トピックとみなすかどうか曖昧なトピックも
本 研 究 で は ト ピ ッ ク モ デ ル を 用 い て ,評 判 文 書 に お い
推定されている.例えば,トピック 0 は数字を表す単
て評価基準を研究対象として扱った.評判情報に関す
語が上位に来ている.このトピックは画素のようなデ
る研究において,この評価基準と同じく重要な研究課
ジタルカメラを定量的に評価しているものと解釈でき
題として,評価表現抽出やその極性の判定が挙げられ
る一方,トピックとみなすかどうかは意見が分かれる
る.これは本稿における提案を応用レベルで検討する
部分だと言える.トピック 5 はカメラの機種やブラン
上で,重要な要素であり今後の発展が期待される.
ドを表している単語が上位に来ている.ブランドとい
ま た 5.2 節 で 示 し た よ う に ,推 定 さ れ る ト ピ ッ ク は 教
うカメラの性質を表す側面だとみなすこともできるが,
師なし学習の結果として得られることから,解析者の
同じく議論となるものだと考えられる.このように,
意図が介在せずに推定される.これは思いがけない知
トピックモデルは教師なし学習によってクラスタリン
識の発見が期待できる一方,人間の直感に反するよう
グの一種を実現するものであるため,どのような性質
な評価基準を推定してしまうことがある.とくに本稿
をもったグループ化ができるかはデータ次第である.
のように,トピックを特定の意味合いをもつ要素(評
この点については 6 章でも今後の課題として取り上げ
価基準)として抽出することを目的とする場合は,あ
る.
る程度意図的にトピックの方向性の補正を行いたい場
次にこれらトピックモデルを用いた応用例について
合が考えられる.
検討する.ここまではコーパス全体からの評価基準推
解決方法の 1 つとしては半教師あり学習が挙げられ
定を行ってきたが,これの個別商品に対する適用を考
る.コーパス中にある少数の教師データを混ぜること
える.個別の商品はそのカテゴリ中で様々な特性をも
で ,所 望 す る よ う な 推 定 結 果 を 得 る こ と が 期 待 で き る .
つ.例えばカメラであれば「○○という機種はズーム
これについては,トピックモデル全般にかかわる課題
機能が優れている」といったようなものである.ある
の 1 つでもあるため,今後の大きな課題といえる.
程度その商品群に詳しいユーザはこのような商品毎の
ま た 本 稿 で 使 用 し た LDA は マ ル チ ト ピ ッ ク モ デ ル と
性質を暗黙知として知っていると思われるが,同じ商
呼ばれる手法である.特定のトピックとして点推定す
品について書かれた評判文書群の中には,こうした特
るのではなくトピックが出現する割合の推定を実現す
性が評価基準の偏りとして出現するのではないかと考
る.ただ本稿で扱った評判文書ではコーパス全体を通
えられる.
して話題の展開が狭い.このためほとんどの単語・セ
本稿ではこれまでに導入したトピックモデルを用い
ンテンスをユニトピックとして扱うことが検討できる.
て,これら特性の発見を試みる.商品毎の特性を本稿
ユニトピックモデルとしては,混合ディリクレ分布を
では評価基準の偏りとみなすようにする.もし評判文
用 い た モ デ ル 化 が 提 案 さ れ て お り [9],検 討 す べ き 手 法
書の記述中に商品に関する有名な特性が記述されてい
として挙げられる.
る場合,評価基準の割合が相対的に大きく(あるいは
小さく)なると考えられる.
最後に本稿で取り上げた評価基準は今後様々な応用
方法が考えられる.通常の文書と比較して評判文書は
今 回 は デ ジ タ ル カ メ ラ の 評 判 文 書 か ら 100 件 以 上 投
商 品 や 投 稿 者 ,地 域 性 と い っ た 属 性 が 明 示 さ れ て い る .
稿されている 7 つの商品に対してトピックの偏りを調
これらと組み合わせることで,評判情報の新たな知識
査した.コーパス全体から推定したトピック分布を用
発見のために様々なアプローチができると考えられる.
いて各商品に対する評判文書中の各語のトピックを推
今回例に挙げた商品特性の可視化のように,周辺情報
を用いてコーパスの一部(商品)の特性を発見すると
いった応用が期待できる.
参
考
[6]
文
献
[1] Amazon.co.jp, http://www.amazon.co.jp/
[2] 価 格 .com, http://www.kakaku.com/
[3] T. Hofmann, “Probabilistic latent semantic indexing”,
In Proceedings of the 22nd International Conference
on Research and Development in Information
Retrieval, pp. 50-57. ACM Press, 1999.
[4] D. M. Blei, A. Ng, M. Jordan, “Latent Dirichlet
allocation”, Journal of Machine Learning Research,
Vol.3, No.5, pp.993-1022, 2003.
[5] I. Titov, R. McDonald, “Modeling Online Reviews
with Multi-grain Topic Models”, In Proceedings of
[7]
[8]
[9]
17th International World Wide Web Conference,
2008.
I. Sato, H. Nakagawa, “Topic Models with
Power-Law
Using
Pitman-Yor
Process”,
In
Proceedings of the 16th International Conference on
Knowledge Discovery and Data Mining, 2010.
T. L. Griffiths, M. Steyvers, “Finding scientific
topics”, In Proceedings of the National Academy of
Sciences of the United States of America, Vol. 101,
No. suppl.1, pp. 5228-5235, 2004.
S. Goldwater, T. L. Griffiths, M. I. Jordan,
“Interpolating Between Types and Tokens by
Estimating Power-Law Generators”, In Advances in
Neural Information Processing System, 2006.
山 本 幹 雄 , 貞 光 九 月 , 三 品 拓 也 ,“ 混 合 デ ィ リ ク
レ分布を用いた文脈のモデル化と言語モデルへ
の 応 用 ”,情 報 処 理 学 会 研 究 報 告 ,pp29-34,2003.
topic 0
topic 1
topic 2
topic 3
topic 4
0
デザイン
購入
ホールド感
ズーム
1
2
感
感じ
一
年
レンズ
部分
倍
広角
万
3
画素
5
4
8
円
色
好き
質感
好み
個人
発色
高級
前
台
眼
目
レビュー
価格
使用
ケース
ホールド
グリップ
性
本体
問題
指
レンズ
マクロ
光学
望遠
側
倍率
範囲
topic 5
topic 6
topic 7
topic 8
topic 9
機種
画質
手
携帯性
撮影
機
比較
メーカー
他
IXY
製品
以前
モデル
リコー
満足
点
評価
度
不満
非常
私
全体
期待
機能
補正
モード
機能性
シャッター
設定
オート
顔
マニュアル
コンパクト
画質
性能
機能
サイズ
価格
十分
ポケット
値段
ノイズ
感度
フラッシュ
室内
写真
綺麗
夜景
場合
風景
topic 10
topic 11
topic 12
topic 13
topic 14
写真
液晶
操作性
撮影
バッテリー
私
人
一眼
用
自分
使用
レフ
子供
初心者
画像
ボタン
動画
電池
綺麗
操作
画
枚
画面
設定
カード
充電
画質
モード
写
使用
きれい
電源
連
日
確認
メニュー
時間
予備
表示
ダイヤル
静止
一
問題
簡単
音
旅行
上
シャッター
中
必要
表 2: ト ピ ッ ク モ デ ル に よ る 評 判 情 報 の ト ピ ッ ク (評 価 基 準 )推 定 結 果 .
各 ト ピ ッ ク に お い て 出 現 頻 度 が 高 い と 推 定 さ れ た 単 語 上 位 10 語 .
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
topic 0
topic : 0
機種
機
メーカー
比較
製品
モデル
最近
他
以前
シリーズ
topic 1
topic 2
topic 3
topic 4
topic 5
topic 6
topic 7
topic 8
topic : 1
撮影
感度
ノイズ
フラッシュ
室内
夜景
綺麗
場所
場合
中
topic : 2
0
1
2
万
3
画素
5
4
8
円
topic : 3
写真
人
私
自分
顔
子供
撮影
初心者
認識
簡単
topic : 4
購入
年
前
使用
円
発売
買 い替 え
店
こちら
ヶ月
topic : 5
レンズ
広角
マクロ
望遠
側
カバー
ボケ
焦点
キャップ
端
topic : 6
一
一眼
使用
台
用
レフ
眼
機
デジタル
防水
topic : 7
画質
評価
私
問題
期待
十分
他
普通
レベル
最高
topic : 8
液晶
画面
綺麗
画像
表示
確認
きれい
ファインダー
サイズ
撮影
topic 10
topic 11
topic 12
topic 13
topic 14
topic 15
topic 16
topic 17
topic : 10
バッテリー
電池
枚
充電
日
予備
使用
旅行
三
必要
topic : 11
点
不満
カード
残念
改善
対応
アップ
画像
以外
ソフト
topic : 12
モード
撮影
設定
シャッター
オート
マニュアル
機能
シーン
写
フォーカス
topic : 13
色
画質
感じ
感
バランス
画像
発色
絵
自然
印象
topic : 14
手
ズーム
動画
補正
倍
機能
撮影
画
機能性
光学
topic : 16
デザイン
感
感じ
好き
質感
個人
高級
ボディ
シンプル
見 た目
topic : 17
携帯性
ホールド感
コンパクト
サイズ
性
ポケット
ケース
ホールド
携帯
グリップ
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
topic 9
topic : 9
満足
機能
度
価格
十分
画質
性能
非常
値段
総評
商品
商品
商品
商品
0
1
2
3
LUMIX DMC-TZ7
FinePixF31fd
IXY DIGITAL 900 IS
サイバーショット DSC-WX1
商品 4
商品 5
商品 6
topic : 15
操作性
操作
ボタン
電源
メニュー
ダイヤル
設定
簡単
再生
位置
サイバーショット DSC-HX5V
LUMIX DMC-LX3
GR DIGITAL II
図 6: デ ジ タ ル カ メ ラ の 評 判 文 書 集 合 中 の 7 つ 商 品 に お け る ト ピ ッ ク ( 評 価 基 準 ) 分 布 .
縦 軸 は ト ピ ッ ク の 出 現 割 合 を 表 す . 各 グ ラ フ 下 の 表 は 対 応 す る ト ピ ッ ク に お け る 上 位 10 語 .
最下表は 7 つの商品の名称.各グラフ左から商品 0 と対応する.