ステップ4: 市場の方向性をAI解析

ご購入はこちら
第
5章
クラスタ分析で図示すればずいぶんわかりやすい
ステップ 4:
市場の方向性を AI 解析
佐藤 聖
処理の流れ
第5章でやること
ユーザ・アプリ
3 ツイート データ
取得
お気に入り/リツイート数
2 テキスト・
クレンジング
サンプ
リング
3 感情
分析
4 データ
セット作成
5 GAP
統計
6 クラスタ
分析
クラスタ分析
グラフ
データ
twitterR
dplyr
結果
標本データ
syuzhet
感情値付き
データ
Rのライブラリ
cluster
推定クラスタ数
factoextra
感情値と関心度付きデータ
Windows OS
PC
インターネット
図 1 いよいよ人工知能で多数のツイートを分類し市場の傾向をつかむ
第 4 章までで,図 1 に示すように,「つぶやき」から
抽出した「感情値&関心度」データと,重要パラメー
タ「推定クラスタ数」が分かっています.本章では,
これらを使って,経済市場の感情を分析するためクラ
スタ分析を行います.
いざ! クラスタ分析
クラスタ分析によるつぶやき仕分けプログラムを
リスト 1 に示します.
● 結果の読み取り方
クラスタ分析には,k 平均法を利用しています(詳
細は Appendix 2 参照).k 平均法で分析した結果を
図 2(p.50)に示します.処理にかかった時間は 97.43
秒でした.
図 2 は,それぞれが同一サイズになるよう自動調整
されています.標本データに含まれる感情値と関心度
の幅が異なるので X 軸と Y 軸のスケールが異なってい
ますが,それぞれのグラフ中で,各クラスタの位置づ
けを把握できればよいので,軸のスケールは一致させ
48
ていません.
X 軸→感情査定結果.右に行くほど肯定的
Y 軸→お気に入り数とリツイート数の合計=関心
度
で表示しています.X 軸の感情分析結果と Y 軸の関心
度の距離関係をプロットしています.
cluster にクラスタ数や凡例を表示しています.
・
・
グラフ上に表示されている数字はサンプリング・デー
タの行番号です.このレコードの行番号からサンプリ
ング・データにある created 列でツイートされた日
時を確認できます.ダウンロード・データと照合すれ
ば,元のツイートの内容を参照可能です.
配信元によってクラスタ数が異なります.FXstreet
ニュース,Forex ライブ,USA トゥデイはクラスタ
が層になって表示されています.データのばらつきが
狭いのに多くのクラスタ数を設定したのが原因のよう
です.傾向としては Y 軸の関心度が低いデータが多数
あり,少数のデータだけ高い傾向があります.この結
果からほとんどのニュースに特筆して注目が集まるこ
とはないように見受けられます.
2017 年 1 月号