ご購入はこちら 第 5章 クラスタ分析で図示すればずいぶんわかりやすい ステップ 4: 市場の方向性を AI 解析 佐藤 聖 処理の流れ 第5章でやること ユーザ・アプリ 3 ツイート データ 取得 お気に入り/リツイート数 2 テキスト・ クレンジング サンプ リング 3 感情 分析 4 データ セット作成 5 GAP 統計 6 クラスタ 分析 クラスタ分析 グラフ データ twitterR dplyr 結果 標本データ syuzhet 感情値付き データ Rのライブラリ cluster 推定クラスタ数 factoextra 感情値と関心度付きデータ Windows OS PC インターネット 図 1 いよいよ人工知能で多数のツイートを分類し市場の傾向をつかむ 第 4 章までで,図 1 に示すように,「つぶやき」から 抽出した「感情値&関心度」データと,重要パラメー タ「推定クラスタ数」が分かっています.本章では, これらを使って,経済市場の感情を分析するためクラ スタ分析を行います. いざ! クラスタ分析 クラスタ分析によるつぶやき仕分けプログラムを リスト 1 に示します. ● 結果の読み取り方 クラスタ分析には,k 平均法を利用しています(詳 細は Appendix 2 参照).k 平均法で分析した結果を 図 2(p.50)に示します.処理にかかった時間は 97.43 秒でした. 図 2 は,それぞれが同一サイズになるよう自動調整 されています.標本データに含まれる感情値と関心度 の幅が異なるので X 軸と Y 軸のスケールが異なってい ますが,それぞれのグラフ中で,各クラスタの位置づ けを把握できればよいので,軸のスケールは一致させ 48 ていません. X 軸→感情査定結果.右に行くほど肯定的 Y 軸→お気に入り数とリツイート数の合計=関心 度 で表示しています.X 軸の感情分析結果と Y 軸の関心 度の距離関係をプロットしています. cluster にクラスタ数や凡例を表示しています. ・ ・ グラフ上に表示されている数字はサンプリング・デー タの行番号です.このレコードの行番号からサンプリ ング・データにある created 列でツイートされた日 時を確認できます.ダウンロード・データと照合すれ ば,元のツイートの内容を参照可能です. 配信元によってクラスタ数が異なります.FXstreet ニュース,Forex ライブ,USA トゥデイはクラスタ が層になって表示されています.データのばらつきが 狭いのに多くのクラスタ数を設定したのが原因のよう です.傾向としては Y 軸の関心度が低いデータが多数 あり,少数のデータだけ高い傾向があります.この結 果からほとんどのニュースに特筆して注目が集まるこ とはないように見受けられます. 2017 年 1 月号
© Copyright 2024 ExpyDoc