先進型テキスト・マイニング

先進型テキスト・マイニング
C-2
Copyright © 2012, SAS Institute Inc. All rights reserved.
•
•
•
•
SAS Institute Japan
ソリューションコンサルティング 第⼀本部
エンタープライズ・アナリティクス推進
担当部⻑
•
津⽥ ⾼治
⾃⼰紹介
THRIVING IN THE BIG DATA ERA
VOLUME
DATA SIZE
VARIETY
VELOCITY
VALUE
TODAY
THE FUTURE
ビッグ・データのタイプ
Types of Big Data/ Unstructured Data for Advanced Analytics:
構造化データ( データベース、レコード )
準構造化データ ( XML など)
構造が複雑なデータ( 階層データ、レガシーソース )
イベント・データ( メッセージなど)
非構造化データ( 人間の会話、オーディオ、ビデオ )
ソーシャル・メディア(ブログ、ツイート、SNS )
アクセスログ、クリックストリーム
空間データ( GPSなど )
機械のログ( センサー、RFID、機器ログ )
科学データ( astronomy, genomes, physics )
Other
Based on 450 responses from 109 respondents who report practicing Big Data analytics; 4.1 responses per respondent on average.
Source: TDWI Big Data Analytics Report, 4 th Quarter 2011, Philip Russom
テキスト・マイニングとは
•
•
⼤量の⽂書から
業務データと結びつける
データマイニングする
ビジネス活⽤をする
隠れたパターン(知⾒)
を発⾒
でも知⾒で終わりではない
データ・マイニングとは
• データ解析の技法をデータに適⽤し知識を取り出すこと
• 正解がないことを推定するためにデータ分析で因果関係を探る
• 例. 以下のワインの質(価格)を気象条件で推定するなど
出典:イアン・エアーズ[著] 『その数学が戦略を決める』
ワインの質 = 12.145 + 0.00117×冬の降⾬
+0.0614 × 育成期平均気温
-0.00386 × 収穫期降⾬
ワインの質
モデル
⽬的変数
データ準備
= ワインの品質を決める数式
⽬的変数=求めたい答え:ワインの質
説明変数=答えを導く要素:降⾬量、気温
×:実測値
×
×
×
× ×
× × ××
×
×
説明変数
6
×
×
降⾬量
テキストマイニングの結果をデータマイニングで使う
施策
販売
データマイニング
マーケティング
将来予測
品質業務
セキュリティ業務
クラスタリング
テキストマイニング
形態素解析
トピック抽出
従来のテキスト・マイニングの難しさ
結局テキストを読む必要があり、⼿間がかかる
テキストを読んでいると余計に分からなくなりやる気がなくなる
分析の結果が⼀般的に正しいか(蓋然性)不明
分析を活⽤するシナリオがない
会社のROIに結びつくか不明
こんなことが可能だったらいかがでしょうか?
Analytics 2014 ‐ SAS FORUM JAPAN ‐
9
こんなことが可能だったらいかがでしょうか?
ネットのつぶやきであなたの会社のモノがいくつ売れるかわかる
Analytics 2014 ‐ SAS FORUM JAPAN ‐
10
こんなことが可能だったらいかがでしょうか?
ネットのつぶやきであなたの会社のモノがいくつ売れるかわかる
顧客のサイトアクセスから最適な広告が打てる
Analytics 2014 ‐ SAS FORUM JAPAN ‐
11
こんなことが可能だったらいかがでしょうか?
ネットのつぶやきであなたの会社のモノがいくつ売れるかわかる
顧客のサイトアクセスから最適な広告が打てる
事件の関係者、場所、モノ、時間を抽出し関係マップを描く
こんなことが可能だったらいかがでしょうか?
ネットのつぶやきであなたの会社のモノがいくつ売れるかわかる
顧客のサイトアクセスから最適な広告が打てる
事件の関係者、場所、モノ、時間を抽出し関係マップを描く
顧客の投稿やアクセス履歴からコンテンツのリコメンドをする
Analytics 2014 ‐ SAS FORUM JAPAN ‐
13
こんなことが可能だったらいかがでしょうか?
ネットのつぶやきであなたの会社のモノがいくつ売れるかわかる
顧客のサイトアクセスから最適な広告が打てる
事件の関係者、場所、モノ、時間を抽出し関係マップを描く
顧客の投稿やアクセス履歴からコンテンツのリコメンドをする
着⽬すべき⽂書やサイトを特定してくれる
Analytics 2014 ‐ SAS FORUM JAPAN ‐
14
テキストマイニングはコンテキスト・アナリティクスへ
⾼い
テキストを分析する
テキストから知⾒を得る
・頻度
・分類
・インデックス付け
・⾃動トピック抽出
・エンティティの抽出
・要約
コンテキスト(⽂脈)
からアクションを起こす
未来はより幅広い⾮構
造化データを対象に
・ビジネスを予測する
・リコメンドする
・プロファイリングする
価値
例.顧客を知るために 例.顧客を知るために
•テキストを読む
•興味エリア・マップ
•関係者のマップ
•⼈海戦術
例.顧客を知るために
•未来のビジネスを知る
•個⼈の興味を知る
•集団のプロファイリングをする
低い
プロセス変⾰、インフラの変⾰、⼈材の変⾰、企
業⽂化の変⾰