講演資料ダウンロード

Sparkを生んだAMPLabと
ビジネス向け機械学習
2014年11月6日
日本電気株式会社
情報・ナレッジ研究所
中台慎二
Cloudera World Tokyo 2014
自己紹介
中台 慎二
2003
NEC入社
2012~13 UC Berkeley 客員研究員
AMPLab
機械学習、分散システム/DB
Prof. Michael Franklin
2014現在 情報・ナレッジ研究所 主任
(データ&テキストマイニング)
Page 2
© NEC Corporation 2014
Sparkとは?
▐ UC Berkeley AMPLabで開発された分散処理基盤
 インメモリで高速
 急速に普及中
“Apache Hadoop”
“Apache Spark”
Visiting Scholar
商用サポート
Google Trends (2014年10月現在)
Page 3
© NEC Corporation 2014
本日のお話
前半
AMPLab
システムと機械学習の最先端
後半
ビジネス向け機械学習、事例
ソリューション
機械学習
システム
Page 4
© NEC Corporation 2014
プラットフォームからのトータルなサポート
今後の協業を発表
YARN
Page 5
© NEC Corporation 2014
システム
2014/10/14
製品
ソリューション
SI
サポート
トレーニングなど
前半
AMPLab
システムと機械学習の最先端
ソリューション
機械学習
システム
Page 6
© NEC Corporation 2014
システムと機械学習の最先端の融合
シリコンバレー企業
(Google, Facebook, Amazon, etc.)
ニーズ
Prof. Michael Jordan
機械学習のトップ
BDAS
Prof. David Patterson
Prof. Randy Katz
Prof. Scott Shenker
Prof. Michael Franklin
Prof. Ion Stoica
システム系のトップ
Berkeley Data Analytics Stack
MLBase
Spark
Streaming
GraphX
BlinkDB
Spark SQL
Spark
Tachyon
Page 7
© NEC Corporation 2014
HDFS
Mesos
YARN
前半で紹介するお話: 融合研究の一例
前半
AMPLab
システムと機械学習の最先端
BDAS/Sparkチューニングの話
両面からの研究の具体例
(OCC DP-means)
ソリューション
最先端のエッセンス
機械学習
課題
解決
システム
学習の並列化
X. Pan, J. Gonzalez, S. Jegelka, T. Broderick, M. Jordan, NIPS 2013
Page 8
© NEC Corporation 2014
OCC DP-Meansの概要
課題
K-means
(クラスタリング)
欠点: クラスタ数を
決める必要
学習
DP-means
システム
欠点: 逐次実行
である必要
解決策
DP-means
利点: 自動で決まる
OCC DP-means
(楽観的並行性制御)
利点: 並列化可能
RDBの ACIDの議論が関係
Page 9
© NEC Corporation 2014
学習エンジン利用時の課題
▐ パラメータを振るのが大変!
▐ 例: 顧客をクラスタリングしたい
 K-meansを使おう!
 クラスタ数Kは、いくつにしよう?
3クラスタ?
Page 10
© NEC Corporation 2014
4クラスタ?
K-Meansでは、予めクラスタ数を決める必要
K=3
Page 11
© NEC Corporation 2014
K-Meansでは、予めクラスタ数を決める必要
K=3
Page 12
© NEC Corporation 2014
K-Meansでは、予めクラスタ数を決める必要
K=3
Page 13
© NEC Corporation 2014
K=4
K-Meansでは、予めクラスタ数を決める必要
K=3
K=4
自動で決まる!
Bayesian
Nonparametricsだと
Page 14
© NEC Corporation 2014
DP-means: 最先端のエッセンスをシンプルに導入
手動
速い
クラスタ数
K-means
自動
DP-means
σ→0
確率的
非確率的
ベイズ
混合ガウス
σ
精度
PRML 9.3.2
B. Kulis and M. Jordan, ICML2012
Page 15
© NEC Corporation 2014
混合
ディリクレ過程
σ
最先端学会でブーム
(Bayesian Nonparametrics)
DP-meansでは、離れていたら独立
▐ 独立した点の周りに、
他の点が集まりクラスタ化
解決
Page 16
© NEC Corporation 2014
DP-meansでは、離れていたら独立
▐ 独立した点の周りに、
他の点が集まりクラスタ化
>閾値 l
解決
Page 17
© NEC Corporation 2014
DP-meansでは、離れていたら独立
▐ 独立した点の周りに、
他の点が集まりクラスタ化
解決
Page 18
© NEC Corporation 2014
DP-meansでは、離れていたら独立
▐ 独立した点の周りに、
他の点が集まりクラスタ化
解決
Page 19
© NEC Corporation 2014
並列化の課題
▐ そのままSparkで実装した時の課題
 中心から、l離れた点が複数独立
 中心というグローバル情報を、
別々に更新
グローバル情報
Spark RDD
Page 20
© NEC Corporation 2014
閾値
l
並列化の課題
▐ そのままSparkで実装した時の課題
 中心から、l離れた点が複数独立
 中心というグローバル情報を、
別々に更新
グローバル情報
Spark RDD
Page 21
© NEC Corporation 2014
閾値
l
並列化の課題
▐ そのままSparkで実装した時の課題
 中心から、l離れた点が複数独立
 中心というグローバル情報を、
別々に更新
グローバル情報
Spark RDD
Page 22
© NEC Corporation 2014
閾値
l
並列化の課題
▐ そのままSparkで実装した時の課題
 中心から、l離れた点が複数独立
 中心というグローバル情報を、
別々に更新
グローバル情報
Spark RDD
Page 23
© NEC Corporation 2014
閾値
l
楽観的に並行性制御
グローバル情報
一旦受け入れ、
後で妥当性検証
閾値
l
Spark RDD
Page 24
© NEC Corporation 2014
楽観的に並行性制御
グローバル情報
一旦受け入れ、
後で妥当性検証
閾値
l
Spark RDD
Page 25
© NEC Corporation 2014
楽観的に並行性制御
グローバル情報
一旦受け入れ、
後で妥当性検証
閾値
l
Spark RDD
この時期 Prof. Alan Fekete がAMPLabに数か月滞在
(Serializable Snapshot Isolationの提案者)
Postgres 9.1に採用され、
Snapshot Isolationが、
真にSERIALIZABLEに
Page 26
© NEC Corporation 2014
実証実験の概要
購買データなど
独自セグメント
DP-means 分析エンジン
AMPLab
Spark1.1.0
YARN
100台
NEC Cloud IaaS
Page 27
© NEC Corporation 2014
CDH 4.7
実証実験の結果
▐ 真のクラスタ数に一致しやすいが、閾値に依存
10クラスタから、データ生成
学習で、データからクラスタ再現
実験結果は、画面のみ
Page 28
© NEC Corporation 2014
後半へのつなぎ
自動で決まるクラスタ数は、
真のクラスタ数に、必ず一致するか?
(沢山のデータがあった場合)
※フルベイズで、閾値相当のパラメータを更新しても
Dirichelet Process
(DP-meansの原型)
NO
J.W. Miller, NIPS2013
異種
混合
Page 29
© NEC Corporation 2014
Yes
R. Fujimaki, AISTATS2012
後半
ビジネス向け機械学習の事例
ソリューション
機械学習
システム
Page 30
© NEC Corporation 2014
学習エンジンのマップ
精度
SVM
DeepLearning
異種
混合
決定木 回帰分析
説明可能性
Page 31
© NEC Corporation 2014
学習エンジンの特徴に応じた使い分け
▐精度
目じりの間隔と、
眉の長さの比が、
○×以上だから、、、
画像認識など
(判定理由不要)
Page 32
© NEC Corporation 2014
▐説明可能性(可読性)
○×分析の結果、
、、、
が重要と思われます
ビジネス分析
(レポーティングが重要)
可読性のある学習1: 決定木
▐例: 慎重と体重から、生活習慣病リスク
※説明のための疑似データ
身長
リスクあり
体重
以上
未満
150
100
体重
なし
以上
未満
100
150
身長
Page 33
© NEC Corporation 2014
なし
あり
可読性のある学習2 : 回帰分析
▐例
生活習慣病の発症率=
5×体重
ー3×
+
運動日数
+2×年齢
ー1×
+
野菜を食べる
回帰係数
※説明のための疑似データ
Page 34
© NEC Corporation 2014
精度
学習エンジンのマップ
異種混合
SVM
異種
DeepLearning
混合
決定木 回帰分析
説明可能性
Page 35
© NEC Corporation 2014
決定木の各葉に回帰式
生活習慣病
~ 成人病
性別
体重
運動
身長
140未満 140以上
胴囲
野菜
胴囲
体重
体重
野菜
運動
※説明のための疑似データ
Page 36
© NEC Corporation 2014
精度比較 (回帰)
▐ データ: bank32nh(8192サンプル/32次元)
0.8
誤差
(RMSE)
0.78
0.7
0.67
0.6
Page 37
© NEC Corporation 2014
回帰木
SVR
0.68
異種
混合
通常、説明変数の組合せを考える必要
説明変数の候補を
入れるだけ
Page 38
© NEC Corporation 2014
通常、説明変数の組合せを考える必要
説明変数の候補を
入れるだけ
性別
身長
140未満
Page 39
© NEC Corporation 2014
140以上
通常、説明変数の組合せを考える必要
説明変数の候補を
入れるだけ
性別
体重
運動
身長
140未満
140以上
胴囲
胴囲
体重
野菜
体重
運動
Page 40
© NEC Corporation 2014
通常、「複雑性のつまみ」で調整する必要
ベスト精度
シンプル
複雑
通常、複雑性を1変数で制御
(Lasso、あるいは前半の閾値)
ベスト精度を
出すために、
調整しないと
Page 41
© NEC Corporation 2014
弱
中
強
適度な複雑さを、自動で決定
ベスト精度
シンプル
必要十分な
複雑さを
自動で選択
Page 42
© NEC Corporation 2014
複雑
弱
中
強
調整不要
NECの機械学習
精度
SVM
SVM発明者
(Vladimir Vapnik)
at&t
2002
北米研
異種
混合
北米研
藤巻遼平
機械学習のトップ学会
AISTATS2012
ICML2012
NIPS2013
ICML2014
AISTATS2014
NIPS2014
説明可能性
Page 43
© NEC Corporation 2014
異種混合学習技術の適用分野
商品需要や適正価格など、社会の様々な予測を実現
Page 44
商品需要予測
適正価格予測
電力需要予測
劣化予測
© NEC Corporation 2014
商品需要予測
コンビニ店長の課題
先週の昼帯の
需要を読み間違えると、
売上を見ると、、、
廃棄損失/機会損失 人手発注
勘で、需要予測
が増える
自動発注
ソリューション
ポイント
学習で得られる発注ロジックが
ブラックボックスではなく、
理解でき、納得感がある
Page 45
© NEC Corporation 2014
在
庫
量
廃棄
損失
売り切れ
時間
昼帯
売上 ?個
機会
損失
適正価格予測
中古店 店長の課題
市場価値は、
5万円±1万円
ってとこかな
市場価格を読み間違えると、
差額損失が増える
5万円
買取価格算出
ソリューション
ポイント
スペックの違いによる
(型番、色、メーカなど)
価格差が見える化され、
最終的には、人が
柔軟に判断する事が可能
Page 46
© NEC Corporation 2014
見込み
利益
3万円
損失
買取価格
実際の
価値
2万円
売却価格
本日のお話
前半
後半
システムと機械学習の最先端
ビジネス向け機械学習、事例
ソリューション
AMPLabでの
学習・システム
融合領域の研究紹介
(OCC DP-means)
機械学習
システム
異種
混合
精度と可読性を
有した学習エンジン
事例
※本資料に記載されている会社名、組織名、ソフト名、ロゴなどはそれぞれ企業、組織、団体の商標または登録商標として使用している場合があります。
Page 47
© NEC Corporation 2014
未来に向かい、人が生きる、豊かに生きるために欠かせないもの。
それは「安全」「安心」「効率」「公平」という価値が実現された社会です。
NECは、ネットワーク技術とコンピューティング技術をあわせ持つ類のないインテグレーターとして
リーダーシップを発揮し、卓越した技術とさまざまな知見やアイデアを融合することで、
世界の国々や地域の人々と協奏しながら、
明るく希望に満ちた暮らしと社会を実現し、未来につなげていきます。