Sparkを生んだAMPLabと ビジネス向け機械学習 2014年11月6日 日本電気株式会社 情報・ナレッジ研究所 中台慎二 Cloudera World Tokyo 2014 自己紹介 中台 慎二 2003 NEC入社 2012~13 UC Berkeley 客員研究員 AMPLab 機械学習、分散システム/DB Prof. Michael Franklin 2014現在 情報・ナレッジ研究所 主任 (データ&テキストマイニング) Page 2 © NEC Corporation 2014 Sparkとは? ▐ UC Berkeley AMPLabで開発された分散処理基盤 インメモリで高速 急速に普及中 “Apache Hadoop” “Apache Spark” Visiting Scholar 商用サポート Google Trends (2014年10月現在) Page 3 © NEC Corporation 2014 本日のお話 前半 AMPLab システムと機械学習の最先端 後半 ビジネス向け機械学習、事例 ソリューション 機械学習 システム Page 4 © NEC Corporation 2014 プラットフォームからのトータルなサポート 今後の協業を発表 YARN Page 5 © NEC Corporation 2014 システム 2014/10/14 製品 ソリューション SI サポート トレーニングなど 前半 AMPLab システムと機械学習の最先端 ソリューション 機械学習 システム Page 6 © NEC Corporation 2014 システムと機械学習の最先端の融合 シリコンバレー企業 (Google, Facebook, Amazon, etc.) ニーズ Prof. Michael Jordan 機械学習のトップ BDAS Prof. David Patterson Prof. Randy Katz Prof. Scott Shenker Prof. Michael Franklin Prof. Ion Stoica システム系のトップ Berkeley Data Analytics Stack MLBase Spark Streaming GraphX BlinkDB Spark SQL Spark Tachyon Page 7 © NEC Corporation 2014 HDFS Mesos YARN 前半で紹介するお話: 融合研究の一例 前半 AMPLab システムと機械学習の最先端 BDAS/Sparkチューニングの話 両面からの研究の具体例 (OCC DP-means) ソリューション 最先端のエッセンス 機械学習 課題 解決 システム 学習の並列化 X. Pan, J. Gonzalez, S. Jegelka, T. Broderick, M. Jordan, NIPS 2013 Page 8 © NEC Corporation 2014 OCC DP-Meansの概要 課題 K-means (クラスタリング) 欠点: クラスタ数を 決める必要 学習 DP-means システム 欠点: 逐次実行 である必要 解決策 DP-means 利点: 自動で決まる OCC DP-means (楽観的並行性制御) 利点: 並列化可能 RDBの ACIDの議論が関係 Page 9 © NEC Corporation 2014 学習エンジン利用時の課題 ▐ パラメータを振るのが大変! ▐ 例: 顧客をクラスタリングしたい K-meansを使おう! クラスタ数Kは、いくつにしよう? 3クラスタ? Page 10 © NEC Corporation 2014 4クラスタ? K-Meansでは、予めクラスタ数を決める必要 K=3 Page 11 © NEC Corporation 2014 K-Meansでは、予めクラスタ数を決める必要 K=3 Page 12 © NEC Corporation 2014 K-Meansでは、予めクラスタ数を決める必要 K=3 Page 13 © NEC Corporation 2014 K=4 K-Meansでは、予めクラスタ数を決める必要 K=3 K=4 自動で決まる! Bayesian Nonparametricsだと Page 14 © NEC Corporation 2014 DP-means: 最先端のエッセンスをシンプルに導入 手動 速い クラスタ数 K-means 自動 DP-means σ→0 確率的 非確率的 ベイズ 混合ガウス σ 精度 PRML 9.3.2 B. Kulis and M. Jordan, ICML2012 Page 15 © NEC Corporation 2014 混合 ディリクレ過程 σ 最先端学会でブーム (Bayesian Nonparametrics) DP-meansでは、離れていたら独立 ▐ 独立した点の周りに、 他の点が集まりクラスタ化 解決 Page 16 © NEC Corporation 2014 DP-meansでは、離れていたら独立 ▐ 独立した点の周りに、 他の点が集まりクラスタ化 >閾値 l 解決 Page 17 © NEC Corporation 2014 DP-meansでは、離れていたら独立 ▐ 独立した点の周りに、 他の点が集まりクラスタ化 解決 Page 18 © NEC Corporation 2014 DP-meansでは、離れていたら独立 ▐ 独立した点の周りに、 他の点が集まりクラスタ化 解決 Page 19 © NEC Corporation 2014 並列化の課題 ▐ そのままSparkで実装した時の課題 中心から、l離れた点が複数独立 中心というグローバル情報を、 別々に更新 グローバル情報 Spark RDD Page 20 © NEC Corporation 2014 閾値 l 並列化の課題 ▐ そのままSparkで実装した時の課題 中心から、l離れた点が複数独立 中心というグローバル情報を、 別々に更新 グローバル情報 Spark RDD Page 21 © NEC Corporation 2014 閾値 l 並列化の課題 ▐ そのままSparkで実装した時の課題 中心から、l離れた点が複数独立 中心というグローバル情報を、 別々に更新 グローバル情報 Spark RDD Page 22 © NEC Corporation 2014 閾値 l 並列化の課題 ▐ そのままSparkで実装した時の課題 中心から、l離れた点が複数独立 中心というグローバル情報を、 別々に更新 グローバル情報 Spark RDD Page 23 © NEC Corporation 2014 閾値 l 楽観的に並行性制御 グローバル情報 一旦受け入れ、 後で妥当性検証 閾値 l Spark RDD Page 24 © NEC Corporation 2014 楽観的に並行性制御 グローバル情報 一旦受け入れ、 後で妥当性検証 閾値 l Spark RDD Page 25 © NEC Corporation 2014 楽観的に並行性制御 グローバル情報 一旦受け入れ、 後で妥当性検証 閾値 l Spark RDD この時期 Prof. Alan Fekete がAMPLabに数か月滞在 (Serializable Snapshot Isolationの提案者) Postgres 9.1に採用され、 Snapshot Isolationが、 真にSERIALIZABLEに Page 26 © NEC Corporation 2014 実証実験の概要 購買データなど 独自セグメント DP-means 分析エンジン AMPLab Spark1.1.0 YARN 100台 NEC Cloud IaaS Page 27 © NEC Corporation 2014 CDH 4.7 実証実験の結果 ▐ 真のクラスタ数に一致しやすいが、閾値に依存 10クラスタから、データ生成 学習で、データからクラスタ再現 実験結果は、画面のみ Page 28 © NEC Corporation 2014 後半へのつなぎ 自動で決まるクラスタ数は、 真のクラスタ数に、必ず一致するか? (沢山のデータがあった場合) ※フルベイズで、閾値相当のパラメータを更新しても Dirichelet Process (DP-meansの原型) NO J.W. Miller, NIPS2013 異種 混合 Page 29 © NEC Corporation 2014 Yes R. Fujimaki, AISTATS2012 後半 ビジネス向け機械学習の事例 ソリューション 機械学習 システム Page 30 © NEC Corporation 2014 学習エンジンのマップ 精度 SVM DeepLearning 異種 混合 決定木 回帰分析 説明可能性 Page 31 © NEC Corporation 2014 学習エンジンの特徴に応じた使い分け ▐精度 目じりの間隔と、 眉の長さの比が、 ○×以上だから、、、 画像認識など (判定理由不要) Page 32 © NEC Corporation 2014 ▐説明可能性(可読性) ○×分析の結果、 、、、 が重要と思われます ビジネス分析 (レポーティングが重要) 可読性のある学習1: 決定木 ▐例: 慎重と体重から、生活習慣病リスク ※説明のための疑似データ 身長 リスクあり 体重 以上 未満 150 100 体重 なし 以上 未満 100 150 身長 Page 33 © NEC Corporation 2014 なし あり 可読性のある学習2 : 回帰分析 ▐例 生活習慣病の発症率= 5×体重 ー3× + 運動日数 +2×年齢 ー1× + 野菜を食べる 回帰係数 ※説明のための疑似データ Page 34 © NEC Corporation 2014 精度 学習エンジンのマップ 異種混合 SVM 異種 DeepLearning 混合 決定木 回帰分析 説明可能性 Page 35 © NEC Corporation 2014 決定木の各葉に回帰式 生活習慣病 ~ 成人病 性別 体重 運動 身長 140未満 140以上 胴囲 野菜 胴囲 体重 体重 野菜 運動 ※説明のための疑似データ Page 36 © NEC Corporation 2014 精度比較 (回帰) ▐ データ: bank32nh(8192サンプル/32次元) 0.8 誤差 (RMSE) 0.78 0.7 0.67 0.6 Page 37 © NEC Corporation 2014 回帰木 SVR 0.68 異種 混合 通常、説明変数の組合せを考える必要 説明変数の候補を 入れるだけ Page 38 © NEC Corporation 2014 通常、説明変数の組合せを考える必要 説明変数の候補を 入れるだけ 性別 身長 140未満 Page 39 © NEC Corporation 2014 140以上 通常、説明変数の組合せを考える必要 説明変数の候補を 入れるだけ 性別 体重 運動 身長 140未満 140以上 胴囲 胴囲 体重 野菜 体重 運動 Page 40 © NEC Corporation 2014 通常、「複雑性のつまみ」で調整する必要 ベスト精度 シンプル 複雑 通常、複雑性を1変数で制御 (Lasso、あるいは前半の閾値) ベスト精度を 出すために、 調整しないと Page 41 © NEC Corporation 2014 弱 中 強 適度な複雑さを、自動で決定 ベスト精度 シンプル 必要十分な 複雑さを 自動で選択 Page 42 © NEC Corporation 2014 複雑 弱 中 強 調整不要 NECの機械学習 精度 SVM SVM発明者 (Vladimir Vapnik) at&t 2002 北米研 異種 混合 北米研 藤巻遼平 機械学習のトップ学会 AISTATS2012 ICML2012 NIPS2013 ICML2014 AISTATS2014 NIPS2014 説明可能性 Page 43 © NEC Corporation 2014 異種混合学習技術の適用分野 商品需要や適正価格など、社会の様々な予測を実現 Page 44 商品需要予測 適正価格予測 電力需要予測 劣化予測 © NEC Corporation 2014 商品需要予測 コンビニ店長の課題 先週の昼帯の 需要を読み間違えると、 売上を見ると、、、 廃棄損失/機会損失 人手発注 勘で、需要予測 が増える 自動発注 ソリューション ポイント 学習で得られる発注ロジックが ブラックボックスではなく、 理解でき、納得感がある Page 45 © NEC Corporation 2014 在 庫 量 廃棄 損失 売り切れ 時間 昼帯 売上 ?個 機会 損失 適正価格予測 中古店 店長の課題 市場価値は、 5万円±1万円 ってとこかな 市場価格を読み間違えると、 差額損失が増える 5万円 買取価格算出 ソリューション ポイント スペックの違いによる (型番、色、メーカなど) 価格差が見える化され、 最終的には、人が 柔軟に判断する事が可能 Page 46 © NEC Corporation 2014 見込み 利益 3万円 損失 買取価格 実際の 価値 2万円 売却価格 本日のお話 前半 後半 システムと機械学習の最先端 ビジネス向け機械学習、事例 ソリューション AMPLabでの 学習・システム 融合領域の研究紹介 (OCC DP-means) 機械学習 システム 異種 混合 精度と可読性を 有した学習エンジン 事例 ※本資料に記載されている会社名、組織名、ソフト名、ロゴなどはそれぞれ企業、組織、団体の商標または登録商標として使用している場合があります。 Page 47 © NEC Corporation 2014 未来に向かい、人が生きる、豊かに生きるために欠かせないもの。 それは「安全」「安心」「効率」「公平」という価値が実現された社会です。 NECは、ネットワーク技術とコンピューティング技術をあわせ持つ類のないインテグレーターとして リーダーシップを発揮し、卓越した技術とさまざまな知見やアイデアを融合することで、 世界の国々や地域の人々と協奏しながら、 明るく希望に満ちた暮らしと社会を実現し、未来につなげていきます。
© Copyright 2024 ExpyDoc