Oracle Advanced Analytics データベース内オプションによる ビッグ・データの分析 Sr. Director Product Management、Data Mining and Advanced Analytics、Charlie Berger [email protected] www.twitter.com/CharlieDataMine 1 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 下記事項は、弊社の一般的な製品の方向性に関する概要を説明 するものです。また、情報提供を唯一の目的とするものであり、い かなる契約にも組み込むことはできません。マテリアルやコード、 機能の提供をコミットメント(確約)するものではなく、購買を決定 する際の判断材料になさらないで下さい。 オラクルの製品に関して記載されている機能の開発、リリース、 および時期については、弊社の裁量により決定されます。 2 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. "ビッグ・データ" "ビッグ・データの分析" 10,000 「文明の誕生から2003年までの間に 作成された情報量は5エクサバイトですが、 現在はこれだけの情報が2日ごとに作成 されており、そのペースは増す一方です」 - Google CEO Eric Schmidt 90%以上が非構造化 データ (単位:10億GB) 作成されたデータ量 2011年に作り出された データ量は1.8兆GB・・・ 5,000 ファイル数はほぼ 50京 以下の迅速な実行能力が求められている データ量は2年ごとに 倍増 データとその関係を理解する データを収集・統合する 反応し、措置を講じる 0 2005 3 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 2010 コンテンツ提供:Cloudera 2015 出典:IDC 2011 構造化データ 非構造化データ オラクルのビッグ・データ・プラットフォーム Hadoop、 R、NoSQL処理向けに最適化 Oracle Big Data Connectors Hadoop オープン・ソースR Oracle NoSQL Database Oracle Big Data Connectors 4 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. DW/OLTP向けに最適化された "システム・オブ・レコード" Oracle Advanced Analytics データ ウェアハウス Oracle Data Integrator アプリケーション ストリーム 取得 Oracle Oracle Exadata 体系化 Oracle Database データベース内分析 Oracle Big Data Appliance 検出と分析 Oracle Exalytics 分析およびインメモリ・ワークロード 向けに最適化 Oracle Enterprise Performance Management Oracle Business Intelligence アプリケーション Oracle Business Intelligence ツール Oracle Endeca Information Discovery 「正しく分析しない限り、データは単なるデータにすぎず、競合 他社にはまだ発見されていないが、自社ではすぐに活用でき るような実用的で有効な情報は得られません」 5 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. データ・マイニングとは? 大量のデータを自動的にふるいにかけ、以前は見えなかっ たパターンを見つけ、価値のある新たなインサイトを見出し、 予測を立てること • もっとも重要な要素の特定(属性の重要性) • 顧客行動の予測(分類) • 価値の予測または見積り(回帰) • ターゲットとなる人物または項目のプロファイルを検出 (ディシジョン・ツリー) • 母集団のセグメント化(クラスタリング) • 不正または"まれな事象"の検出(異常検出) • "バスケット"内に同時に出現する項目の特定(関連性) 6 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. A1 A2 A3 A4 A5 A6 A7 データ・マイニングがもたらすもの R 質の高い情報、価値あるインサイトと予測 携帯電話を頻繁に乗り換えるユーザー 対 忠実な顧客 セグメント#3 IF CUST_MO > 7 AND INCOME < $175K, THEN Prediction = Cell Phone Churner, Confidence = 83% Support = 6/39 インサイトと予測 セグメント#1 IF CUST_MO > 14 AND INCOME < $90K, THEN Prediction = Cell Phone Churner Confidence = 100% Support = 8/39 契約月数 出典:Inspired from Data Mining Techniques:For Marketing, Sales, and Customer Relationship Management、Michael J. A. BerryおよびGordon S. Linoff著 7 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. データ・マイニングがもたらすもの 質の高い情報、価値あるインサイトと予測 携帯電話詐欺 対 忠実な顧客 ? 契約月数 出典:Inspired from Data Mining Techniques:For Marketing, Sales, and Customer Relationship Management、Michael J. A. BerryおよびGordon S. Linoff著 8 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R 干し草の山から針を見つける 通常、干し草 の山は 大きい 一般に針は 小さく、めった にない 9 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 課題:異常の検出 • "異なる"ものを探す • 単独で観測された1 つの測定値は"正常 "に見えるかもしれ ない X1 • 複数の属性を同時 に考慮する X2 • レコードを全体から みると、異常である 可能性がある X3 X4 10 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. X1 X2 X3 X4 データ・マイニングと予測分析 Advanced Analytics向けのユースケース例 適切な顧客を適切なオファーの対象に設定 隠れた顧客セグメントの発見 もっとも収益性の高い販売機会の発見 顧客離れの予測と防止 あらゆる角度から顧客機会を調査 セキュリティと疑わしい活動の検出 顧客との対話での感情の理解 医療ミスの削減と保健の質の向上 ソーシャル・ネットワークにおける影響者の把握 11 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Oracle Advanced Analytics スケーラブルな全社的予測分析を最短期間で提供 おもな機能 データベース内のデータ・マイニング・アルゴ リズムとオープン・ソースのRアルゴリズム SQL、PL/SQL、R言語 スケーラブルなデータベース内のパラレル 実行 ワークフローGUIとIDE 統合データベース・コンポーネント エンタープライズ分析アプリケーションの 実現 12 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Oracle Advanced Analyticsを選ぶ理由 差別化要因となる特徴 エンタープライズ予測分析アプリケーションを 提供する最速の方法 OBIEEおよびSQL問合せを使用する アプリケーションとの統合 パフォーマンスとスケーラビリティ Oracle Databaseのパワーとスケーラビリティを 活用 総所有コストの大幅削減 個別の分析サーバーは不要 13 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Insert Information Protection Policy Classification from Slide 13 Oracle Advanced Analyticsを選ぶ理由 低い総所有コストでスケーラブルなアーキテクチャを実現 従来の分析 Oracle Advanced Analytics データのインポート データ・マイニング・ モデルの"スコアリング" 節約 データの準備 と 変換 • 生産性の非常に高い予測アプリケーション向け 開発環境 • データベース・スコアリング・エンジンからExadata ストレージ層へのSQLマイニング関数の送信 データの準備と 変換 数時間/数日/数週間 14 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. • SQLカーネル内でのデータ・マイニング・アルゴリ ズムをスケーラブルで、ネイティブにパラレル 実行 • データ準備の自動化 • データからインサイトまでの最短パス データ・マイニング・ モデルの構築 データの抽出 • データはデータベース内のまま • 最小のTCO モデルの"スコアリング" 組込みデータの準備 モデルの構築 データの準備 数秒/数分/数時間 • データの重複排除 • 単独分析サーバーの不要化 • スケーラブルで、管理しやすく、安全性が高い Turkcell 通信詐欺対策 「TurkcellはOracle Exadata上で100テラバイトの圧縮データ(非圧縮状 目的 プリペイド・カードによる不正 - 数百万ドル/年 膨大なデータを極めて高速に取捨選択、不正に 対応、時は金なり 態では1ペタバイトの生データ)を管理しています。Oracle Advanced AnalyticsオプションのコンポーネントであるOracle Data Miningを使用 することで、他のどんなツールよりも迅速かつ容易に大量の顧客デー タと通話記録データを分析し、不正な電話使用を検出し、根絶に努め ることができます」 Turkcell İletişim Hizmetleri A.Ş.、Manager、Hasan Tonguç Yılmaz ソリューション 毎日100億件の通話記録データを監視 1PBに対する準備にSQLを利用 データ移動のプロセスは速度が遅いため、Turkcellの ITはモデルをデータベース内に構築してデプロイ Exadata上のOracle Advanced Analyticsは極めて 高速。アナリストは不正パターンをほぼ即座に検出 可能 Oracle Advanced Analytics のデータベース内不正モデル Oracle Exadata 15 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Insert Information Protection Policy Classification from Slide 12 Oracle Data Miner 11g Release 2のGUI 異常検出 - シンプルな概念的ワークフロー "正常な"レコードを基準に モデルを適用して"異なる" 可能性でソート 16 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 不正予測のデモ drop table CLAIMS_SET; exec dbms_data_mining.drop_model('CLAIMSMODEL'); create table CLAIMS_SET (setting_name varchar2(30), setting_value varchar2(4000)); insert into CLAIMS_SET values ('ALGO_NAME','ALGO_SUPPORT_VECTOR_MACHINES'); insert into CLAIMS_SET values ('PREP_AUTO','ON'); commit; POLICYNUMBER -----------6532 2749 3440 654 12650 begin dbms_data_mining.create_model('CLAIMSMODEL', 'CLASSIFICATION', 'CLAIMS', 'POLICYNUMBER', null, 'CLAIMS_SET'); end; / 自動化された月次"アプリケーション"!次を追 -- Top 5 most suspicious fraud policy holder claims select * from (select POLICYNUMBER, round(prob_fraud*100,2) percent_fraud, rank() over (order by prob_fraud desc) rnk from (select POLICYNUMBER, prediction_probability(CLAIMSMODEL, '0' using *) prob_fraud from CLAIMS where PASTNUMBEROFCLAIMS in ('2to4', 'morethan4'))) where rnk <= 5 order by percent_fraud desc; 17 R Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Insert Information Protection Policy Classification from Slide 13 PERCENT_FRAUD RNK ---------------------64.78 1 64.17 2 63.22 3 63.1 4 62.36 5 加するだけ: Create View CLAIMS2_30 As Select * from CLAIMS2 Where mydate > SYSDATE – 30 例 OBI EEレポートおよびダッシュボードの質の高い情報 ODMの予測と可能性 OAAの予測と可能性が がデータベース内で データベース内で使用 できるため、Oracle BI 使用できるため、 Oracle BI EEなどのツ EEなどのツールを使用 ールで使用可能 したレポート作成が 可能 18 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 金融部門/会計/経費 異常検出 シンプルな不正検出手法 - 1クラスSVM より高度な不正検出手法 - クラスタリング+1クラスSVM 19 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Oracle Advanced Analytics R 詳細 シングル・レコードにその場で新しいデータ (コール・センターから取得したデータなど)を適用 Select prediction_probability(CLAS_DT_1_1, 'Yes' USING 7800 as bank_funds, 125 as checking_amount, 20 as credit_balance, 55 as age, 'Married' as marital_status, 250 as MONEY_MONTLY_OVERDRAWN, 1 as house_ownership) from dual; ソーシャル・メディア コール・センター 反応する可能性: 支店 アドバイスの取得 R モバイル Web 電子メール 20 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 予測アプリケーションの実現 Oracle Advanced Analyticsを使用したアプリケーションの例 • Human Capital Management – 労働力の予測 - 従業員の離職とパフォーマンスの予測、"What if" 分析 • CRM – 販売予測エンジン - 販売機会、販売製品、販売数、タイミングなどの予測 • サプライ・チェーン・マネジメント – 支出の分類 - 経費申請における違反や異常のリアルタイム・フラグ付け • ID管理 – Oracle Adaptive Access Manager—リアルタイム・セキュリティと不正分析 • 小売分析 – Oracle Retail Customer Analytics — "ショッピング・カート分析"と次善の提案 • カスタマ・サポート – Predictive Incident Monitoring(PIM) - Oracle Database顧客に対するカスタマ・サービス • 製造 – チップ設計における応答曲面モデリング • オラクルの業種別データ・モデルの予測機能 – 通信データ・モデル - 顧客の解約予測、セグメント化、プロファイリングなどを実行 – 小売データ・モデル - ロイヤルティとマーケットバスケット分析の実行 – 航空会社データ・モデル - 高頻度利用者の分析とロイヤルティの分析の実行 21 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R オラクルの通信業界データ・モデル スケーラブルな全社的予測分析を最短期間で提供 OAAのクラスタリングと予測をデー タベース内でOBIEE用に利用可能 22 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Business Intelligenceの統合 幅広いデータベース内SQL、R予測分析、グラフィックの統合 顧客行動を予 想する予測モ デルをデータ ベース内に 構築 OBIEEに統合さ れた空間マッピ ングで位置を 表示 将来的に価値が高いまたは非常 に高い顧客となる"可能性がもっと も高い"顧客 23 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Oracle BI EEとの統合 Oracle Data Miningの結果をOracle BI EE 管理者が利用可能 エンドユーザーに表示する結果 をOracle BI EEに定義 24 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 通信業界の例 セグメント、クラスタ、ルール、詳細へのドリルスルー • 顧客をプロファイルや クラスタにセグメント化 し、"得意客"になりそう な顧客や、頻繁な乗り 換えや不正行為をしそ うな顧客を事前予防的 に管理 • 個別のレコード、 予測、プロファイルの 詳細に対するドリル スルー 25 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 医療業界の例 リスクの高い要因、詳細へのガイド付きドリルスルー • 数年間の患者 の入院履歴と請 求額から死亡の 恐れがもっとも 高い患者を予測 • OBI EEを使用し て、OAAモデル のインサイトと予 測を選択し、オ プションの詳細ド リルスルー機能 を備えた対話型 のダッシュボー ドを定義 26 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Fusion HCMの予測分析 予測分析の組込み Oracle Advanced Analyticsに事前インストール された予測分析により、離職しそうな従業員、 おもな理由、期待される実績、リアルタイムの "What-If"分析を表示 27 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 従業員の離職予想に関連 する要因 28 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Oracle Data MinerのGUI SQL Developer 3.2の拡張機能 - OTNから無料でダウンロード可能 使いやすさ – データ分析用のOracle Data Miner GUI – データの調査 - 新しいインサイトの獲得 – 分析手法に対する"ワークフロー"パラダイム 高性能 – さまざまなアルゴリズムとデータ変換 – 100%データベース内で実行 – データ・マイニング・モデルの構築、評価、適用 自動化とデプロイ – 自動化用SQLスクリプトの生成とデプロイ – 分析ワークフローの共有 29 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Oracle Data MinerのGUI Oracle Data Minerノード - 抜粋 表とビュー 変換 データ調査 モデリング テキスト 30 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R 保険 "保険を購入しそうな顧客"とそのプロファイルの特定 OAAワークフローが分析プロセスを 捕捉してデプロイ用のSQLコードを 生成 31 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R Oracle Advanced Analytics 非構造化データのデータ・マイニング 非構造化("テキスト") データのマイニング モデルにはテキストと コメントを含む ドキュメントのクラスタ リングと分類 Oracle Textを使用した 非構造化テキストの 前処理 32 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Exadata+Data Mining 11g Release 2 データ・マイニング・モデルの"スコアリング"をストレージに送信 高速 SQL条件とOAAモデルをストレージ・レベルに送信して実行 例:乗り換えそうな米国顧客の検出 select cust_id from customers where region = ‘US’ and prediction_probability(churnmod,‘Y’ using *) > 0.8; 33 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R Oracle Advanced Analytics 幅広いデータベース内のデータ・マイニングと統計関数 データの理解と視覚化 – サマリー統計と記述統計 – ヒストグラム、散布図、箱ひげ図、棒グラフ – Rグラフィックス:3Dプロット、リンク・プロット、特殊なRグラフ・タイプ – クロス集計 – 相関テスト(t検定、ピアソン、ANOVA) – 選択されたBase SASと同等機能 データの選択、準備、変換 – 結合、表、ビュー、データ選択、データ・フィルタ、SQL時間枠、複数 スキーマ – サンプリング手法 – コード変更、値の欠落 – 集計 – 空間データ – RからSQLへの透過性とプッシュ・ダウン 分類モデル – ロジスティック回帰(GLM) – Naive Bayes – ディシジョン・ツリー – サポート・ベクター・マシン – ニューラル・ネットワーク(NN) 回帰モデル – 重回帰(GLM) – サポート・ベクター・マシン 34 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. クラスタリング – 階層型k-means – 直交パーティショニング – 期待値の最大化 異常検出 – 特殊なケースのサポート・ベクター・マシン(1クラスSVM) 対応付け/マーケットバスケット分析 – アプリオリ・アルゴリズム 特徴選択と特徴削減 – 属性評価(最小記述長) – 主成分分析(PCA) – 非負行列因子分解 – 特異値の分解 テキスト・マイニング – ほとんどのOAAアルゴリズムが非構造化データ(顧客のコメン ト、電子メール、要約など)をサポート トランザクション・データ – ほとんどのOAAアルゴリズムでトランザクション・データ(購買 トランザクション、長期的な繰り返し測定)をサポート Rパッケージ - オープン・ソースの実行機能 – RからSQLへの透過性や組込みRモードを使用して、データ ベース・プロセスの一部として、幅広いR CRANパッケージを 実行可能 Oracle Advanced Analytics R SQLデータ・マイニング・アルゴリズム 問題 アルゴリズム 適用範囲 分類 ロジスティック回帰(GLM) ディシジョン・ツリー Naive Bayes サポート・ベクター・マシン 従来からの統計手法 人気/規則/透明性 組込みアプリケーション 範囲が広い/狭いデータ/テキスト 回帰 重回帰(GLM) サポート・ベクター・マシン 従来からの統計手法 範囲が広い/狭いデータ/テキスト 1クラスSVM ターゲット・フィールド例の不足 異常検出 属性評価 最小記述長(MDL) A1 A2 A3 A4 A5 A6 A7 相関ルール アプリオリ 階層型k-means 階層型O-Cluster クラスタリング 特徴抽出 非負行列因子分解 F1 F2 F3 F4 35 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 属性削減 有効なデータの識別 データ・ノイズの低減 マーケットバスケット分析 リンク分析 製品のグループ化 テキスト・マイニング 遺伝子およびタンパク質分析 テキスト分析 特徴削減 Oracle Advanced Analytics データベース内のSQL統計 SQL統計とSQL分析(無料) • ランキング関数 – rank、dense_rank、cume_dist、percent_rank、ntile • ウィンドウ集計関数 (移動と累積) – Avg、sum、min、max、count、variance、stddev、 first_value、last_value • LAG/LEAD関数 – オフセットを使用した、行から行への直接参照 • レポート集計関数 – Sum、avg、min、max、variance、stddev、count、 ratio_to_report • 統計的集計 – 相関、線形回帰ファミリ、共分散 • 線形回帰 – 一連の数字のペアに対する最小二乗法回帰直線の フィッティング – COVAR_POP、COVAR_SAMP、CORR関数との組合せが 多い • 記述統計 – DBMS_STAT_FUNCS:表の数値列を集計し、総数、最小値、最大値 、範囲、平均値、中央値、最頻値、分散、標準偏差、変位置、+/- n シグマ値、上位/下位の5つの値を返す • 相関 – ピアソンの相関係数、スピアマンとケンドール(いずれもノンパラメト リック) • クロス集計 – 比率統計による改善:カイ二乗、ファイ係数、クラメールのV、 コンティンジェンシー係数、コーエンのカッパ • 仮説検定 – スチューデントt検定、F検定、二項検定、ウィルコクソンの符号順位 検定、カイ二乗、マン・ホイットニー検定、コルモゴロフ-スミルノフ検 定、一元配置ANOVA • 分散フィッティング – コルモゴロフ-スミルノフ検定、アンダーソン-ダーリング検定、 カイ二乗検定、正規分布、一様分布、ワイブル分布、指数分布 注:統計分析とSQL分析が含まれるのは、Oracle Database Standard EditionとEnterprise Editionです。 36 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 独立したサンプルのt検定 (合併分散) CUST_INCOME_LEVEL範囲内に収まるMENとWOMENに対して、AMOUNT_SOLDの 平均値を比較する問合せ 取得したt値と関連する両側有意性を返す SELECT substr(cust_income_level,1,22) income_level, avg(decode(cust_gender,'M',amount_sold,null)) sold_to_men, avg(decode(cust_gender,'F',amount_sold,null)) sold_to_women, stats_t_test_indep(cust_gender, amount_sold, 'STATISTIC','F') t_observed, stats_t_test_indep(cust_gender, amount_sold) two_sided_p_value FROM sh.customers c, sh.sales s WHERE c.cust_id=s.cust_id GROUP BY rollup(cust_income_level) ORDER BY 1; SQL Plus 37 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. オラクルの戦略的R製品 R環境に基づくエンタープライズ・レベルの高度な分析を提供 Oracle R Distribution – 無料でダウンロード可能、Oracle Big Data Appliance(BDA)に事前インストール済み、Oracle Linuxにバンドル – 線形代数パフォーマンスの向上:インテルのマス・カーネル・ライブラリ、AMDのCore Math Library、SUN Solaris、 IBM AIX – Oracle R Enterprise、Big Data Appliance、Oracle Linuxの顧客に対するエンタープライズ・サポート – オープン・ソースRのバグ修正と拡張に貢献 Oracle R Enterprise – Rからデータベース内データへの透過的アクセス – データベースに管理されたRエンジンを介した組込みRスクリプトの実行 – 統計エンジン Oracle R Connector for Hadoop(Oracle Big Data Connectorsに含まれる) – BDA上のOracle Hadoop ClusterとOracle以外のHadoopクラスタに対するRインタフェース – HDFS、データベース、ファイル・システム内のデータに対するアクセスと操作 – Rを使用したMapReduce関数の作成と通常のRインタフェースを介した実行 ROracle – OCIベースのRに対するオープン・ソースのOracle Databaseインタフェース・ドライバ – オラクルによる保守 - ゼロから再構築、多数のバグ修正と最適化 38 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Oracle R Enterpriseの仕組み ORE計算エンジン R Oracle R EnterpriseはRとデータベースを緊密に統合し、Rコードによるデータ操作 を完全に管理 – Rコードへのデータ提供には常にデータベースが関与 – Oracle R EnterpriseはOracle Database内で稼働 Oracle R Enterpriseはデータの移動と重複を解消し、セキュリティを維持し、 生データから新しい情報までの待機時間を最小化する 3つのORE計算エンジン – Oracle R Enterpriseはオープン・ソースRエンジンとOracleデータベース間に3種類のインタフェースを 提供 39 1. Oracle R Enterprise(ORE)透過層 2. Oracle統計エンジン 3. 組込みR Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Oracle Advanced Analytics Rグラフィックスからデータベース・データへの直接アクセス R> boxplot(split(CARSTATS$mpg, CARSTATS$model.year), col = "green") 時間とともにMPGが 増加 40 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R Oracle Advanced Analytics Rエンタープライズ計算エンジン 1 Rエンジン 3 2 SQL その他の Rパッケージ Oracle Databases ユーザー表 R Oracle R Enterpriseパッケージ 結果 デスクトップ上のユーザーRエンジン R ?x オープン・ソース データベース計算エンジン • スケーラブルなデータベース内実行のため、R-SQL • 大規模データセットに対するスケーラビリティ 透過フレームワークがR関数をインターセプト • データ変換、統計関数、高度な分析用の関数を インターセプト • グラフィカルな結果とフロー制御を標準Rと同様に インタラクティブに表示 • Rスクリプト全体をデータベース実行用に送信 41 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. • 表、ビュー、外部表とDBリンク経由のデータに 対するアクセス • データベースのパラレルSQL処理を利用 • 新規/既存のデータベース内の統計機能および データ・マイニング機能を利用 Rエンジン 結果 R その他の Rパッケージ Oracle R Enterpriseパッケージ Oracle DBから起動されたRエンジン • データベースは複数のRエンジンを起動して、 データベース管理の並列処理を実現 • 起動したRエンジンに対する効率的なデータ転送 • MapReduce方式のアルゴリズムとアプリケーショ ンをエミュレート • Rスクリプトの"完全自動"実行 Oracle Advanced Analyticsの例 1つのRスクリプト内で3種類すべてのOREエンジンを使用 42 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 新機能 - Oracle Data Miner 4.0 - Oracle Advanced Analytics 12c - Oracle R Enterprise 1.3 R 43 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Oracle Advanced Analytics 新機能サマリー Oracle Advanced Analytics 12c – 新しいSQLデータ・マイニング・アルゴリズム(期待値の最大化、PCA、特異値の分解、 テキスト・マイニング、その他のアルゴリズムの改善) – 予測的SQL問合せ - SQL問合せ内で自動的に構築、チューニング、適用 Oracle Data Miner/SQL Developer 4.0 – 新しいグラフ・ノード(箱ひげ図、散布図、棒グラフ、ヒストグラム) – SQL問合せノード+Rスクリプトの統合 – デプロイ用SQLスクリプトの自動生成 Oracle Advanced Analytics/ORE 1.3 – ニューラル・ネットワーク – OBIEEとの統合の改善 44 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. SQL Developer/Oracle Data Miner 4.0 プレビュー Oracle Data MinerのGUI – 新しいGraphノード 散布図、折れ線グラフ、 棒グラフ、箱ひげ図、ヒストグラム Group_byのサポート 45 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R SQL Developer/Oracle Data Miner 4.0 プレビュー Oracle Data Miner GUIの 新しいノード – 新しいSQL Queryノード 任意の形式の問合せ/変換/統計 を使用可能 フロー内のどこでも挿入可能 Rスクリプトを統合可能 – 新しいPredictive Query ノード 46 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R SQL QueryノードによるRスクリプトの統合 47 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R SQL QueryノードによるRスクリプトの統合 48 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R SQL Developer/Oracle Data Miner 4.0 プレビュー メソドロジー全体を1つのSQL スクリプトとしてデプロイ – より迅速なデプロイ 49 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R 12c 新機能 サーバーの新機能 R 新しいアルゴリズム – 期待値の最大化(EM)クラスタリング データの密度モデルを構築する確率論的クラスタリング・アルゴリズム 各種ドメイン(例:販売取引と顧客層、構造化データとテキスト/その他の非構造化データ)で発生したデータに対 するアプローチの改善 期待値の最大化アルゴリズムが、データ・モデリングに必要なクラスタ数の最適値を 自動的に決定 主成分分析(PCA) 強力な特徴抽出手法がSVDに基づいて直交線形投影を使用し、データの根底にあ る分散を捕捉 – 特異値の分解(SVD) 非常に大きい数値データセット(RFIDなどのセンサーから取得したデータなど)で、非 常に大きいデータ・サイズ(行と属性の両方)を実現するスケーラビリティ 50 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 12c 新機能 サーバーの新機能 テキスト・マイニング・サポートの拡張 – 入力にテキスト・データが含まれる場合のデータ・マイニング・プロセス (モデルの構築、デプロイ、スコアリング)を大幅に簡便化 51 テキスト・データに対する手動の前処理は不要 テキスト索引の作成は不要 データ型サポートの追加:CLOB、BLOB、BFILE 文字データはカテゴリ値またはテキストとして指定可能 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R 12c 新機能 サーバーの新機能 R アルゴリズムの拡張 – 一般化線形モデル(GLM)による自動特徴選択/生成の追加 特徴生成では一般化線形モデルが非線型項(3乗項まで)を使用することで、 より強力なモデルと高い透過性を実現 – – – – 52 高いスケーラビリティとパフォーマンス(数千から数十万までの入力属性に対応) ディシジョン・ツリー・アルゴリズムによるネストされたデータとテキスト・マイニングの サポート すべての分類モデルと回帰モデルに対する予測細目 文字データはカテゴリ値またはテキストとして指定可能 クラスタの細目関数 CLUSTER_DISTANCEは各行からクラスタ重心までの距離を返す Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 12c 新機能 サーバーの新機能 予測的問合せ – SQL問合せ内でODMモデルを即座に 構築/適用 分類と回帰 – 対象が複数ある 問題 (ネストした) クラスタリングの問合せ 異常の問合せ 特徴抽出の問合せ OAAは強力なSQL問合せを介したパーティション によって、自動的に複数の異常検出モデル "Grouped_By"と"scores"を作成 53 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R Select cust_income_level, cust_id, round(probanom,2) probanom, round(pctrank,3)*100 pctrank from ( select cust_id, cust_income_level, probanom, percent_rank() over (partition by cust_income_level order by probanom desc) pctrank from ( select cust_id, cust_income_level, prediction_probability(of anomaly, 0 using *) over (partition by cust_income_level) probanom from customers ) ) where pctrank <= .05 order by cust_income_level, probanom desc; Oracle R Enterprise 1.3 新機能 R 拡張機能と新機能 – 新しいOREパッケージによる高パフォーマンスのデータベース内予測アルゴリズム(ORE) Oracle Data Mining SQL APIアルゴリズム/データの自動準備/スコアリングなどに対する 統合の強化 – Rモデルに対するExadataストレージ層でのスコアリング(ORE) glm、glm.nb、hclust、kmeans、lm、multinom、nnet、randomForest、rpart – 包括的なサンプリング手法(ORE) 簡易、系統、層化、クラスタ、割当て、偶然 54 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Oracle R Enterprise 1.3 新機能 拡張機能と新機能 – Rオブジェクトおよびモデルのデータベースへの – – – – 55 永続化 インタフェースによる、アプリケーション(ORE)の バックエンドとWeb UIインフラストラクチャへの OREの組込み データベースでのRオブジェクトの永続化 Rアルゴリズムのデータベース内スコアリング OBIEEとの統合の改善 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R Oracle R Enterprise 1.3 新機能 時系列のサポート – 大量の時系列データに対する集計と移動窓分析 Oracleデータ型のDATE、TIMESTAMP、TIMESTAMP WITH TIME ZONE、TIMESTAMP WITH LOCAL TIME ZONEに 対するサポート 日付計算、集計とパーセンタイル、移動窓の計算 – 一般的なRの時系列予測パッケージに対する統合の 標準提供 fts、tseries、xts、zooパッケージ、forecastおよびa rimaパッケージ 56 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. R OAAは以下のように考えることができます・・・ Oracle Advanced Analytics(SQLとR) 従来のSQL – "ユーザー駆動"の問合せ – 自動化されたナレッジ検査、モデルの構築とデプロイ – 専門知識 – マイニング/分析するデータを"正しく"収集するための 専門知識 – すべての"ルール"の定義と管理が必要 • 分析的な"動詞" SQLによる問合せ – SELECT – DISTINCT – AGGREGATE – WHERE – AND OR – GROUP BY – ORDER BY – RANK 57 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. + – PREDICT – DETECT – CLUSTER – CLASSIFY – REGRESS – PROFILE – IDENTIFY FACTORS – ASSOCIATE R 詳細情報 [email protected]まで電子メー ルを送ってください。"お気に入り"リンク を送ります。 OAA概要: OAAデモ プレゼンテーションのリンク - Oracle Advanced Analyticsデータベース内オプションによるビッグ・データの 分析 ODM Blog entry with YouTube-like recorded of OAA/ODM presentation and several "live" demos YouTube OAA Oracle Data Miner Market Basket Analysis preso & demo YouTube OAA presentation & demo on Predictive Analytics (Classification)(保険ユースケース) 入門編 Getting Started w/ ODM blog entry New OAA/Oracle Data Mining 2-Day Instructor Led Oracle University course OAA/Oracle Data Mining Oracle by Examples (free) Tutorials(OTN) Free Test Drive of Oracle Advanced Analytics (Oracle Data Miner GUI) on the Amazon Cloud SQL Developer Days Virtual Event w/ downloadable Virtual Machine (VM) images of Oracle Database + ODM/ODMr and e-training for Hands on Labs OAA/Oracle R Enterprise (free) Tutorial Series(OTN) その他のリソース OTNのOracle Advanced Analytics Optionページ OTNのOAA/Oracle Data Miningページ、ODM Documentation、ODM Blog OAA/Oracle R Enterprise page on OTN、ORE Documentation、ORE Blog Oracle SQL based Basic Statistical functions(OTN) 58 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. Insert Information Protection Policy Classification from Slide 13 59 Copyright © 2012, Oracle and/or its affiliates.All rights reserved. 60 Copyright © 2012, Oracle and/or its affiliates.All rights reserved.
© Copyright 2024 ExpyDoc