Systemlandschaft für Data Scientists Mathias Kemeter Data Scientist SAP Custom Development SAP HANA Big Data Platform Welche Tools gehören in den Werkzeugkoffer eines Data Scientist? © 2013 SAP AG. All rights reserved. Internal 2 SAP Advanced Analytics Landschaft I PA 2.0 Data Science Business (InfiniteInsight) Lumira PAL R SQL HANA Studio ETL Tools © 2013 SAP AG. All rights reserved. IT Internal 3 SAP Advanced Analytics Landschaft II PAL R SQL HANA Studio PA 2.0 • Wiederverwendbare Skripte (HANA & PA 2.0) • Fortgeschrittene Datenaufbereitung • Datenmodellierung • Anwendungsentwicklung • Scripting • Datenexploration • Prediktive Analysen • Visualisierungen (InfiniteInsight) © 2013 SAP AG. All rights reserved. Internal 4 Architekturüberblick R (Lokal) Client Internet Browser Lumira PA 2.0 HANA Studio Repository Server XS Engine R Server SQLScript AFL PAL SAP HANA © 2013 SAP AG. All rights reserved. Internal 5 SAP HANA Studio aus Sicht des Data Scientist Skripting Datenmodellierung Anwendungsentwicklung © 2013 SAP AG. All rights reserved. • Analysen & Berechnungen mit SQLScript und R • Paketierung von Analysen als Stored Procedure/Function • Direkte Verwendung von Algorithmen aus der Predictive Analytics Library (PAL) • Modellierung von logischen Sichten (Information Views) • Ableitung (komplexer) berechneter KPIs ‚on-the-fly‘ • Bereitstellung von aufbereiteten Daten zur weiteren Analyse (z.B. PA 2.0) • Integrierter Anwendungsserver (HANA XS Engine) • Einfache Entwicklung von Webfrontends mit SAP UI5 zur Visualisierung komplexer Zusammenhänge Internal 6 Predictive Analytics Library (PAL) K-means KNN Klassifikation Data Mining ABC Klassifikation Assoziationsanalyse: Marktkorb Entscheidungsmatrizen Regression Vorhersage C4.5 Entscheidungsbaum Link Prediction Performance-optimierte, native Implementierung auf Datenbankebene © 2013 SAP AG. All rights reserved. Internal 7 SAP Predictive Analytics 2.0 Experten-Modus Automatik-Modus Zielgruppe: Statistik-Experten Zielgruppe: Business User Experten-Workbench für feingranulares Parametertuning Integration von R-Bibliotheken Integration von PAL-Algorithmen in HANA HANA Online-Modus zur effizienten Analyse großer Datenmengen Inkludiert Funktionalitäten von SAP Lumira zur Datenexploration Lösungsorientierter Ansatz Automatisierte Erstellung von Vorhersagemodellen Ganzheitliche Unterstützung des Lebenszyklus eines Modells Integration mit SAP HANA SAP Predictive Analytics 2.0 © 2013 SAP AG. All rights reserved. Internal 8 Integration von R in den Analyseprozess Beispielkomponente in PA 2.0: Beispielcode SAP HANA SQLScript: DROP TABLE "spamClassified"; CREATE COLUMN TABLE "spamClassified" LIKE "spamEval" WITH NO DATA; ALTER TABLE "spamClassified" ADD ("classified" VARCHAR(5000)); DROP PROCEDURE USE_SVM; CREATE PROCEDURE USE_SVM (IN train "spamTraining", IN eval "spamEval", OUT result "spamClassified") LANGUAGE RLANG AS BEGIN library(kernlab) model <- ksvm(type~. , data=train, kernel=rbfdot(sigma=0.1)) classified <- predict(model, eval [,(which(names(eval) %in% "type"))]) result <- as.data.frame(cbind(eval, classified)) R END; CALL USE_SVM("spamTraining", "spamEval", "spamClassified") WITH OVERVIEW; SELECT * FROM "spamClassified"; © 2013 SAP AG. All rights reserved. Internal 9 Kurzes Hands-on SAP Predictive Analytics 2.0 © 2013 SAP AG. All rights reserved. Internal 10 Vielen Dank! Mathias Kemeter Data Scientist SAP Custom Development [email protected] +49 151 623 457 60
© Copyright 2024 ExpyDoc