Short Presentation Title

Systemlandschaft für Data Scientists
Mathias Kemeter
Data Scientist
SAP Custom Development
SAP HANA Big Data Platform
Welche Tools gehören in den Werkzeugkoffer
eines Data Scientist?
© 2013 SAP AG. All rights reserved.
Internal
2
SAP Advanced Analytics Landschaft I
PA 2.0
Data Science
Business
(InfiniteInsight)
Lumira
PAL
R
SQL
HANA
Studio
ETL
Tools
© 2013 SAP AG. All rights reserved.
IT
Internal
3
SAP Advanced Analytics Landschaft II
PAL
R
SQL
HANA
Studio
PA 2.0
•
Wiederverwendbare Skripte (HANA & PA 2.0)
•
Fortgeschrittene Datenaufbereitung
•
Datenmodellierung
•
Anwendungsentwicklung
•
Scripting
•
Datenexploration
•
Prediktive Analysen
•
Visualisierungen
(InfiniteInsight)
© 2013 SAP AG. All rights reserved.
Internal
4
Architekturüberblick
R (Lokal)
Client
Internet
Browser
Lumira
PA 2.0
HANA Studio
Repository
Server
XS
Engine
R Server
SQLScript
AFL
PAL
SAP HANA
© 2013 SAP AG. All rights reserved.
Internal
5
SAP HANA Studio aus Sicht des Data Scientist
Skripting
Datenmodellierung
Anwendungsentwicklung
© 2013 SAP AG. All rights reserved.
•
Analysen & Berechnungen mit SQLScript und R
•
Paketierung von Analysen als Stored Procedure/Function
•
Direkte Verwendung von Algorithmen aus der Predictive
Analytics Library (PAL)
•
Modellierung von logischen Sichten (Information Views)
•
Ableitung (komplexer) berechneter KPIs ‚on-the-fly‘
•
Bereitstellung von aufbereiteten Daten zur weiteren Analyse
(z.B. PA 2.0)
•
Integrierter Anwendungsserver (HANA XS Engine)
•
Einfache Entwicklung von Webfrontends mit SAP UI5 zur
Visualisierung komplexer Zusammenhänge
Internal
6
Predictive Analytics Library (PAL)
K-means
KNN Klassifikation
Data Mining
ABC Klassifikation
Assoziationsanalyse: Marktkorb
Entscheidungsmatrizen
Regression
Vorhersage
C4.5 Entscheidungsbaum
Link Prediction
Performance-optimierte, native Implementierung auf Datenbankebene
© 2013 SAP AG. All rights reserved.
Internal
7
SAP Predictive Analytics 2.0
Experten-Modus
Automatik-Modus
 Zielgruppe: Statistik-Experten
 Zielgruppe: Business User
 Experten-Workbench für feingranulares Parametertuning
 Integration von R-Bibliotheken
 Integration von PAL-Algorithmen
in HANA
 HANA Online-Modus zur
effizienten Analyse großer
Datenmengen
 Inkludiert Funktionalitäten von
SAP Lumira zur Datenexploration
 Lösungsorientierter Ansatz
 Automatisierte Erstellung von
Vorhersagemodellen
 Ganzheitliche Unterstützung des
Lebenszyklus eines Modells
 Integration mit SAP HANA
SAP
Predictive
Analytics
2.0
© 2013 SAP AG. All rights reserved.
Internal
8
Integration von R in den Analyseprozess
Beispielkomponente in PA 2.0:
Beispielcode SAP HANA SQLScript:
DROP TABLE "spamClassified";
CREATE COLUMN TABLE "spamClassified" LIKE
"spamEval" WITH NO DATA;
ALTER TABLE "spamClassified" ADD
("classified" VARCHAR(5000));
DROP PROCEDURE USE_SVM;
CREATE PROCEDURE USE_SVM (IN train
"spamTraining", IN eval "spamEval", OUT
result "spamClassified")
LANGUAGE RLANG AS
BEGIN
library(kernlab)
model <- ksvm(type~. , data=train,
kernel=rbfdot(sigma=0.1))
classified <- predict(model, eval [,(which(names(eval) %in% "type"))])
result <- as.data.frame(cbind(eval,
classified))
R
END;
CALL USE_SVM("spamTraining", "spamEval",
"spamClassified") WITH OVERVIEW;
SELECT * FROM "spamClassified";
© 2013 SAP AG. All rights reserved.
Internal
9
Kurzes Hands-on
SAP Predictive Analytics 2.0
© 2013 SAP AG. All rights reserved.
Internal
10
Vielen Dank!
Mathias Kemeter
Data Scientist
SAP Custom Development
[email protected]
+49 151 623 457 60