Systemlandschaft für Data Scientists
Mathias Kemeter
Data Scientist
SAP Custom Development
SAP HANA Big Data Platform
Welche Tools gehören in den Werkzeugkoffer
eines Data Scientist?
© 2013 SAP AG. All rights reserved.
Internal
2
SAP Advanced Analytics Landschaft I
PA 2.0
Data Science
Business
(InfiniteInsight)
Lumira
PAL
R
SQL
HANA
Studio
ETL
Tools
© 2013 SAP AG. All rights reserved.
IT
Internal
3
SAP Advanced Analytics Landschaft II
PAL
R
SQL
HANA
Studio
PA 2.0
•
Wiederverwendbare Skripte (HANA & PA 2.0)
•
Fortgeschrittene Datenaufbereitung
•
Datenmodellierung
•
Anwendungsentwicklung
•
Scripting
•
Datenexploration
•
Prediktive Analysen
•
Visualisierungen
(InfiniteInsight)
© 2013 SAP AG. All rights reserved.
Internal
4
Architekturüberblick
R (Lokal)
Client
Internet
Browser
Lumira
PA 2.0
HANA Studio
Repository
Server
XS
Engine
R Server
SQLScript
AFL
PAL
SAP HANA
© 2013 SAP AG. All rights reserved.
Internal
5
SAP HANA Studio aus Sicht des Data Scientist
Skripting
Datenmodellierung
Anwendungsentwicklung
© 2013 SAP AG. All rights reserved.
•
Analysen & Berechnungen mit SQLScript und R
•
Paketierung von Analysen als Stored Procedure/Function
•
Direkte Verwendung von Algorithmen aus der Predictive
Analytics Library (PAL)
•
Modellierung von logischen Sichten (Information Views)
•
Ableitung (komplexer) berechneter KPIs ‚on-the-fly‘
•
Bereitstellung von aufbereiteten Daten zur weiteren Analyse
(z.B. PA 2.0)
•
Integrierter Anwendungsserver (HANA XS Engine)
•
Einfache Entwicklung von Webfrontends mit SAP UI5 zur
Visualisierung komplexer Zusammenhänge
Internal
6
Predictive Analytics Library (PAL)
K-means
KNN Klassifikation
Data Mining
ABC Klassifikation
Assoziationsanalyse: Marktkorb
Entscheidungsmatrizen
Regression
Vorhersage
C4.5 Entscheidungsbaum
Link Prediction
Performance-optimierte, native Implementierung auf Datenbankebene
© 2013 SAP AG. All rights reserved.
Internal
7
SAP Predictive Analytics 2.0
Experten-Modus
Automatik-Modus
Zielgruppe: Statistik-Experten
Zielgruppe: Business User
Experten-Workbench für feingranulares Parametertuning
Integration von R-Bibliotheken
Integration von PAL-Algorithmen
in HANA
HANA Online-Modus zur
effizienten Analyse großer
Datenmengen
Inkludiert Funktionalitäten von
SAP Lumira zur Datenexploration
Lösungsorientierter Ansatz
Automatisierte Erstellung von
Vorhersagemodellen
Ganzheitliche Unterstützung des
Lebenszyklus eines Modells
Integration mit SAP HANA
SAP
Predictive
Analytics
2.0
© 2013 SAP AG. All rights reserved.
Internal
8
Integration von R in den Analyseprozess
Beispielkomponente in PA 2.0:
Beispielcode SAP HANA SQLScript:
DROP TABLE "spamClassified";
CREATE COLUMN TABLE "spamClassified" LIKE
"spamEval" WITH NO DATA;
ALTER TABLE "spamClassified" ADD
("classified" VARCHAR(5000));
DROP PROCEDURE USE_SVM;
CREATE PROCEDURE USE_SVM (IN train
"spamTraining", IN eval "spamEval", OUT
result "spamClassified")
LANGUAGE RLANG AS
BEGIN
library(kernlab)
model <- ksvm(type~. , data=train,
kernel=rbfdot(sigma=0.1))
classified <- predict(model, eval [,(which(names(eval) %in% "type"))])
result <- as.data.frame(cbind(eval,
classified))
R
END;
CALL USE_SVM("spamTraining", "spamEval",
"spamClassified") WITH OVERVIEW;
SELECT * FROM "spamClassified";
© 2013 SAP AG. All rights reserved.
Internal
9
Kurzes Hands-on
SAP Predictive Analytics 2.0
© 2013 SAP AG. All rights reserved.
Internal
10
Vielen Dank!
Mathias Kemeter
Data Scientist
SAP Custom Development
[email protected]
+49 151 623 457 60
© Copyright 2026 ExpyDoc