warum hadoop?

WEBINAR@LUNCHTIME
THEMA: „SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER
WIE REITET MAN ELEFANTEN?"
HANS-JOACHIM EDERT
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
WEBINAR@LUNCHTIME HERZLICH WILLKOMMEN BEI WEBINAR@LUNCHTIME
Moderation
Training
Anne K. Bogner-Hamleh
Hans-Joachim Edert
SAS Institute GmbH
Education Consultant
SAS Institute GmbH
Senior Solutions Architect
Xing-Profil:
Xing-Profil:
http://www.xing.com/profile/AnneKatrin_BognerHamleh?key=0.0
https://www.xing.com/profile/Hans_Edert
Hinweise zum Ablauf des Webinars:
• Teilnehmer sind automatisch “stumm” geschaltet
• Sie können Nachrichten an den Moderator senden und Fragen stellen
• die Veranstaltung wird aufgezeichnet
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
SAS & HADOOP SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP
•
Hadoop Grundlagen
• Data Management
• Live
• In-Memory Technologie
• Zusammenfassung
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
HADOOP
DIE KERNPRINZIPIEN
GRUNDLAGEN
•
Open-Source Framework zum verteilten Speichern und parallelen Verarbeiten von
großen, (un-)strukturierten Datenmengen
•
Was kennzeichnet Hadoop?
•
•
•
Prinzip der horizontalen Skalierung auf kostengünstiger Hardware („Scale out“)
Prinzip der Datenlokalität: Der Programmcode wird auf die Cluster-Nodes mit den zugehörigen
Daten verteilt, dort verteilt ausgeführt und die (Teil-)Ergebnisse wieder zusammengeführt
Übersetzt in Technologie:
•
•
HDFS: Hadoop Distributed File System
Map/Reduce: Ein Verarbeitungsverfahren nach dem „Teile und Herrsche“-Ansatz
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
HADOOP
EINE HADOOP2 DISTRIBUTION (HORTONWORKS HDP 2.2)
GRUNDLAGEN
(Quelle: Hortonworks)
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
HADOOP
3 TECHNOLOGISCHE ANSÄTZE FÜR SAS
GRUNDLAGEN

Fokus Datenmanagement: Extraktion der HadoopDaten zur weiteren Verarbeitung in einem SAS
Server.

Fokus Datenmanagement und Analytik: SASCode und -Analytik wird “in-database” im Hadoop
Cluster ausgeführt.

Fokus Analytik und Reporting: Verarbeitung von
Hadoop Daten in einem massiv-parallelen, inmemory basierten SAS Analytics Cluster.
FROM Hadoop
IN Hadoop
WITH Hadoop
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
HADOOP
SAS IM HADOOP ÖKOSYSTEM
GRUNDLAGEN
User
Interface
SAS Display
Manager
Metadata
SAS
Enterprise
Miner™
SAS Visual
Analytics
In-Memory
Data Access
Base SAS &
SAS/ACCESS to Hadoop™
SAS Embedded
Process Accelerators
Data
Processing
Impala
SAS User
SAS Data
Integration
SAS Metadata
SAS/Access
to Impala
Data
Access
SAS
Enterprise
Guide
Pig
Hive
SAS High-Performance
Analytic Procedures
SAS LASR™ Analytic
Server
Map Reduce
MPI Based
File
System
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
HDFS
NextGeneration
SAS User
SAS DATA MANAGEMENT
IN HADOOP
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
HADOOP DATA
INTEGRATION BLUEPRINT ARCHITEKTUR
PLATFORM
BI und Analytics
Operational
Data Sources
EDW
Data
Mart
Data
Mart
Analytic
Mart
Analytic
Mart
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
HADOOP DATA
INTEGRATION SAS DATA MANAGEMENT FÜR HADOOP
PLATFORM
•
Base SAS
•
Map Reduce + Pig Scripting + HDFS Kommandos
•
•
•
SAS Access to Hadoop (Hive)
SAS Access to Impala (Cloudera)
SAS Data Integration
Studio Hadoop Plugins
•
•
•
•
SAS Data Integration Studio
SAS Enterprise Guide
SAS Data Loader for Hadoop
•
SAS Event Stream Processing (HDFS adapter)
•
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
•
HDFS Dateien
lesen/schreiben
HiveQL Abfragen,
Map/Reduce Jobs und Pig
Latin Programme
abschicken
Datentransfer von/nach
Hadoop via Hadoop Tools
HADOOP DATA
INTEGRATION SAS DATA LOADER FÜR HADOOP
PLATFORM
•
SAS Data Loader for Hadoop
•
•
Point & Click Data Management GUI speziell für
Hadoop entwickelt: Einlesen, Transformieren
und Cleansing (DQ) von Hadoop Daten
Als leichtgewichtiges ELT Tool entwickelt
•
Anwender-Zielgruppe: Fachanwender
• Keine Abhängigkeit zu SAS Infrastruktur, keine SAS
Skills benötigt
• Keine lokale Verarbeitung von Daten (in SAS)
•
HTML5-basierendes Interface
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
HADOOP DATA
INTEGRATION SAS IN-DATABASE TECHNOLOGIE
PLATFORM
•
•
SAS Scoring Accelerator for Hadoop
SAS Ent. Guide
SAS Metadata
•
SAS DI Studio
SAS Workspace
Ausführen von DQ Routinen (Parse, Standardize,
Gender Analysis, Identification, Match Code…)
Client PC
SAS Server
SAS Code Accelerator for Hadoop
•
•
RDBMS
SAS Data Quality Accelerator for Hadoop
•
•
Ausführen von Scoring Modellen aus EM und
STAT Projekten
Ausführen von DataStep2 Code
Alle Accelerators basieren auf dem SAS
Embedded Process
•
Lighweight SAS Engine inside Hadoop
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
Hadoop
NameNode
Hadoop
DataNode
Hadoop
DataNode
EP
Hadoop NameNode Service
Hadoop
DataNode
EP
EP
HDFS
HDFS
HDFS
Hadoop Data
Service
Hadoop Data
Service
Hadoop Data
Service
LIVE
LASR
Browser
LASR
LASR
Zugriff auf Hadoop
mit Enterprise
Guide und Data
Loader
LASR
Visual Analytics Mid
Tier
Enterprise
Guide
Data Loader
SAS Server und
HPA/VA Root Node
HPA/VA Worker
HPA/VA Worker
HPA/VA Worker
Node
Node
Node
parallel read/write
Client PC
Hadoop
NameNode
Hadoop NameNode Service
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
Hadoop
DataNode
Hadoop
DataNode
Hadoop
DataNode
Hadoop
DataNode
EP
EP
EP
EP
HDFS
HDFS
HDFS
HDFS
Hadoop Data
Service
Hadoop Data
Service
Hadoop Data
Service
Hadoop Data
Service
SAS IN-MEMORY TECHNOLOGIE
UND HADOOP
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
IN-MEMORY
WARUM HADOOP?
ANALYTICS
•
Hadoop ist eine ideale Partner-Technologie für SAS
•
Vergleichbare Designprinzipien:
•
Massiv parallel, Master / Slave, Scale-Out Ansatz
•
•
•
Cluster besitzt 1 Head Node und n Worker Nodes, skaliert über zusätzliche Hardware.
Commodity Hardware & OS: Standard Intel Architekturen, Linux
In-Memory Technologie …
•
macht Analysen unabhängig von Verarbeitungsverfahren in Hadoop
• setzt Uplift der Daten voraus
•
•
Performantes Verfahren entscheidend
Hadoop speichert Daten ebenfalls verteilt -> parallele Beladung der SAS Worker Nodes
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
IN-MEMORY ANALYTICS
• Typische Topologie für
Visual Analytics:
• a.k.a. „co-located“:
Hadoop und LASR
nutzen gemeinsam die
verfügbaren Nodes.
• Nur für Hadoop :
Memory Mapping von
HDFS Daten durch
SAS eigenes
Datenformat
(SASHDAT).
• Vorteil: PerformanceGewinn bei großen
Datenmengen!
• Nachteil: Proprietäres
Datenformat.
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
Co-located Setup
LASR Server
TKGrid
Browser
Client PC
LASR Server
TKGrid
LASR Server
LASR Server
TKGrid
TKGrid
Visual Analytics Mid
Tier
SAS Server und
VA Root Node
VA Worker Node
VA Worker Node
VA Worker Node
Mobile device
Hadoop NameNode Service
HDFS
HDFS
HDFS
Hadoop Data
Service
Hadoop Data
Service
Hadoop Data
Service
IN-MEMORY ANALYTICS
Asymmetric Setup
Mobile device
LASR Server
• SAS Embedded Process
Technologie ist nicht nur
für Hadoop, sondern auch
für SAP HANA und die
führenden MPP DB
Appliances verfügbar
• Embedded Process als
„parallel data feeder“ in
der Appliance transferiert
die Daten auf die SAS
Nodes.
TKGrid
Browser
Client PC
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
TKGrid
LASR Server
LASR Server
TKGrid
TKGrid
Visual Analytics Mid
Tier
SAS Server und
VA Root Node
VA Worker Node
VA Worker Node
VA Worker Node
parallel read/write
SAP HANA / Massiv-Parallele Datenbank Appliances / Hadoop Cluster
SAS Embedded Process
• In allen Fällen: dediziertes
SAS Compute Server
Modell (logische und
physische Trennung von
SAS und Appliance)
LASR Server
SAS Embedded
Process
SAS Embedded
Process
SAS Embedded
Process
SAS Embedded Process
SAS & HADOOP HADOOP DISTRIBUTOREN
•
Supportete Distributionen
•
•
•
•
•
•
Cloudera (CDH 4.6/5.x)
Hortonworks (HDP 1.3/2.x)
MapR Technologies (v4.x)
Pivotal HD 2.x
IBM Big Insights 3.x
SAS ist Gründungsmitglied der Open Data
Platform Initiative (Feb. 2015)
•
•
Gemeinsam mit Hortonworks, IBM, Teradata u.v.a.
Ziel: Standardisierung der Hadoop Plattform
C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
FRAGEN?
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
WEBINAR@LUNCHTIME VIELEN DANK FÜR IHRE TEILNAHME
Interesse an weiterem Austausch?
•
Diskutieren Sie mit uns in der XING-Gruppe
Business Analytics mit SAS
•
Sprechen Sie uns direkt an:
[email protected]
•
Ausbildungsprogramm
SAS Data Scientist
•
White Paper Data Scientist
zum Download
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
WEBINAR@LUNCHTIME NÄCHSTES WEBINAR@LUNCHTIME
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
FOLIEN ZUM DOWNLOAD UNTER
WWW.SAS.DE/LUNCHTIME
WIE HAT IHNEN UNSER WEBINAR GEFALLEN?
C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
www.SAS.com