WEBINAR@LUNCHTIME THEMA: „SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . WEBINAR@LUNCHTIME HERZLICH WILLKOMMEN BEI WEBINAR@LUNCHTIME Moderation Training Anne K. Bogner-Hamleh Hans-Joachim Edert SAS Institute GmbH Education Consultant SAS Institute GmbH Senior Solutions Architect Xing-Profil: Xing-Profil: http://www.xing.com/profile/AnneKatrin_BognerHamleh?key=0.0 https://www.xing.com/profile/Hans_Edert Hinweise zum Ablauf des Webinars: • Teilnehmer sind automatisch “stumm” geschaltet • Sie können Nachrichten an den Moderator senden und Fragen stellen • die Veranstaltung wird aufgezeichnet C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . SAS & HADOOP SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP • Hadoop Grundlagen • Data Management • Live • In-Memory Technologie • Zusammenfassung C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . HADOOP DIE KERNPRINZIPIEN GRUNDLAGEN • Open-Source Framework zum verteilten Speichern und parallelen Verarbeiten von großen, (un-)strukturierten Datenmengen • Was kennzeichnet Hadoop? • • • Prinzip der horizontalen Skalierung auf kostengünstiger Hardware („Scale out“) Prinzip der Datenlokalität: Der Programmcode wird auf die Cluster-Nodes mit den zugehörigen Daten verteilt, dort verteilt ausgeführt und die (Teil-)Ergebnisse wieder zusammengeführt Übersetzt in Technologie: • • HDFS: Hadoop Distributed File System Map/Reduce: Ein Verarbeitungsverfahren nach dem „Teile und Herrsche“-Ansatz C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . HADOOP EINE HADOOP2 DISTRIBUTION (HORTONWORKS HDP 2.2) GRUNDLAGEN (Quelle: Hortonworks) C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . HADOOP 3 TECHNOLOGISCHE ANSÄTZE FÜR SAS GRUNDLAGEN Fokus Datenmanagement: Extraktion der HadoopDaten zur weiteren Verarbeitung in einem SAS Server. Fokus Datenmanagement und Analytik: SASCode und -Analytik wird “in-database” im Hadoop Cluster ausgeführt. Fokus Analytik und Reporting: Verarbeitung von Hadoop Daten in einem massiv-parallelen, inmemory basierten SAS Analytics Cluster. FROM Hadoop IN Hadoop WITH Hadoop C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . HADOOP SAS IM HADOOP ÖKOSYSTEM GRUNDLAGEN User Interface SAS Display Manager Metadata SAS Enterprise Miner™ SAS Visual Analytics In-Memory Data Access Base SAS & SAS/ACCESS to Hadoop™ SAS Embedded Process Accelerators Data Processing Impala SAS User SAS Data Integration SAS Metadata SAS/Access to Impala Data Access SAS Enterprise Guide Pig Hive SAS High-Performance Analytic Procedures SAS LASR™ Analytic Server Map Reduce MPI Based File System C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . HDFS NextGeneration SAS User SAS DATA MANAGEMENT IN HADOOP C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . HADOOP DATA INTEGRATION BLUEPRINT ARCHITEKTUR PLATFORM BI und Analytics Operational Data Sources EDW Data Mart Data Mart Analytic Mart Analytic Mart C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . HADOOP DATA INTEGRATION SAS DATA MANAGEMENT FÜR HADOOP PLATFORM • Base SAS • Map Reduce + Pig Scripting + HDFS Kommandos • • • SAS Access to Hadoop (Hive) SAS Access to Impala (Cloudera) SAS Data Integration Studio Hadoop Plugins • • • • SAS Data Integration Studio SAS Enterprise Guide SAS Data Loader for Hadoop • SAS Event Stream Processing (HDFS adapter) • C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . • HDFS Dateien lesen/schreiben HiveQL Abfragen, Map/Reduce Jobs und Pig Latin Programme abschicken Datentransfer von/nach Hadoop via Hadoop Tools HADOOP DATA INTEGRATION SAS DATA LOADER FÜR HADOOP PLATFORM • SAS Data Loader for Hadoop • • Point & Click Data Management GUI speziell für Hadoop entwickelt: Einlesen, Transformieren und Cleansing (DQ) von Hadoop Daten Als leichtgewichtiges ELT Tool entwickelt • Anwender-Zielgruppe: Fachanwender • Keine Abhängigkeit zu SAS Infrastruktur, keine SAS Skills benötigt • Keine lokale Verarbeitung von Daten (in SAS) • HTML5-basierendes Interface C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . HADOOP DATA INTEGRATION SAS IN-DATABASE TECHNOLOGIE PLATFORM • • SAS Scoring Accelerator for Hadoop SAS Ent. Guide SAS Metadata • SAS DI Studio SAS Workspace Ausführen von DQ Routinen (Parse, Standardize, Gender Analysis, Identification, Match Code…) Client PC SAS Server SAS Code Accelerator for Hadoop • • RDBMS SAS Data Quality Accelerator for Hadoop • • Ausführen von Scoring Modellen aus EM und STAT Projekten Ausführen von DataStep2 Code Alle Accelerators basieren auf dem SAS Embedded Process • Lighweight SAS Engine inside Hadoop C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . Hadoop NameNode Hadoop DataNode Hadoop DataNode EP Hadoop NameNode Service Hadoop DataNode EP EP HDFS HDFS HDFS Hadoop Data Service Hadoop Data Service Hadoop Data Service LIVE LASR Browser LASR LASR Zugriff auf Hadoop mit Enterprise Guide und Data Loader LASR Visual Analytics Mid Tier Enterprise Guide Data Loader SAS Server und HPA/VA Root Node HPA/VA Worker HPA/VA Worker HPA/VA Worker Node Node Node parallel read/write Client PC Hadoop NameNode Hadoop NameNode Service C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . Hadoop DataNode Hadoop DataNode Hadoop DataNode Hadoop DataNode EP EP EP EP HDFS HDFS HDFS HDFS Hadoop Data Service Hadoop Data Service Hadoop Data Service Hadoop Data Service SAS IN-MEMORY TECHNOLOGIE UND HADOOP C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . IN-MEMORY WARUM HADOOP? ANALYTICS • Hadoop ist eine ideale Partner-Technologie für SAS • Vergleichbare Designprinzipien: • Massiv parallel, Master / Slave, Scale-Out Ansatz • • • Cluster besitzt 1 Head Node und n Worker Nodes, skaliert über zusätzliche Hardware. Commodity Hardware & OS: Standard Intel Architekturen, Linux In-Memory Technologie … • macht Analysen unabhängig von Verarbeitungsverfahren in Hadoop • setzt Uplift der Daten voraus • • Performantes Verfahren entscheidend Hadoop speichert Daten ebenfalls verteilt -> parallele Beladung der SAS Worker Nodes C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . IN-MEMORY ANALYTICS • Typische Topologie für Visual Analytics: • a.k.a. „co-located“: Hadoop und LASR nutzen gemeinsam die verfügbaren Nodes. • Nur für Hadoop : Memory Mapping von HDFS Daten durch SAS eigenes Datenformat (SASHDAT). • Vorteil: PerformanceGewinn bei großen Datenmengen! • Nachteil: Proprietäres Datenformat. C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . Co-located Setup LASR Server TKGrid Browser Client PC LASR Server TKGrid LASR Server LASR Server TKGrid TKGrid Visual Analytics Mid Tier SAS Server und VA Root Node VA Worker Node VA Worker Node VA Worker Node Mobile device Hadoop NameNode Service HDFS HDFS HDFS Hadoop Data Service Hadoop Data Service Hadoop Data Service IN-MEMORY ANALYTICS Asymmetric Setup Mobile device LASR Server • SAS Embedded Process Technologie ist nicht nur für Hadoop, sondern auch für SAP HANA und die führenden MPP DB Appliances verfügbar • Embedded Process als „parallel data feeder“ in der Appliance transferiert die Daten auf die SAS Nodes. TKGrid Browser Client PC C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . TKGrid LASR Server LASR Server TKGrid TKGrid Visual Analytics Mid Tier SAS Server und VA Root Node VA Worker Node VA Worker Node VA Worker Node parallel read/write SAP HANA / Massiv-Parallele Datenbank Appliances / Hadoop Cluster SAS Embedded Process • In allen Fällen: dediziertes SAS Compute Server Modell (logische und physische Trennung von SAS und Appliance) LASR Server SAS Embedded Process SAS Embedded Process SAS Embedded Process SAS Embedded Process SAS & HADOOP HADOOP DISTRIBUTOREN • Supportete Distributionen • • • • • • Cloudera (CDH 4.6/5.x) Hortonworks (HDP 1.3/2.x) MapR Technologies (v4.x) Pivotal HD 2.x IBM Big Insights 3.x SAS ist Gründungsmitglied der Open Data Platform Initiative (Feb. 2015) • • Gemeinsam mit Hortonworks, IBM, Teradata u.v.a. Ziel: Standardisierung der Hadoop Plattform C op yr i g h t © 2 0 1 4 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . FRAGEN? C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . WEBINAR@LUNCHTIME VIELEN DANK FÜR IHRE TEILNAHME Interesse an weiterem Austausch? • Diskutieren Sie mit uns in der XING-Gruppe Business Analytics mit SAS • Sprechen Sie uns direkt an: [email protected] • Ausbildungsprogramm SAS Data Scientist • White Paper Data Scientist zum Download C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . WEBINAR@LUNCHTIME NÄCHSTES WEBINAR@LUNCHTIME C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . FOLIEN ZUM DOWNLOAD UNTER WWW.SAS.DE/LUNCHTIME WIE HAT IHNEN UNSER WEBINAR GEFALLEN? C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . www.SAS.com
© Copyright 2025 ExpyDoc