ECM Big-Data-EIM: in neuer Dimension WIE SIE DIE LEISTUNGS- UND KOSTENGRENZEN DES KLASSISCHEN ENTERPRISE INFORMATION MANAGEMENTS ÜBERWINDEN Muss ich mich wirklich mit Big Data beschäftigen? GEGENFRAGE 1 : Können klassisch wachsende ECM/ EIM-Speichersysteme die permanente Datenexplosion in Ihrem Dokumentenbestand oder die anstehenden neuen Anforderungen noch zu vertretbaren Kosten bewältigen? GEGENFRAGE 2 : Stellen Sie sich vor, Ihr ECM/EIM-System könnte Dokumente und Prozessdaten in bisher undenkbarer Tiefe und Geschwindigkeit erfassen und auswerten – wie viel Wert könnten Sie daraus schöpfen? GEGENFRAGE 3 : Wenn Ihr ECM/ EIM-Datenvolumen ohnehin um Größenordnungen wachsen muss – entscheiden Sie sich dann für die Lösung mit den geringeren Kosten und dem größeren Sekundärpotenzial? Das Thema Big Data ist keine Glaubensfrage, sondern eine Frage der Vernunft, der Perspektive und des Nutzens. Genau deshalb ist es jetzt im Enterprise Information Management angekommen. Vielleicht sogar als Befreiungsschlag für Ihr Unternehmen. Das Ende der Klassik: EIM goes Big Data Bis vor wenigen Jahren war die Welt für die konventionellen ECM- und EIM-Anbieter noch in Ordnung: Auf der einen Seite ihre grundsoliden, hochleistungsfähigen und ultrapräzisen DokumentmanagementPlattformen und -Applikationen, auf der Gegenseite die Welt der Big-Data-Nerds – ein auf gigantische Datenvolumen orientiertes Experimentierfeld für Analytics-Anwendungen, schwer gehypt, aber unfähig zur Abbildung von Compliance-Prozessen. Big Data schien vom ECM- und EIM-Geschäft so weit entfernt wie das Kennedy Space Center von einer deutschen Speditionszentrale. Wie falsch diese Einschätzung bereits vor Jahren war, zeigt sich heute. Der Gesetzgeber und andere Institutionen nehmen wenig Rücksicht auf die permanente Datenexplosion, wenn sie Unternehmen und Organisationen mit neuen Verordnungen und Kontrollsystemen konfrontieren; der Wettbewerb wiederum erzwingt einen effizienten und intelligenten Umgang mit Daten und Dokumenten. EIM-Infrastrukturen, die mit Speicher- und Verarbeitungsabläufen im BigData-Bereich nicht umgehen können, finden immer häufiger keine Antwort mehr auf reale Szenarien und Herausforderungen – außer zu völlig unvertretbaren Kosten für Storage, Lizenzen und Integration. In einer Hinsicht allerdings sind die Vorbehalte der klassischen ECM-Anbieter berechtigt: Die Treiber der Big-Data-Entwicklung hatten und haben wenig Sinn für die Anforderungen eines Compliance-basierten Enterprise Information Managements. Das EIM der Zukunft war von ihnen nie zu erwarten – stattdessen verdanken wir ihnen innovative Datenbank-Konzepte, Höchstdurchsatz-Speichersysteme, ultraschnelle Verarbeitungs-Algorithmen und eine tiefergelegte Kostenschwelle im Massendatenmanagement. Es ist Aufgabe der EIM-Branche selbst, aus diesen revolutionären Vorleistungen etwas zu machen. Gut, wenn man dazu auf die praktische Expertise erfahrener EIM-Spezialisten und den unverstellten Blick evolutionär denkender Solution-Architekten zurückgreifen kann. So wie wir bei nextevolution. EINZELHANDEL Kassenbelegarchivierung: Big Data als Volume-Lösung Ab Jahresende 2016 müssen laut Vorgabe des Bundesministeriums der Finanzen die Unterlagen über alle Bargeschäfte „jederzeit verfügbar, unverzüglich lesbar und maschinell auswertbar“ aufbewahrt werden. Im Klartext: Der deutsche Einzelhandel muss sämtliche Kassenbelege außerhalb der Kassensysteme digital archivieren – bei einem Belegaufkommen, das nicht selten über 50.000 Transaktionen pro Sekunde und über 2,5 Milliarden Datensätze pro Jahr erreicht. Bisher erfolgt die Kassenauswertung im Regelfall innerhalb der Kassensysteme und meist dezentral in den Märkten. Die neue Vorgabe erzwingt ein zentrales Enterprise Content Management bis auf Bon-Ebene, für das die ECM-Systeme des Handels weder ausgelegt noch geeignet sind. Der Umstieg auf unsere Big-Data-Lösungen ist die Chance, diese Aufgabe in einem vertretbaren Kostenrahmen zu bewältigen – und gleichzeitig eine hochattraktive Einstiegsmöglichkeit in die echtzeitbasierte Marktsteuerung. BANKEN Financial Risk Management: Big Data als Variety-Lösung Im Zuge der Stresstests für Finanzinstitute ist das strategische und operative Risikomanagement der Banken stark in den Fokus der Aufsichtsbehörden gerückt. Das System an Risikofaktoren ist extrem komplex und unterliegt starken zeitlichen Abhängigkeiten. Einen Echtzeit-Überblick über die aktuelle Risikosituation zu erlangen, ist auf Grund der Quellenvielfalt (Variety-Faktor) und der zeitkritischen Prozesse (Velocity-Faktor) mit klassischen Systemen nur über immense Ausbaukosten möglich. Mit Erfassungs-, Verarbeitungs- und Analysesystemen aus dem Big-DataSegment realisieren wir dieses Monitoring für unsere Kunden in einem sinnvollen Kostenrahmen. Next, please: Big-DataEIM von nextevolution zahlt es sich für uns aus, dass wir nie in standardisierte ECM-Anwendungen investiert haben, sondern in individuelle Lösungen auf Basis flexibler, modular einsetzbarer und schnell aktualisierbarer Tools. Das Wichtigste zuerst: In unserer neuen Generation von ECM- und EIM-Lösungen werden Big-Data-Quellsysteme genauso selbstverständlich verarbeitet wie klassische Dokumentsysteme – auch der Mix aus beiden Welten ist kein Problem. In unseren Big-Data-Lösungen wird die Speicherung und Verarbeitung der Quelldokumente von auf Massendaten spezialisierten Standards und Lösungen übernommen. Datenbanken und Auswertungsroutinen werden als verteilte Systeme auf beliebig vielen Servern organisiert. Derzeit setzen wir bevorzugt auf die Apache-Frameworks Spark und Hadoop sowie auf etablierte NoSQL-Datenbanken wie mongoDB, Cassandra, Elastic und solr. Auf dieser Basis realisieren wir Big-Data-Infrastrukturen, die auch dem wichtigsten ECM-Anspruch gerecht werden: volle Compliance in allen Prozessen. IM VERGLEICH Dass wir so schnell waren, hat mehrere Gründe. So denken wir traditionell nicht in den Grenzen von Storage-Systemen, sondern realisieren die Intelligenz unserer ECM/EIM-Lösungen auf einer komplett separaten Ebene. Das technologische Herzstück dieser Prozessintelligenz ist unsere neDatabridge – eine vom Speichersystem unabhängige Verarbeitungsplattform mit enormem Datendurchsatz. Mit dieser Systemphilosophie war die Erweiterung zur Big-Data-Plattform für nextevolution ein relativ kleiner Schritt. Darüber hinaus KLASSISCHES ECM BIG-DATA-ECM TYPISCHES DATENBANK MODELL RDBMS-Datenbanken NoSQL-Datenbanken PRINZIP Relational (tabellenbasiert) Nicht-relational (nicht tabellenbasiert) VERFÜGBARKEIT Standardaufbau als Aktiv-Passiv-Cluster (begrenzte Verfügbarkeit); alternativ Aktiv-Aktiv-Aufbau (komplex und fehleranfällig aufgrund „shared-everything“-Betrieb) Standardaufbau als Aktiv-Aktiv-Cluster im „shared-nothing“-Betrieb unabhängiger Knoten mit verteilter Datenhaltung > höchste Verfügbarkeit SKALIERUNG UND PERFORMANCE Im Regelfall per „Scale-up“ > vertikale Aufrüstung einzelner Server > kostspielig und physikalisch begrenzt Im Regelfall per „Scale-out“ > lineare Aufrüstung durch weitere Knoten > besseres Preis-Durchsatz-Verhältnis, geringe physikalische Beschränkung FLEXIBILITÄT / TRANSAKTIONALITÄT Flexible Verknüpfung von Datenbanken durch „Joins“; Abbildung komplexer verteilter Transaktionen nach dem ACID-Prinzip Geringere Flexibilität (im Regelfall keine „Joins“ möglich, Datenmodell muss konkreter ausgearbeitet werden); Abbildung komplexer Transaktionen nur auf Applikationsebene möglich Die Grenzen von Big Data: das CAP-Theorem Big-Data-Anwendungen basieren auf dem Einsatz verteilter Systeme – also von Rechnerverbünden, deren Cluster unabhängig voneinander agieren, die sich aber nach außen als ein System präsentieren. Der Wert solcher Systeme für die Verarbeitung von großen Datenmengen ist groß, aber auch verteilte Systeme haben ihre Grenzen. Das CAP-THEOREM von Eric Brewer (Informatiker, USA) definiert diese Grenzen anhand von drei zentralen Anforderungen an verteilte Systeme: CONSISTENCY: Volle Konsistenz ist gegeben, wenn alle Cluster zum selben Zeitpunkt die selben Daten sehen. AVAILABILITY: Volle Verfügbarkeit ist gegeben, wenn zu jedem Zeitpunkt alle Anfragen an das System beantwortet werden. PARTITION TOLERANCE: Volle Ausfalltoleranz ist gegeben, wenn das System auch bei Verlust von Nachrichten, Clustern und Partitionen arbeitsfähig bleibt. DAS CAP-THEOREM: In einem ver teilten System ist es unmöglich, alle drei Anforderungen zu erfüllen. LEGENDEN Von der Pflichtübung zum Bonus-Programm Big-Data-Systeme sind kein Allheilmittel und klassische ECM-Plattformen noch lange kein Auslaufmodell. Unsere Kunden behalten die freie Wahl, ob sie ihre Projekte auf Basis klassischer ECM-Infrastrukturen, mit Big-DataQuellsystemen oder als intelligent gemanagte Koexistenz realisieren. Für jede dieser Entscheidungen gibt es glasklare, belastbare Kriterien, die zu einer genauso effizienten wie zukunftsfähigen Lösung führen. Ob und in welcher Tiefe Big-Data-Szenarien zum Einsatz kommen, ist und bleibt eine vielschichtige Fragestellung mit extrem individuellen Resultaten. In unseren Projektaudits steht nicht nur die konkrete aktuelle Herausforderung im Fokus, sondern der technologische und organisatorische Horizont der gesamten EIM-Infrastruktur. Sobald klar ist, dass der notwendige Zuwachs an Volumen, Tempo und Durchsatz von der klassischen Infrastruktur nur durch erheblichen Kapazitätsausbau erreichbar ist, spricht alles für den Umstieg: Leistungssprünge in Größenordnungen sind im klassischen Bereich in der Regel schlichtweg zu teuer. Hier wird es doppelt interessant, denn Big-Data-Plattformen sind an dieser Übergangsschwelle im Regelfall nicht einmal ansatzweise ausgelastet. Ihre Leistungsreserven schaffen vom ersten Moment an Raum für zusätzliche Szenarien, von denen viele unserer Kunden bisher nicht zu träumen wagten. Die Erfassungstiefe von Dokumenten muss nicht mehr beschränkt werden, die Prozessverarbeitung kann auch bei voller Tiefe in Echtzeit erfolgen, leistungsfähige Analytics-Applikationen liefern in der Betriebs- und Prozesssteuerung Einblicke und Reaktionsmöglichkeiten, die noch vor Jahren unbezahlbar waren. Aus dem Pflichtumstieg wird so unter Umständen eine Kür mit klarem Mehrwert und messbarem Wettbewerbsvorteil. C A P Die Konsequenzen für Big-DataAnwendungen: Infrastruktur und Applikationen müssen so konzipiert, dimensioniert und realisiert werden, dass die wirklich notwendigen zwei Anforderungen zu Lasten der dritten optimal erfüllt werden. Aktuelle Datenbanksysteme können dieses „Tuning“ bedarfsgerecht umsetzen – und unsere Experten sorgen für das richtige Infrastruktur-Design. Drei große Irrtümer über Big Data BIG DATA IST EINE DATA-MINING-TECHNOLOGIE? Spätestens, seit Google Grippewellen schneller erkennen konnte als das US-Gesundheitssystem, ist Big Data zum Inbegriff dafür geworden, dass man wertvolles Wissen finden kann, wenn nur der Datenberg drumherum groß genug ist. Diese einseitige Interpretation hat vor allem Akzeptanz gekostet – wer mit rein statistischen Methoden über Datenberge pflügt, muss zuallererst ein exzessiver Datensammler sein. Data Mining ist aber nur eine der möglichen Anwendungen zur Verarbeitung von Massendaten. Für das Enterprise Information Management ist der entscheidende Wert von Big Data die völlig neue Architektur von Storage- und ProcessingSystemen, die auch professionelle BusinessLösungen auf ein neues Niveau hebt. BIG DATA KANN NICHT COMPLIANT ARBEITEN? Wahr ist, dass in der Datenerfassung und -verarbeitung bei vielen Analytics- und Data-MiningAnwendungen bewusst auf Vollständigkeit und Nachverfolgbarkeit verzichtet wird, weil sich so die Leistung und das Tempo erhöhen lassen, ohne den Wert der statistische Tendenz zu gefährden. In ECM/EIM-Anwendungen wären solche ungenauen Verfahren inakzeptabel und gefährlich – erst recht, wenn auch ein Information Lifecycle Management integriert ist. Viele Big-Data-Anwendungen können aber auch in voller Tiefenschärfe gefahren und mit sicheren Businessroutinen gekoppelt werden, so dass Anwendungen mit voller Compliance entstehen. Wäre es nicht so, gäbe es kein Big-Data-EIM. BIG DATA IST ZU GROSS UND ZU TEUER? Dass Big Data manchen unserer Kunden auf den ersten Blick als zu großes Thema erscheint, mag ein Resultat der Legendenbildung in den vergangenen Jahren sein. Nüchtern betrachtet, kommen Big-Data-Technologien entweder deshalb ins Spiel, weil real existierende Herausforderungen für klassische Systeme nicht mehr zu bewältigen sind oder weil lang gehegte Wünsche von großem unternehmerischen Wert endlich in den Bereich des Machbaren rücken. In beiden Fällen ist sowohl die Größen- als auch die Profitabilitätsfrage bereits geklärt. Im Übrigen haben Standardisierung und Wettbewerb längst zu akzeptablen bis konkurrenzlosen Kosten geführt – und im Bereich EIM/ECM geht es nicht um hochkomplexe Data-Mining- und AnalyticsApplikationen, sondern um Basistechnologien im Storage- und Datenmanagement-Bereich. Sie wollen tiefer einsteigen oder mit uns über ein konkretes Projekt diskutieren? Kontakten Sie uns: nextevolution AG Hanseatic Trade Center Am Sandtorkai 74 D-20457 Hamburg +49 (40) 82 22 32-0 +49 (40) 82 22 32-499 E-MAIL: [email protected] HTTP: //www.nextevolution.de TEL.: FAX:
© Copyright 2024 ExpyDoc