Big-Data-EIM: in neuer Dimension

ECM
Big-Data-EIM:
in neuer
Dimension
WIE SIE DIE LEISTUNGS- UND KOSTENGRENZEN
DES KLASSISCHEN ENTERPRISE INFORMATION
MANAGEMENTS ÜBERWINDEN
Muss ich mich wirklich
mit Big Data beschäftigen?
GEGENFRAGE 1 :
Können klassisch
wachsende ECM/
EIM-Speichersysteme
die permanente Datenexplosion in Ihrem
Dokumentenbestand
oder die anstehenden
neuen Anforderungen
noch zu vertretbaren
Kosten bewältigen?
GEGENFRAGE 2 :
Stellen Sie sich vor,
Ihr ECM/EIM-System
könnte Dokumente
und Prozessdaten in
bisher undenkbarer
Tiefe und Geschwindigkeit erfassen und
auswerten – wie viel
Wert könnten Sie
daraus schöpfen?
GEGENFRAGE 3 :
Wenn Ihr ECM/
EIM-Datenvolumen
ohnehin um Größenordnungen wachsen
muss – entscheiden
Sie sich dann für die
Lösung mit den geringeren Kosten und
dem größeren Sekundärpotenzial?
Das Thema Big Data ist keine Glaubensfrage, sondern eine Frage der Vernunft, der
Perspektive und des Nutzens. Genau deshalb ist es jetzt im Enterprise Information
Management angekommen. Vielleicht sogar als Befreiungsschlag für Ihr Unternehmen.
Das Ende der Klassik:
EIM goes Big Data
Bis vor wenigen Jahren war die Welt für die konventionellen ECM- und EIM-Anbieter noch in Ordnung:
Auf der einen Seite ihre grundsoliden, hochleistungsfähigen und ultrapräzisen DokumentmanagementPlattformen und -Applikationen, auf der Gegenseite
die Welt der Big-Data-Nerds – ein auf gigantische
Datenvolumen orientiertes Experimentierfeld für
Analytics-Anwendungen, schwer gehypt, aber unfähig
zur Abbildung von Compliance-Prozessen. Big Data
schien vom ECM- und EIM-Geschäft so weit entfernt
wie das Kennedy Space Center von einer deutschen
Speditionszentrale.
Wie falsch diese Einschätzung bereits vor Jahren war,
zeigt sich heute. Der Gesetzgeber und andere Institutionen nehmen wenig Rücksicht auf die permanente
Datenexplosion, wenn sie Unternehmen und Organisationen mit neuen Verordnungen und Kontrollsystemen konfrontieren; der Wettbewerb wiederum
erzwingt einen effizienten und intelligenten Umgang
mit Daten und Dokumenten. EIM-Infrastrukturen,
die mit Speicher- und Verarbeitungsabläufen im BigData-Bereich nicht umgehen können, finden immer
häufiger keine Antwort mehr auf reale Szenarien und
Herausforderungen – außer zu völlig unvertretbaren
Kosten für Storage, Lizenzen und Integration.
In einer Hinsicht allerdings sind die Vorbehalte der
klassischen ECM-Anbieter berechtigt: Die Treiber der
Big-Data-Entwicklung hatten und haben wenig Sinn
für die Anforderungen eines Compliance-basierten
Enterprise Information Managements. Das EIM der
Zukunft war von ihnen nie zu erwarten – stattdessen
verdanken wir ihnen innovative Datenbank-Konzepte, Höchstdurchsatz-Speichersysteme, ultraschnelle Verarbeitungs-Algorithmen und eine tiefergelegte
Kostenschwelle im Massendatenmanagement.
Es ist Aufgabe der EIM-Branche selbst, aus diesen
revolutionären Vorleistungen etwas zu machen. Gut,
wenn man dazu auf die praktische Expertise erfahrener EIM-Spezialisten und den unverstellten Blick
evolutionär denkender Solution-Architekten zurückgreifen kann. So wie wir bei nextevolution.
EINZELHANDEL
Kassenbelegarchivierung:
Big Data als Volume-Lösung
Ab Jahresende 2016 müssen laut Vorgabe des Bundesministeriums der Finanzen die Unterlagen über alle Bargeschäfte
„jederzeit verfügbar, unverzüglich lesbar und maschinell
auswertbar“ aufbewahrt werden. Im Klartext: Der deutsche
Einzelhandel muss sämtliche Kassenbelege außerhalb
der Kassensysteme digital archivieren – bei einem Belegaufkommen, das nicht selten über 50.000 Transaktionen
pro Sekunde und über 2,5 Milliarden Datensätze pro Jahr
erreicht. Bisher erfolgt die Kassenauswertung im Regelfall
innerhalb der Kassensysteme und meist dezentral in den
Märkten. Die neue Vorgabe erzwingt ein zentrales Enterprise Content Management bis auf Bon-Ebene, für das die
ECM-Systeme des Handels weder ausgelegt noch geeignet
sind. Der Umstieg auf unsere Big-Data-Lösungen ist die
Chance, diese Aufgabe in einem vertretbaren Kostenrahmen
zu bewältigen – und gleichzeitig eine hochattraktive Einstiegsmöglichkeit in die echtzeitbasierte Marktsteuerung.
BANKEN
Financial Risk Management:
Big Data als Variety-Lösung
Im Zuge der Stresstests für Finanzinstitute ist das strategische und operative Risikomanagement der Banken stark
in den Fokus der Aufsichtsbehörden gerückt. Das System
an Risikofaktoren ist extrem komplex und unterliegt starken zeitlichen Abhängigkeiten. Einen Echtzeit-Überblick
über die aktuelle Risikosituation zu erlangen, ist auf Grund
der Quellenvielfalt (Variety-Faktor) und der zeitkritischen
Prozesse (Velocity-Faktor) mit klassischen Systemen nur
über immense Ausbaukosten möglich. Mit Erfassungs-,
Verarbeitungs- und Analysesystemen aus dem Big-DataSegment realisieren wir dieses Monitoring für unsere
Kunden in einem sinnvollen Kostenrahmen.
Next, please: Big-DataEIM von nextevolution
zahlt es sich für uns aus, dass wir nie in standardisierte
ECM-Anwendungen investiert haben, sondern in individuelle Lösungen auf Basis flexibler, modular einsetzbarer und schnell aktualisierbarer Tools.
Das Wichtigste zuerst: In unserer neuen Generation
von ECM- und EIM-Lösungen werden Big-Data-Quellsysteme genauso selbstverständlich verarbeitet wie
klassische Dokumentsysteme – auch der Mix aus
beiden Welten ist kein Problem.
In unseren Big-Data-Lösungen wird die Speicherung und
Verarbeitung der Quelldokumente von auf Massendaten
spezialisierten Standards und Lösungen übernommen.
Datenbanken und Auswertungsroutinen werden als verteilte Systeme auf beliebig vielen Servern organisiert.
Derzeit setzen wir bevorzugt auf die Apache-Frameworks
Spark und Hadoop sowie auf etablierte NoSQL-Datenbanken wie mongoDB, Cassandra, Elastic und solr.
Auf dieser Basis realisieren wir Big-Data-Infrastrukturen, die auch dem wichtigsten ECM-Anspruch gerecht
werden: volle Compliance in allen Prozessen.
IM VERGLEICH
Dass wir so schnell waren, hat mehrere Gründe. So
denken wir traditionell nicht in den Grenzen von
Storage-Systemen, sondern realisieren die Intelligenz
unserer ECM/EIM-Lösungen auf einer komplett separaten Ebene. Das technologische Herzstück dieser
Prozessintelligenz ist unsere neDatabridge – eine vom
Speichersystem unabhängige Verarbeitungsplattform
mit enormem Datendurchsatz. Mit dieser Systemphilosophie war die Erweiterung zur Big-Data-Plattform für
nextevolution ein relativ kleiner Schritt. Darüber hinaus
KLASSISCHES ECM
BIG-DATA-ECM
TYPISCHES
DATENBANK MODELL
RDBMS-Datenbanken
NoSQL-Datenbanken
PRINZIP
Relational (tabellenbasiert)
Nicht-relational (nicht tabellenbasiert)
VERFÜGBARKEIT
Standardaufbau als Aktiv-Passiv-Cluster
(begrenzte Verfügbarkeit); alternativ
Aktiv-Aktiv-Aufbau (komplex und fehleranfällig
aufgrund „shared-everything“-Betrieb)
Standardaufbau als Aktiv-Aktiv-Cluster
im „shared-nothing“-Betrieb unabhängiger
Knoten mit verteilter Datenhaltung
> höchste Verfügbarkeit
SKALIERUNG UND
PERFORMANCE
Im Regelfall per „Scale-up“
> vertikale Aufrüstung einzelner Server
> kostspielig und physikalisch begrenzt
Im Regelfall per „Scale-out“
> lineare Aufrüstung durch weitere Knoten
> besseres Preis-Durchsatz-Verhältnis,
geringe physikalische Beschränkung
FLEXIBILITÄT /
TRANSAKTIONALITÄT
Flexible Verknüpfung von Datenbanken durch
„Joins“; Abbildung komplexer verteilter Transaktionen nach dem ACID-Prinzip
Geringere Flexibilität (im Regelfall keine „Joins“
möglich, Datenmodell muss konkreter ausgearbeitet werden); Abbildung komplexer Transaktionen nur auf Applikationsebene möglich
Die Grenzen von Big Data: das CAP-Theorem
Big-Data-Anwendungen basieren auf dem Einsatz verteilter Systeme – also von Rechnerverbünden, deren Cluster unabhängig voneinander agieren, die sich aber nach außen als ein System präsentieren. Der Wert solcher Systeme für die
Verarbeitung von großen Datenmengen ist groß, aber auch verteilte Systeme haben ihre Grenzen. Das CAP-THEOREM von
Eric Brewer (Informatiker, USA) definiert diese Grenzen anhand von drei zentralen Anforderungen an verteilte Systeme:
CONSISTENCY: Volle Konsistenz ist gegeben, wenn alle
Cluster zum selben Zeitpunkt
die selben Daten sehen.
AVAILABILITY: Volle Verfügbarkeit ist gegeben, wenn zu jedem
Zeitpunkt alle Anfragen an das
System beantwortet werden.
PARTITION TOLERANCE: Volle Ausfalltoleranz ist gegeben, wenn das System
auch bei Verlust von Nachrichten, Clustern und Partitionen arbeitsfähig bleibt.
DAS CAP-THEOREM:
In einem
ver teilten
System ist es
unmöglich,
alle drei Anforderungen
zu erfüllen.
LEGENDEN
Von der Pflichtübung
zum Bonus-Programm
Big-Data-Systeme sind kein Allheilmittel und klassische
ECM-Plattformen noch lange kein Auslaufmodell. Unsere
Kunden behalten die freie Wahl, ob sie ihre Projekte auf
Basis klassischer ECM-Infrastrukturen, mit Big-DataQuellsystemen oder als intelligent gemanagte Koexistenz realisieren. Für jede dieser Entscheidungen gibt
es glasklare, belastbare Kriterien, die zu einer genauso
effizienten wie zukunftsfähigen Lösung führen.
Ob und in welcher Tiefe Big-Data-Szenarien zum Einsatz
kommen, ist und bleibt eine vielschichtige Fragestellung
mit extrem individuellen Resultaten. In unseren Projektaudits steht nicht nur die konkrete aktuelle Herausforderung im Fokus, sondern der technologische und
organisatorische Horizont der gesamten EIM-Infrastruktur. Sobald klar ist, dass der notwendige Zuwachs
an Volumen, Tempo und Durchsatz von der klassischen
Infrastruktur nur durch erheblichen Kapazitätsausbau erreichbar ist, spricht alles für den Umstieg: Leistungssprünge in Größenordnungen sind im klassischen
Bereich in der Regel schlichtweg zu teuer.
Hier wird es doppelt interessant, denn Big-Data-Plattformen sind an dieser Übergangsschwelle im Regelfall
nicht einmal ansatzweise ausgelastet. Ihre Leistungsreserven schaffen vom ersten Moment an Raum für
zusätzliche Szenarien, von denen viele unserer Kunden
bisher nicht zu träumen wagten. Die Erfassungstiefe
von Dokumenten muss nicht mehr beschränkt werden,
die Prozessverarbeitung kann auch bei voller Tiefe in
Echtzeit erfolgen, leistungsfähige Analytics-Applikationen liefern in der Betriebs- und Prozesssteuerung Einblicke und Reaktionsmöglichkeiten, die noch vor Jahren
unbezahlbar waren. Aus dem Pflichtumstieg wird so
unter Umständen eine Kür mit klarem Mehrwert und
messbarem Wettbewerbsvorteil.
C
A
P
Die Konsequenzen für Big-DataAnwendungen: Infrastruktur und
Applikationen müssen so konzipiert,
dimensioniert und realisiert werden,
dass die wirklich notwendigen zwei
Anforderungen zu Lasten der dritten optimal erfüllt werden. Aktuelle
Datenbanksysteme können dieses
„Tuning“ bedarfsgerecht umsetzen –
und unsere Experten sorgen für das
richtige Infrastruktur-Design.
Drei große
Irrtümer über
Big Data
BIG DATA IST EINE
DATA-MINING-TECHNOLOGIE?
Spätestens, seit Google Grippewellen schneller erkennen konnte als das US-Gesundheitssystem, ist Big Data zum Inbegriff dafür
geworden, dass man wertvolles Wissen finden
kann, wenn nur der Datenberg drumherum groß
genug ist. Diese einseitige Interpretation hat vor
allem Akzeptanz gekostet – wer mit rein statistischen Methoden über Datenberge pflügt, muss
zuallererst ein exzessiver Datensammler sein.
Data Mining ist aber nur eine der möglichen Anwendungen zur Verarbeitung von Massendaten.
Für das Enterprise Information Management ist
der entscheidende Wert von Big Data die völlig
neue Architektur von Storage- und ProcessingSystemen, die auch professionelle BusinessLösungen auf ein neues Niveau hebt.
BIG DATA KANN NICHT
COMPLIANT ARBEITEN?
Wahr ist, dass in der Datenerfassung und -verarbeitung bei vielen Analytics- und Data-MiningAnwendungen bewusst auf Vollständigkeit und
Nachverfolgbarkeit verzichtet wird, weil sich so
die Leistung und das Tempo erhöhen lassen,
ohne den Wert der statistische Tendenz zu
gefährden. In ECM/EIM-Anwendungen wären
solche ungenauen Verfahren inakzeptabel und
gefährlich – erst recht, wenn auch ein Information Lifecycle Management integriert ist. Viele
Big-Data-Anwendungen können aber auch in
voller Tiefenschärfe gefahren und mit sicheren
Businessroutinen gekoppelt werden, so dass Anwendungen mit voller Compliance entstehen.
Wäre es nicht so, gäbe es kein Big-Data-EIM.
BIG DATA IST ZU GROSS
UND ZU TEUER?
Dass Big Data manchen unserer Kunden auf
den ersten Blick als zu großes Thema erscheint,
mag ein Resultat der Legendenbildung in den
vergangenen Jahren sein. Nüchtern betrachtet, kommen Big-Data-Technologien entweder
deshalb ins Spiel, weil real existierende Herausforderungen für klassische Systeme nicht mehr
zu bewältigen sind oder weil lang gehegte Wünsche von großem unternehmerischen Wert endlich in den Bereich des Machbaren rücken. In
beiden Fällen ist sowohl die Größen- als auch die
Profitabilitätsfrage bereits geklärt. Im Übrigen
haben Standardisierung und Wettbewerb längst
zu akzeptablen bis konkurrenzlosen Kosten geführt – und im Bereich EIM/ECM geht es nicht
um hochkomplexe Data-Mining- und AnalyticsApplikationen, sondern um Basistechnologien
im Storage- und Datenmanagement-Bereich.
Sie wollen tiefer einsteigen
oder mit uns über ein konkretes Projekt diskutieren?
Kontakten Sie uns:
nextevolution AG
Hanseatic Trade Center
Am Sandtorkai 74
D-20457 Hamburg
+49 (40) 82 22 32-0
+49 (40) 82 22 32-499
E-MAIL: [email protected]
HTTP: //www.nextevolution.de
TEL.:
FAX: