Data Mining Studie 2010

Data Mining Studie
Praxistest & Benchmarking
-Zusammenfassung-
Data Mining Studie 2010 | Praxistest & Benchmarking
Data Mining Studie 2010 Praxistest & Benchmarking
Vielfältiger Data-Mining-Softwaremarkt
spezialisierte Data-Mining-Werkzeuge für bestimmte
Analyseaufgaben angeboten. Auch Hersteller von BI-
Die immer stärkere Verbreitung des Data Mining in
Software haben vielfach Data-Mining-Funktionen in
zahlreiche Branchen und in immer mehr Anwendungs-
ihre Produkte integriert.
gebiete hinein führt zu einer stetigen Diversifizierung
der Data-Mining-Softwareprodukte. Zusammen mit
der zunehmend flexiblen Preisgestaltung birgt die-
Cross- und Upselling-Potenziale realisieren
mit Data Mining
se Entwicklung für potenzielle Anwender und Unternehmen zahlreiche Vorteile: Sie können sich etwa
Bei den Anwendungsgebieten steht nach wie vor der
für jeden auch etwas spezielleren Analysewunsch
Marketing- und Vertriebsbereich im Vordergrund – im
und passend zur jeweils vorliegenden IT-Infrastruktur
Speziellen gilt das Cross- und Upselling aktuell als die
individuell das geeignete Werkzeug auswählen.
wichtigste Data-Mining-Anwendung: Kaum noch ein
(Web-)Versandhändler kommt ohne Empfehlungen
Der Hauptnachteil liegt allerdings in der zunehmen-
der Art „Kunden, die dieses Produkt gekauft haben,
den Unübersichtlichkeit des Angebots, was die konkre-
kauften auch:…“ oder „Was kaufen Kunden, nachdem
te Auswahl erschwert. Die mayato Data Mining Studie
Sie diesen Artikel angesehen haben?“ aus.
hat sich zum Ziel gesetzt, diese Auswahl durch eine
Die Erfolgsquote dieser zusätzlichen Produktange-
umfangreiche Evaluation aktueller Tools in einem typi-
bote kann durch Data-Mining-Analysen des Verbund-
schen Praxisszenario zu erleichtern.
kaufverhaltens (Assoziations- und Sequenzanalyse)
stark erhöht werden. Die Erkenntnisse werden auch in
Denn die unterschiedlichen „Verpackungen“, in denen
anderen Branchen wie z.B. bei Finanzdienstleistern
die Anbieter ihre Softwareprodukte offerieren, sind
und Versicherungen verstärkt dazu genutzt, Direkt-
zahlreich: Neben den klassischen „All-in-One-Produkten“,
marketingaktionen zielgenauer planen und umsetzen
den Data-Mining-Suiten, die es seit einiger Zeit auch
zu können.
in der Open-Source-Variante gibt, werden zahlreiche
Seite 2
© mayato® GmbH. Alle Rechte vorbehalten.
Data Mining Studie 2010 | Praxistest & Benchmarking
Grundtypen von Data-Mining-Software
tet (siehe Abb. 1): Die klassische, funktionsmächtige
Data-Mining-Suite findet sich ebenso im Testfeld wie
Die Data Mining Studie 2010 vergleicht anhand eines
das spezialisierte, schlanke Data-Mining-Werkzeug.
großen Testdatensatzes (1,8 Mio. Zeilen) fünf Data-
Eine Sonderstellung in dieser Kategorie nimmt die
Mining-Tools und -Suiten:
softwaretechnische Umsetzung des Self-Acting Data
Mining ein – dieser hochautomatisierte Ansatz kommt
weitgehend ohne manuelle Datenvorverarbeitung und
› SAS Enterprise Miner 6.1
Parametrisierung aus.
› StatSoft STATISTICA Data Miner 9
› KNIME 2.0.3
Weiterhin ist ein Business-Intelligence-Werkzeug getes-
› KXEN Analytic Framework 5.1.1
tet worden, das Data-Mining-Verfahren eher als Zusatz
› SAP NetWeaver 7.0 Data Mining Workbench.
Das Ziel bestand darin, die verschiedenen Analyseansätze und -konzepte anhand einer typischen, praxisnahen Fragestellung im Live-Einsatz zu prüfen. Daher
wurden bewusst Data-Mining-Produkte aus gänzlich
zu mächtigen Datenverwaltungsfunktionen offeriert.
Um die Frage zu klären, ob sich die Analyseaufgabe
auch mit einer kostenlosen Data-Mining-Suite zufriedenstellend und mit ähnlichem Bedienkomfort lösen
lässt, wurde zusätzlich eine Open-Source-Variante in
den Test aufgenommen.
unterschiedlichen Tool- und Preiskategorien getes-
SAS Enterprise Miner 6.1
Data-Mining-Suiten (kommerziell)
Im Test
SPSS PASW Modeler 13
StatSoft: STATISTICA Data Miner 9
Im Test
Rapid-I: Rapidminer 4.6
Data-Mining-Suiten (Open Source)
Universität Konstanz: KNIME 2.0.3
Im Test
Universität Waikato: Weka 3.6
Data-Mining-Werkzeuge
(Self-Acting Data Mining)
KXEN Analytic Framework 5.1.1
Im Test
Viscovery SOMine 5.1
Data-Mining-Werkzeuge (klassisch)
prudsys Realtime Decisioning Engine (RDE)
Bissantz Delta Master 5.4.1
SAP NetWeaver 7.0 Data Mining Workbench
Business-Intelligence-Werkzeuge
Im Test
ORACLE 11g Data Mining
Microsoft SQL Server 2008 Analysis Services
[Abb.1]: Taxonomie aktueller Data-Mining-Lösungen
© mayato® GmbH. Alle Rechte vorbehalten.
Seite 3
Data Mining Studie 2010 | Praxistest & Benchmarking
Mittelstandstaugliche Preismodelle
Große Unterschiede im Praxistest bei
Funktionsumfang, Laufzeit und Ergonomie
Die Produktentscheidung will gut überlegt sein: Je
nach Funktionsumfang und Nutzerzahl kann eine Cli-
Im Praxistest zeigte sich, dass die Bedienung dank
ent/Server-Lizenz mehrere Hunderttausend Euro in der
grafischer Benutzeroberflächen mittlerweile grund-
Anschaffung sowie jährliche Wartungskosten ebenfalls
sätzlich leicht von der Hand geht. Ein dominierendes
im sechsstelligen Eurobereich verursachen.
Bedienkonzept lässt sich jedoch weiterhin nicht erkennen; manche Hersteller gehen sogar dazu über, meh-
Es geht aber auch günstiger: Spezialisierte Data-
rere Modi für unterschiedliche Anwendertypen anzu-
Mining-Werkzeuge sind bereits für unter 10.000 Euro
bieten.
zu haben. Aber auch funktionsmächtige Data-MiningSuiten können z.B. im Falle des STATISTICA Data Miner
Dennoch erfordern insbesondere die mächtigen Data-
für moderate 20.000 Euro für die lokale Einzelplatzli-
Mining-Suiten im Vergleich zu spezialisierten Werkzeu-
zenz erworben werden – bei vollem Funktionsumfang.
gen nicht nur einen erhöhten Einarbeitungsaufwand,
Für Open-Source-Lösungen entfällt der Anschaffungs-
sondern auch fundiertes Hintergrundwissen.
preis; hier fallen lediglich jährliche Supportgebühren
StatSoft und KXEN versuchen dem Gelegenheitsanwen-
an, die sich im mittleren vierstelligen Eurobereich
der entgegen zu kommen, indem sie z.B. Assistenten
bewegen.
anbieten, die eine feste Abfolge an Analyseschritten
vorgeben und die erforderlichen Eingaben dazu systematisch abfragen.
Studiendesign
Deutliche Unterschiede lassen sich auch beim FunktionsDie diesjährige Ausgabe hat die Untersuchung von
umfang feststellen. Bei SAP und KNIME zeigen sich
Cross-/Upselling-Potenzialen zum Schwerpunkt.
hier z.B. praxisrelevante Lücken: Beide Tools bieten
Anhand einer Fallstudie wird der gesamte Data-
keine Sequenzanalyse an, so dass die zeitlichen Ab-
Mining-Prozess durchlaufen – vom Einlesen der Daten
stände zwischen den Kauftransaktionen nicht berück-
über die Datenvorverarbeitung und die Datenexplo-
sichtigt werden können. Das bedeutet in der Praxis
ration bis hin zur Durchführung der Assoziations- und
eine deutliche Einschränkung, da so nicht nur zahlrei-
Sequenzanalyse sowie der (grafischen) Darstellung
che analytische Anwendungsszenarien im Umfeld des
und Interpretation der Ergebnisse.
Cross- und Upselling, sondern auch im Risikomanage-
Ein derart aufwändiges und umfangreiches Testver-
ment oder in der Betrugserkennung bei Banken und
fahren liefert wertvolle praxisrelevante Fakten und
Versicherungen ausgeklammert werden.
Erkenntnisse im direkten Vergleich, die nicht aus den
Produktbeschreibungen der Hersteller hervorgehen.
Beide Werkzeuge bieten zudem nur eine rudimentäre Unterstützung bei der Ergebnisauswertung – bei
Die Bewertung stützt sich u.a. auf Bedienung & Do-
großen Datenmengen ist der Anwender mit der Inter-
kumentation, Funktionsumfang, Systemverhalten bei
pretation nicht sortierbarer Standardlisten, die meh-
großen Datenmengen und Stabilität. Weiterhin wur-
rere Hundert Assoziationsregeln enthalten, deutlich
de die Ausführungsgeschwindigkeit mit einer Vielzahl
überfordert. KNIME fällt zusätzlich bei der Laufzeit ab
unterschiedlicher Parametereinstellungen gemessen
– wesentlich verursacht durch die zeitraubende Daten-
und dokumentiert. Zusätzlich zum umfangreichen
vorverarbeitung, die für die Erstellung der zur internen
Praxistest wurde für jedes getestete Werkzeug eine
Berechnung verwendeten Datenstruktur notwendig ist.
detaillierte Funktionsübersicht rund um die Assoziations- und Sequenzanalyse erstellt.
Seite 4
© mayato® GmbH. Alle Rechte vorbehalten.
Data Mining Studie 2010 | Praxistest & Benchmarking
Dass es auch komfortabler geht, zeigen der SAS En-
Dennoch ist unübersehbar, dass der Einstieg in die ex-
terprise Miner und der STATISTICA Data Miner. Sie
plorative Datenanalyse im Jahr 2010 bedeutend leich-
punkten beide mit umfangreicher Funktionalität, einer
ter fällt als noch vor wenigen Jahren:
hohen Ausführungsgeschwindigkeit und sicherem Um-
Dank eines immer vielfältigeren Produktangebotes,
gang mit großen Datenmengen.
verbesserter Bedienbarkeit und neuen Ansätzen wie
Insbesondere die von beiden Tools gebotenen, vielfäl-
Self-Acting Data Mining gibt es mittlerweile für nahezu
tigen Optionen zur grafischen Aufbereitung und Ex-
jede (unternehmens-)spezifische Analyseaufgabe das
ploration der Assoziationsregeln sind im Testfeld eine
passende Data-Mining-Werkzeug.
Klasse für sich.
Auch am Ende des Datenanalyseprozesses – der ErgebBei der Ergebnisauswertung verfügt das Analytic Fra-
nisinterpretation – ist eine positive Entwicklung zu
mework von KXEN lediglich über eine – allerdings kom-
verzeichnen: Die gerade bei der Assoziationsanalyse
fortabel konfigurierbare – textuelle Ausgabe.
wichtige Funktion, die Fülle der Ergebnisse in aussage-
KXEN überzeugt besonders mit seinem einsteiger-
kräftiger Form grafisch darzustellen, ist in den letzten
freundlichen Bedienkonzept und mit dem unerreicht
Jahren spürbar ausgebaut und stark verbessert wor-
schnellen, selbstentwickelten Assoziationsverfahren.
den. Hier ist ein deutlicher Vorsprung der kommerzi-
Gerade das routinemäßige Analysieren großer Daten-
ellen Data-Mining-Suiten vor spezialisierten Tools und
mengen geht mit diesem Tool leicht von der Hand
Open-Source-Suiten wahrzunehmen.
– auch aufgrund der sehr guten Systemstabilität.
Dieser Fortschritt ist im Umfeld der Assoziations- und
Sequenzanalyse besonders wichtig, denn derartige
Assoziations- und Sequenzanalysen ideal
zum Einstieg ins Data Mining
Analysen eignen sich aufgrund ihrer eingängigen Warenkorbmetapher, der geringen Datenanforderungen
und der vielfältigen Anwendungsmöglichkeiten beson-
„The fruits of knowledge growing on the tree of data
ders gut als Einstieg in die explorative Datenanalyse.
are not easy to pick“. Diese Einschätzung des DataMining-Experten William Frawley aus dem Jahr 1991
Peter Neckel, Analyst und Leiter der Studie beim Ana-
hat im Grundsatz auch heute noch seine Berechtigung.
lysten- und Beratungshaus mayato.
Kontakt:
⇢ Hinweis
mayato GmbH
Die vollständige Studie können Sie zum Preis
Am Borsigturm 9
von 299 € käuflich erwerben. (99.- € für Stu-
D-13507 Berlin
denten und Hochschulen)
www.mayato.com
Im Internet unter www.mayato.com bzw. per
Email an [email protected] mayato.
Georg Heeren
Tel. +49 171 481.8877
[email protected]
© mayato® GmbH. Alle Rechte vorbehalten.
Seite 5
Data Mining Studie 2010 | Praxistest & Benchmarking
Notizen
Seite 6
© mayato® GmbH. Alle Rechte vorbehalten.
Data Mining Studie 2010 | Praxistest & Benchmarking
© mayato® GmbH. Alle Rechte vorbehalten.
Seite 7
Gestaltung: sign-grafikdesign.de
mayato® GmbH | Am Borsigturm 9 | 13507 Berlin | T +49 30 4174.8657 | [email protected] | www.mayato.com