Data Mining Studie Praxistest & Benchmarking -Zusammenfassung- Data Mining Studie 2010 | Praxistest & Benchmarking Data Mining Studie 2010 Praxistest & Benchmarking Vielfältiger Data-Mining-Softwaremarkt spezialisierte Data-Mining-Werkzeuge für bestimmte Analyseaufgaben angeboten. Auch Hersteller von BI- Die immer stärkere Verbreitung des Data Mining in Software haben vielfach Data-Mining-Funktionen in zahlreiche Branchen und in immer mehr Anwendungs- ihre Produkte integriert. gebiete hinein führt zu einer stetigen Diversifizierung der Data-Mining-Softwareprodukte. Zusammen mit der zunehmend flexiblen Preisgestaltung birgt die- Cross- und Upselling-Potenziale realisieren mit Data Mining se Entwicklung für potenzielle Anwender und Unternehmen zahlreiche Vorteile: Sie können sich etwa Bei den Anwendungsgebieten steht nach wie vor der für jeden auch etwas spezielleren Analysewunsch Marketing- und Vertriebsbereich im Vordergrund – im und passend zur jeweils vorliegenden IT-Infrastruktur Speziellen gilt das Cross- und Upselling aktuell als die individuell das geeignete Werkzeug auswählen. wichtigste Data-Mining-Anwendung: Kaum noch ein (Web-)Versandhändler kommt ohne Empfehlungen Der Hauptnachteil liegt allerdings in der zunehmen- der Art „Kunden, die dieses Produkt gekauft haben, den Unübersichtlichkeit des Angebots, was die konkre- kauften auch:…“ oder „Was kaufen Kunden, nachdem te Auswahl erschwert. Die mayato Data Mining Studie Sie diesen Artikel angesehen haben?“ aus. hat sich zum Ziel gesetzt, diese Auswahl durch eine Die Erfolgsquote dieser zusätzlichen Produktange- umfangreiche Evaluation aktueller Tools in einem typi- bote kann durch Data-Mining-Analysen des Verbund- schen Praxisszenario zu erleichtern. kaufverhaltens (Assoziations- und Sequenzanalyse) stark erhöht werden. Die Erkenntnisse werden auch in Denn die unterschiedlichen „Verpackungen“, in denen anderen Branchen wie z.B. bei Finanzdienstleistern die Anbieter ihre Softwareprodukte offerieren, sind und Versicherungen verstärkt dazu genutzt, Direkt- zahlreich: Neben den klassischen „All-in-One-Produkten“, marketingaktionen zielgenauer planen und umsetzen den Data-Mining-Suiten, die es seit einiger Zeit auch zu können. in der Open-Source-Variante gibt, werden zahlreiche Seite 2 © mayato® GmbH. Alle Rechte vorbehalten. Data Mining Studie 2010 | Praxistest & Benchmarking Grundtypen von Data-Mining-Software tet (siehe Abb. 1): Die klassische, funktionsmächtige Data-Mining-Suite findet sich ebenso im Testfeld wie Die Data Mining Studie 2010 vergleicht anhand eines das spezialisierte, schlanke Data-Mining-Werkzeug. großen Testdatensatzes (1,8 Mio. Zeilen) fünf Data- Eine Sonderstellung in dieser Kategorie nimmt die Mining-Tools und -Suiten: softwaretechnische Umsetzung des Self-Acting Data Mining ein – dieser hochautomatisierte Ansatz kommt weitgehend ohne manuelle Datenvorverarbeitung und › SAS Enterprise Miner 6.1 Parametrisierung aus. › StatSoft STATISTICA Data Miner 9 › KNIME 2.0.3 Weiterhin ist ein Business-Intelligence-Werkzeug getes- › KXEN Analytic Framework 5.1.1 tet worden, das Data-Mining-Verfahren eher als Zusatz › SAP NetWeaver 7.0 Data Mining Workbench. Das Ziel bestand darin, die verschiedenen Analyseansätze und -konzepte anhand einer typischen, praxisnahen Fragestellung im Live-Einsatz zu prüfen. Daher wurden bewusst Data-Mining-Produkte aus gänzlich zu mächtigen Datenverwaltungsfunktionen offeriert. Um die Frage zu klären, ob sich die Analyseaufgabe auch mit einer kostenlosen Data-Mining-Suite zufriedenstellend und mit ähnlichem Bedienkomfort lösen lässt, wurde zusätzlich eine Open-Source-Variante in den Test aufgenommen. unterschiedlichen Tool- und Preiskategorien getes- SAS Enterprise Miner 6.1 Data-Mining-Suiten (kommerziell) Im Test SPSS PASW Modeler 13 StatSoft: STATISTICA Data Miner 9 Im Test Rapid-I: Rapidminer 4.6 Data-Mining-Suiten (Open Source) Universität Konstanz: KNIME 2.0.3 Im Test Universität Waikato: Weka 3.6 Data-Mining-Werkzeuge (Self-Acting Data Mining) KXEN Analytic Framework 5.1.1 Im Test Viscovery SOMine 5.1 Data-Mining-Werkzeuge (klassisch) prudsys Realtime Decisioning Engine (RDE) Bissantz Delta Master 5.4.1 SAP NetWeaver 7.0 Data Mining Workbench Business-Intelligence-Werkzeuge Im Test ORACLE 11g Data Mining Microsoft SQL Server 2008 Analysis Services [Abb.1]: Taxonomie aktueller Data-Mining-Lösungen © mayato® GmbH. Alle Rechte vorbehalten. Seite 3 Data Mining Studie 2010 | Praxistest & Benchmarking Mittelstandstaugliche Preismodelle Große Unterschiede im Praxistest bei Funktionsumfang, Laufzeit und Ergonomie Die Produktentscheidung will gut überlegt sein: Je nach Funktionsumfang und Nutzerzahl kann eine Cli- Im Praxistest zeigte sich, dass die Bedienung dank ent/Server-Lizenz mehrere Hunderttausend Euro in der grafischer Benutzeroberflächen mittlerweile grund- Anschaffung sowie jährliche Wartungskosten ebenfalls sätzlich leicht von der Hand geht. Ein dominierendes im sechsstelligen Eurobereich verursachen. Bedienkonzept lässt sich jedoch weiterhin nicht erkennen; manche Hersteller gehen sogar dazu über, meh- Es geht aber auch günstiger: Spezialisierte Data- rere Modi für unterschiedliche Anwendertypen anzu- Mining-Werkzeuge sind bereits für unter 10.000 Euro bieten. zu haben. Aber auch funktionsmächtige Data-MiningSuiten können z.B. im Falle des STATISTICA Data Miner Dennoch erfordern insbesondere die mächtigen Data- für moderate 20.000 Euro für die lokale Einzelplatzli- Mining-Suiten im Vergleich zu spezialisierten Werkzeu- zenz erworben werden – bei vollem Funktionsumfang. gen nicht nur einen erhöhten Einarbeitungsaufwand, Für Open-Source-Lösungen entfällt der Anschaffungs- sondern auch fundiertes Hintergrundwissen. preis; hier fallen lediglich jährliche Supportgebühren StatSoft und KXEN versuchen dem Gelegenheitsanwen- an, die sich im mittleren vierstelligen Eurobereich der entgegen zu kommen, indem sie z.B. Assistenten bewegen. anbieten, die eine feste Abfolge an Analyseschritten vorgeben und die erforderlichen Eingaben dazu systematisch abfragen. Studiendesign Deutliche Unterschiede lassen sich auch beim FunktionsDie diesjährige Ausgabe hat die Untersuchung von umfang feststellen. Bei SAP und KNIME zeigen sich Cross-/Upselling-Potenzialen zum Schwerpunkt. hier z.B. praxisrelevante Lücken: Beide Tools bieten Anhand einer Fallstudie wird der gesamte Data- keine Sequenzanalyse an, so dass die zeitlichen Ab- Mining-Prozess durchlaufen – vom Einlesen der Daten stände zwischen den Kauftransaktionen nicht berück- über die Datenvorverarbeitung und die Datenexplo- sichtigt werden können. Das bedeutet in der Praxis ration bis hin zur Durchführung der Assoziations- und eine deutliche Einschränkung, da so nicht nur zahlrei- Sequenzanalyse sowie der (grafischen) Darstellung che analytische Anwendungsszenarien im Umfeld des und Interpretation der Ergebnisse. Cross- und Upselling, sondern auch im Risikomanage- Ein derart aufwändiges und umfangreiches Testver- ment oder in der Betrugserkennung bei Banken und fahren liefert wertvolle praxisrelevante Fakten und Versicherungen ausgeklammert werden. Erkenntnisse im direkten Vergleich, die nicht aus den Produktbeschreibungen der Hersteller hervorgehen. Beide Werkzeuge bieten zudem nur eine rudimentäre Unterstützung bei der Ergebnisauswertung – bei Die Bewertung stützt sich u.a. auf Bedienung & Do- großen Datenmengen ist der Anwender mit der Inter- kumentation, Funktionsumfang, Systemverhalten bei pretation nicht sortierbarer Standardlisten, die meh- großen Datenmengen und Stabilität. Weiterhin wur- rere Hundert Assoziationsregeln enthalten, deutlich de die Ausführungsgeschwindigkeit mit einer Vielzahl überfordert. KNIME fällt zusätzlich bei der Laufzeit ab unterschiedlicher Parametereinstellungen gemessen – wesentlich verursacht durch die zeitraubende Daten- und dokumentiert. Zusätzlich zum umfangreichen vorverarbeitung, die für die Erstellung der zur internen Praxistest wurde für jedes getestete Werkzeug eine Berechnung verwendeten Datenstruktur notwendig ist. detaillierte Funktionsübersicht rund um die Assoziations- und Sequenzanalyse erstellt. Seite 4 © mayato® GmbH. Alle Rechte vorbehalten. Data Mining Studie 2010 | Praxistest & Benchmarking Dass es auch komfortabler geht, zeigen der SAS En- Dennoch ist unübersehbar, dass der Einstieg in die ex- terprise Miner und der STATISTICA Data Miner. Sie plorative Datenanalyse im Jahr 2010 bedeutend leich- punkten beide mit umfangreicher Funktionalität, einer ter fällt als noch vor wenigen Jahren: hohen Ausführungsgeschwindigkeit und sicherem Um- Dank eines immer vielfältigeren Produktangebotes, gang mit großen Datenmengen. verbesserter Bedienbarkeit und neuen Ansätzen wie Insbesondere die von beiden Tools gebotenen, vielfäl- Self-Acting Data Mining gibt es mittlerweile für nahezu tigen Optionen zur grafischen Aufbereitung und Ex- jede (unternehmens-)spezifische Analyseaufgabe das ploration der Assoziationsregeln sind im Testfeld eine passende Data-Mining-Werkzeug. Klasse für sich. Auch am Ende des Datenanalyseprozesses – der ErgebBei der Ergebnisauswertung verfügt das Analytic Fra- nisinterpretation – ist eine positive Entwicklung zu mework von KXEN lediglich über eine – allerdings kom- verzeichnen: Die gerade bei der Assoziationsanalyse fortabel konfigurierbare – textuelle Ausgabe. wichtige Funktion, die Fülle der Ergebnisse in aussage- KXEN überzeugt besonders mit seinem einsteiger- kräftiger Form grafisch darzustellen, ist in den letzten freundlichen Bedienkonzept und mit dem unerreicht Jahren spürbar ausgebaut und stark verbessert wor- schnellen, selbstentwickelten Assoziationsverfahren. den. Hier ist ein deutlicher Vorsprung der kommerzi- Gerade das routinemäßige Analysieren großer Daten- ellen Data-Mining-Suiten vor spezialisierten Tools und mengen geht mit diesem Tool leicht von der Hand Open-Source-Suiten wahrzunehmen. – auch aufgrund der sehr guten Systemstabilität. Dieser Fortschritt ist im Umfeld der Assoziations- und Sequenzanalyse besonders wichtig, denn derartige Assoziations- und Sequenzanalysen ideal zum Einstieg ins Data Mining Analysen eignen sich aufgrund ihrer eingängigen Warenkorbmetapher, der geringen Datenanforderungen und der vielfältigen Anwendungsmöglichkeiten beson- „The fruits of knowledge growing on the tree of data ders gut als Einstieg in die explorative Datenanalyse. are not easy to pick“. Diese Einschätzung des DataMining-Experten William Frawley aus dem Jahr 1991 Peter Neckel, Analyst und Leiter der Studie beim Ana- hat im Grundsatz auch heute noch seine Berechtigung. lysten- und Beratungshaus mayato. Kontakt: ⇢ Hinweis mayato GmbH Die vollständige Studie können Sie zum Preis Am Borsigturm 9 von 299 € käuflich erwerben. (99.- € für Stu- D-13507 Berlin denten und Hochschulen) www.mayato.com Im Internet unter www.mayato.com bzw. per Email an [email protected] mayato. Georg Heeren Tel. +49 171 481.8877 [email protected] © mayato® GmbH. Alle Rechte vorbehalten. Seite 5 Data Mining Studie 2010 | Praxistest & Benchmarking Notizen Seite 6 © mayato® GmbH. Alle Rechte vorbehalten. Data Mining Studie 2010 | Praxistest & Benchmarking © mayato® GmbH. Alle Rechte vorbehalten. Seite 7 Gestaltung: sign-grafikdesign.de mayato® GmbH | Am Borsigturm 9 | 13507 Berlin | T +49 30 4174.8657 | [email protected] | www.mayato.com
© Copyright 2025 ExpyDoc