Methoden des Data Mining zur Visualisierung unterschiedlicher Belastungsmuster einer Hybridfahrzeugflotte auf Basis von Lastkollektivdaten Philipp Bergmeir a, Christof Nitsche b, Jürgen Nonnast a, Michael Bargende c a Fakultät Informationstechnik, Hochschule Esslingen, Flandernstr. 101, 73732 Esslingen Email: [email protected] [email protected] b Daimler AG, Abteilung RD/PGH, Mercedes-Benz Werk Sindelfingen, Bela-Barenyi-Str. 14, 71063 Sindelfingen c Institut für Verbrennungsmotoren und Kraftfahrwesen, Universität Stuttgart, Pfaffenwaldring 12, 70569 Stuttgart Abstract: Um die Auslegung zukünftiger Hybridantriebsstränge und deren Komponenten hinsichtlich wirtschaftlicher Aspekte und ihrer Lebensdauer optimieren zu können, ist das Wissen, welchen unterschiedlichen Belastungsmustern die Fahrzeuge einer Hybridfahrzeugflotte ausgesetzt sind, zwingend erforderlich. Diese Arbeit stellt deshalb eine Methodik aus dem Bereich des Data Mining vor, die es ermöglicht, die in den Belastungskollektivdaten vorherrschenden Belastungsmuster zu visualisieren. Hierfür wird zunächst mithilfe des Random Forest (RF) Algorithmus für jedes beliebige Fahrzeugpaar eine Kennzahl ermittelt, die angibt, ob die beiden betrachteten Fahrzeuge auf eine ähnliche Weise belastet werden. Auf Basis der so ermittelten Ähnlichkeitswerte werden schließlich mithilfe eines Verfahrens zur Dimensionsreduktion namens t-Distributed Stochastic Neighbor Embedding (t-SNE), zweidimensionale Repräsentationen der Fahrzeugbelastungskollektivdaten ermittelt, die beispielsweise in einem Streudiagramm graphisch dargestellt werden können. Das große Potenzial der vorgestellten Methodik wird anhand zweier Fallstudien gezeigt, in denen die hochdimensionalen Belastungskollektivdaten zweier unterschiedlicher Hybridfahrzeugflotten, die aus 6670 bzw. 7576 Fahrzeugen bestehen, visualisiert werden. 1 Einleitung Moderne Steuergeräte und Datenlogger, sowie große und kostengünstige Speichermedien führen seit einiger Zeit dazu, dass in der Automobilindustrie pro Fahrzeug sehr viele Daten aufgezeichnet werden, die u.a. das Fahrverhalten oder diverse Belastungen des Antriebsstrangs und einzelner Komponenten beschreiben. Aus dieser Vielzahl an Daten sollen schließlich Erkenntnisse gewonnen werden, die es den Ingenieuren ermöglichen, zukünftige Bauteile oder Antriebsstränge, beispielsweise hinsichtlich ihrer Lebensdauer zu optimieren. Die Extraktion von nützlichem Wissen aus diesen stetig wachsenden Datenmengen stellt dabei jedoch eine immer größer werdende Herausforderung dar [1]. In dieser Arbeit wird deshalb ein Data Mining System vorgestellt, mit dessen Hilfe aus einer Vielzahl verschiedener Belastungskollektive, welche zusammen betrachtet sowohl die gesamtheitliche Nutzung als auch Belastung jedes einzelnen Fahrzeugs charakterisieren, zweidimensionale Repräsentationen bestimmt werden können, die eine Visualisierung dieser Fahrzeuggesamtbelastungen ermöglichen. Hierfür wird zunächst mit Hilfe des Random Forest (RF) Algorithmus [2] für jedes Fahrzeugpaar ein Ähnlichkeitswert bestimmt, anhand dessen sich beurteilen lässt, ob zwei Fahrzeuge einem ähnlichen Belastungsmuster ausgesetzt sind oder nicht. Diese paarweisen Kennzahlen werden anschließend durch eine einfache mathematische Transformation in Unähnlichkeitswerte überführt, welche als Eingabe für ein Verfahren zur Dimensionsreduktion namens t-Distributed Stochastic Neighbor Embedding (t-SNE) [3] dienen. Dieses Verfahren berechnet schließlich die gewünschten niedrigdimensionalen Repräsentationen der Belastungskollektivdatensätze pro Fahrzeug. Durch das vorgestellte Verfahren kann, sozusagen „auf einen Blick“, für eine ganze Fahrzeugflotte herausgefunden werden, ob die Fahrzeugbelastungen beispielsweise von den jeweiligen Ländern abhängen, in denen die Fahrzeuge primär betrieben werden oder in welchen Ländern ein ähnliches Nutzungs- bzw. Belastungsverhalten der Fahrzeuge vorherrscht. Eine weitere mögliche Anwendung besteht darin, visuell zu überprüfen, ob Fahrzeuge mit einem Ausfall einer bestimmten (Hybrid)komponente von solchen, bei denen das betrachtete Bauteil ordnungsgemäß funktioniert, rein auf Belastungskollektivbasis unterschieden werden können. Beide genannten Anwendungsfälle werden anhand zweier, im realen Fahrbetrieb erzeugten, Datensätze in dieser Arbeit behandelt und mithilfe dieser wird die Überlegenheit der vorgeschlagenen Methodik gegenüber gängigen Alternativen demonstriert. Die restliche Arbeit gliedert sich folgendermaßen: Nach dieser Einleitung erfolgt in Abschnitt 2 eine kurze Einführung in Belastungskollektivdaten, da diese unsere Datenbasis bilden. Der dritte Abschnitt erläutert danach im Detail das Verfahren t-SNE, die Berechnung des RF-basierten Ähnlichkeitsmaßes und wie dieses in t-SNE eingesetzt werden kann. Im vierten Abschnitt wird im Anschluss daran erklärt, wie die Daten vorverarbeitet und welche Parametereinstellungen in den Analysen verwendet werden. Die erzielten Ergebnisse werden in Abschnitt 5 präsentiert und diskutiert. Der sechste und letzte Abschnitt enthält eine kurze Zusammenfassung dieser Arbeit und gibt einen kurzen Ausblick auf zukünftige Forschungsthemen. 2 Datenbasis: Belastungskollektive Belastungskollektivdaten haben ihren Ursprung in der Betriebsfestigkeit und werden, wie der Name bereits suggeriert, dazu verwendet, die Belastungen eines Bauteils darzustellen. Sie stellen das Ergebnis sog. „Zähl“- oder „Klassierverfahren“ dar, die auf Beanspruchungszeitfunktionen, d.h. Messreihen von Belastungssignalen, angewendet werden. Da diese Art der Transformation der Signalmessungen zu einem Informationsverlust führt, wie z.B. zum Verlust der Kenntnis über das zeitliche Eintreten bestimmter Events, muss für jeden Anwendungsfall individuell geprüft werden, ob der Einsatz dieser Verfahren zulässig ist [4]. Zu den bekanntesten Zählverfahren gehören die sog. „Rainflow“-, die „Verweildauer“- und die „Momentanwertzählung“ [4], wobei letztere den meisten der hier betrachteten Belastungskollektiven zugrunde liegt. Für eine detaillierte Erläuterung dieser Verfahren wird der interessierte Leser auf [4] und [5] verwiesen. Die beiden in dieser Arbeit analysierten Datensätzen wurden durch zwei reale, unterschiedliche Hybridfahrzeugflotten generiert und setzen sich aus jeweils über 50 heterogenen Belastungskollektiven zusammen, wovon die meisten direkt auf den in den Fahrzeugen verbauten Steuergeräten berechnet wurden. Zusätzliche Kollektive wurden nachträglich durch einfache Berechnungen aus diesen gewonnen. Tabelle 1: Eigenschaften der analysierten Belastungskollektivdatensätze Charakteristika Fahrzeuganzahl Anzahl an Betriebsländern Mindestanzahl an Fahrzeugen pro Betriebsland Anzahl an Belastungskollektivklassen Anzahl an Hybridbatterieausfällen Datensatz 1 6670 12 25 Datensatz 2 7576 11 100 737 - 793 33 Tabelle 1 gibt einen kurzen Überblick über die wichtigsten Kennzahlen der beiden Datensätze. Datensatz 1 enthält Belastungskollektivdaten für 6670 Hybridfahrzeuge, wohingegen Datensatz 2 sich aus den Daten von 7576 Fahrzeugen zusammensetzt. Die betrachteten Hybridfahrzeuge werden in 12 bzw. 11 verschiedenen Ländern unterschiedlicher Kontinente betrieben, wobei aus jedem Land mindestens 25 bzw. 100 Fahrzeuge stammen. Die Belastungskollektive des ersten Datensatzes ergeben zusammen 737 Belastungskollektivklassen, wohingegen die Fahrzeuge des zweiten Datensatzes jeweils durch 793 solcher Attribute beschrieben sind. Zusätzlich befinden sich unter den 7576 Fahrzeugen des zweiten Datensatzes 33 Fahrzeuge, deren Belastungskollektive den Stand zum Zeitpunkt eines Ausfalls der Hybridbatterie widerspiegeln. 3 Methodik Um Datenanalysen auf hochdimensionalen Datensätzen durchführen zu können, ist es oftmals zwingend erforderlich, die Anzahl der Dimensionen zu reduzieren. Aus diesem Grund wurde im Lauf der Jahre eine ganze Reihe an Verfahren zur Dimensionsreduktion entwickelt. Diese lassen sich in die beiden Hauptgruppen, die sog. „linearen“ bzw. „nichtlinearen“ Dimensionsreduktionsverfahren aufteilen. Zu den bekanntesten linearen Vertretern zählen die sog. „Hauptkomponentenanalyse“ (PCA) [6] und die „Multidimensionale Skalierung“ (MDS) [7]. Als Repräsentanten der nichtlinearen Verfahren seien an dieser Stelle das sog. „Sammon Mapping“ [8] und „Isomap“ [9] genannt. Ein wesentlicher Unterschied der Methoden dieser beiden Hauptgruppen besteht darin, dass lineare Reduktionsverfahren versuchen, „unähnliche“ Datenobjekte im niedrigdimensionalen Raum möglichst weit voneinander entfernt zu modellieren, wohingegen die nichtlinearen Varianten danach streben, „ähnliche“ Instanzen möglichst nah beieinander abzubilden [3]. Ein großer Nachteil der meisten Vertreter beider Gruppen ist jedoch, dass die gefundenen niedrigdimensionalen Repräsentationen der Datensätze nicht zugleich lokale und globale Strukturen des Ausgangsdatensatzes erhalten. Unter lokalen Strukturen versteht man hierbei, dass sich die „Nachbarschaft“ eines hochdimensionalen Datenpunktes auch für seinen niedrigdimensionalen Repräsentanten nicht ändert. Andererseits sollten aber auch globale Strukturen, wie das Vorhandensein von Datenclustern im hochdimensionalen Raum nicht durch die Projektion in den niedrigdimensionalen Raum verloren gehen [10]. Ein vergleichsweise neues nichtlineares Verfahren zur Dimensionsreduktion, das diese Problematik geeignet berücksichtigt, ist das sog. „t-Distributed Stochastic Neighbor Embedding“ (t-SNE) [3], das von van der Maaten und Hinton im Jahr 2008 vorgestellt wurde. Da es das „Herzstück“ der in dieser Arbeit vorgestellten Methodik darstellt, wird es im folgenden Abschnitt detailliert erläutert. 3.1 t-Distributed Stochastic Neighbor Embedding Gegeben sei ein hochdimensionaler Datensatz 𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑁 }, wobei 𝑥𝑖 ∈ ℝ𝑝 sei und die Einträge der Belastungskollektive des 𝑖. Fahrzeugs enthalte. Die Menge der korrespondierenden, zu bestimmenden niedrigdimensionalen Datenrepräsentationen werde mit 𝑌 = {𝑦1 , 𝑦2 , … , 𝑦𝑁 } bezeichnet, wobei 𝑦𝑖 ∈ ℝ𝑚 und 𝑚 ≪ 𝑝 gelte. Um eine einfache Visualisierung von 𝑌 zu ermöglichen, wird für 𝑚 typischerweise 2 oder 3 gewählt. Die Grundidee von t-SNE besteht darin, „Ähnlichkeiten“ zwischen je zwei beliebigen Objekten 𝑥𝑖 und 𝑥𝑗 des hochdimensionalen Ausgangsdatensatzes 𝑋 bzw. zwischen den gesuchten niedrigdimensionalen Repräsentationen 𝑦𝑖 und 𝑦𝑗 so zu modellieren, dass diese jeweils eine Wahrscheinlichkeitsverteilung über den Objektpaaren bilden. Dabei werden letztere so definiert, dass zwei „ähnlichen“ bzw. „benachbarten“ Instanzen eine hohe Wahrscheinlichkeit zugeordnet wird, wohingegen weit voneinander entfernt liegende, d.h. sehr „unähnliche“ Datenobjekte, eine geringe Wahrscheinlichkeit unter dieser Verteilung besitzen. Formal ist die gemeinsame Wahrscheinlichkeit 𝑝𝑖𝑗 , welche t-SNE als Maß für die paarweise Ähnlichkeit zwischen zwei hochdimensionalen Objekten 𝑥𝑖 und 𝑥𝑗 verwendet, gegeben durch [11]: 𝑝𝑖𝑗 = pj|i + 𝑝𝑖|𝑗 , 2𝑁 (1) wobei 𝑝𝑖|𝑖 = 0 und die bedingte Wahrscheinlichkeit 𝑝𝑗|𝑖 durch den normalisierten Gaußkern 2 𝑝𝑗|𝑖 = exp (−𝑑(𝑥𝑖 , 𝑥𝑗 ) ⁄2𝜎𝑖2 ) (2) ∑𝑘≠𝑖 𝑒𝑥𝑝(−𝑑(𝑥𝑖 , 𝑥𝑘 )2 ⁄2𝜎𝑖2 ) definiert ist. Dabei bezeichnet 𝑑(𝑥𝑖 , 𝑥𝑗 ) eine Distanzfunktion, z.B. die Euklidische Distanz 𝑑(𝑥𝑖 , 𝑥𝑗 ) = ‖𝑥𝑖 − 𝑥𝑗 ‖2 , und die Bandbreite des Gaußkerns wird durch 𝜎𝑖 angegeben. Letztere wird, individuell für jedes Objekt 𝑖 so gewählt, dass die Perplexität der bedingten Wahrscheinlichkeitsverteilung 𝑃𝑖 einem vordefinierten Wert 𝑢 entspricht. Dadurch nimmt 𝜎𝑖 für Objekte, die sich in dichteren Regionen des hochdimensionalen Raumes befinden, tendenziell niedrigere Werte an als für Objekte, die in dünnbesiedelten Bereichen liegen. Insofern kann die Perplexität als ein Maß für die effektive Anzahl an Nachbarn eines Objektes gesehen werden. Sie ist durch die Gleichung 𝑃𝑒𝑟𝑝(𝑃𝑖 ) = 2− ∑𝑗 𝑝𝑗|𝑖 log2 𝑝𝑗|𝑖 (3) gegeben und nimmt üblicherweise Werte zwischen 5 und 50 an, wobei die Ergebnisse von t-SNE üblicherweise sehr robust gegenüber Werteänderungen dieses Parameters sind [3]. Um im niedrigdimensionalen Raum lokale Datenstrukturen erhalten zu können, müssen Objekte, die im hochdimensionalen Raum weit voneinander entfernt liegen, im niedrigdimensionalen Raum durch eine noch größere Distanz modelliert werden. Eine skizzenhafte Begründung zeigt Abbildung 1. 2D 1D 𝑥𝑘 𝑥𝑖 𝑥𝑖 𝑥𝑗 𝑥𝑘 𝑥𝑗 Abbildung 1: Skizze zur Abstandserhaltungsproblematik bei einer Projektion dreier zweidimensionaler Punkte in den eindimensionalen Raum: Eine exakte Modellierung kurzer Distanzen ( ) im eindimensionalen Raum führt zu einer Abstandsvergrößerung zwischen weiter entfernt liegenden Punkten ( ) [20]. Die Objekte 𝑥𝑖 und 𝑥𝑗 sowie 𝑥𝑗 und 𝑥𝑘 sind im zweidimensionalen Raum (vgl. linke Graphik) jeweils gleich weit voneinander entfernt, während der Abstand zwischen 𝑥𝑖 und 𝑥𝑘 etwas größer ist. Möchte man die kurzen Distanzen ( ) im eindimensionalen Raum erhalten, müssen die Punkte 𝑥𝑖 und 𝑥𝑘 weiter entfernt als ursprünglich voneinander modelliert werden, da eine Dimension nicht ausreicht, um diesen Abstand ebenfalls zu erhalten. Würde man hingegen die Distanz ( ) zwischen diesen beiden Punkten im eindimensionalen Raum bewahren, so würden dadurch alle drei Punkte näher „zusammenrücken“. Dies kann zu einer völligen Überlagerung bzw. einer Überlappung ähnlicher Punkte im niedrigdimensionalen Raum führen, sodass keine lokalen Unterschiede bzw. Strukturen mehr erkennbar sind. Man spricht hierbei auch vom sog. „crowding problem“ [3]. In t-SNE werden die Ähnlichkeiten zwischen den niedrigdimensionalen Repräsentationen 𝑦𝑖 und 𝑦𝑗 zweier Objekte 𝑥𝑖 und 𝑥𝑗 deshalb durch einen normalisierten Kern einer Student-t-Verteilung mit einem Freiheitsgrad berechnet: 2 −1 𝑞𝑖𝑗 = (1 + ‖𝑦𝑖 − 𝑦𝑗 ‖ ) ∑𝑘≠ℓ(1 + ‖𝑦𝑘 − 𝑦ℓ ‖2 )−1 (4) , wobei 𝑞𝑖𝑖 = 0 ist. Da bei dieser Wahrscheinlichkeitsverteilung mehr Masse auf den Flanken im Vergleich zur Normalverteilung liegt, können unähnliche Objekte, verglichen mit dem Ursprungsraum, noch weiter voneinander entfernt modelliert und dadurch dem „crowding problem“ entgegengewirkt werden. Schließlich erhält man die finalen Koordinaten der Projektionspunkte 𝑦1 , 𝑦2 , … , 𝑦𝑁 im niedrigdimensionalen Raum durch Minimierung der KullbackLeibler-Divergenz (KL-Divergenz) zwischen den induzierten gemeinsamen Wahrscheinlichkeitsverteilungen 𝑃 und 𝑄: min 𝐾𝐿(𝑃‖𝑄) = ∑ ∑ 𝑝𝑖𝑗 log 𝑄 𝑖 𝑗≠𝑖 𝑝𝑖𝑗 . 𝑞𝑖𝑗 (5) Dieses Minimierungsproblem kann mithilfe eines Gradientenabstiegsverfahrens gelöst werden. Aufgrund der Asymmetrie der KL-Divergenz werden unterschiedliche Arten von Fehlern in der niedrigdimensionalen Darstellung verschieden stark gewichtet: Werden einerseits wertemäßig große Wahrscheinlichkeiten 𝑝𝑖𝑗 , d.h. ähnliche Objekte 𝑥𝑖 und 𝑥𝑗 , fälschlicherweise durch wertemäßig kleine 𝑞𝑖𝑗 , d.h. durch entfernte Punkte 𝑦𝑖 und 𝑦𝑗 modelliert, so führt dies zu einem hohen Beitrag in der Zielfunktion (vgl. (5)). Andererseits führt die Verwendung einer hohen Wahrscheinlichkeit 𝑞𝑖𝑗 für eine geringe Wahrscheinlichkeit 𝑝𝑖𝑗 nur zu einem kleinen Beitrag in (5), weshalb diese Fehler nicht so stark ins Gewicht fallen. Dadurch gelingt es t-SNE lokale Strukturen, d.h. ähnliche Objekte, im niedrigdimensionalen Raum korrekt darzustellen. 3.2 Das Random Forest Ähnlichkeitsmaß Der RF Algorithmus [2] gehört heutzutage zu den State of the Art Klassifikations- und Regressionsverfahren. Mithilfe eines einfachen Tricks, den Breiman und Cutler in [12] erstmals vorstellen, kann dieses Verfahren jedoch auch dazu verwendet werden, Ähnlichkeitsmaße zwischen hochdimensionalen Objekten zu bestimmen. Im ersten Schritt erzeugt man hierfür einen synthetischen Datensatz 𝑋̃ = {𝑥 ̃, ̃, ̃} 1 𝑥 2 …,𝑥 𝑁 durch unabhängiges, randomisiertes Sampling auf Basis der eindimensionalen Randverteilungen der Attribute des Datensatzes 𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑁 }. Präziser ausgedrückt, entspricht die 𝑟. Koordinate des generierten Objektes 𝑥̃𝑗 einem zufällig gezogenen Wert aus der Menge {𝑥1𝑟 , 𝑥2𝑟 , … , 𝑥𝑁𝑟 }, wobei 𝑥𝑖𝑟 die 𝑟. Komponente des Vektors 𝑥𝑖 sei. Im zweiten Schritt erhalten alle Objekte des Originaldatensatzes 𝑋 das Klassenlabel 𝐿𝑜𝑟𝑖𝑔 ∈ {0,1} und alle synthetisch generierten Objekte aus 𝑋̃ das Label 𝐿𝑠𝑦𝑛 ∈ {0,1}, wobei 𝐿𝑜𝑟𝑖𝑔 ≠ 𝐿𝑠𝑦𝑛 sei. Anschließend wird mithilfe des RF Algorithmus eine binäre Klassifikation zur Unterscheidung der Datensätze (𝑋, 𝐿𝑜𝑟𝑖𝑔 ) und (𝑋̃, 𝐿𝑠𝑦𝑛 ) durchgeführt. Anhand des so erlernten RF Modells kann man schließlich ein Maß 𝑝𝑟𝑜𝑥(𝑥𝑖 , 𝑥𝑗 ) für die Ähnlichkeit zweier beliebiger Objekte 𝑥𝑖 und 𝑥𝑗 wie folgt bestimmen: Man „füttert“ das RF Modell nacheinander mit 𝑥𝑖 und 𝑥𝑗 und zählt, wie oft beide Objekte im gleichen Endknoten (=„Blatt“) jedes einzelnen Entscheidungsbaumes landen, welche das RF Modell bilden. Je häufiger dies der Fall ist, umso ähnlicher sind sich die beiden Objekte. Anschließend erfolgt eine Normierung dieser Zählerstände, indem man durch die Anzahl der Bäume im RF teilt. Um die Stabilität der Ergebnisse zu erhöhen, kann man nacheinander 𝑛𝑓𝑜𝑟𝑒𝑠𝑡 Random Forest Modelle (𝑛𝑓𝑜𝑟𝑒𝑠𝑡 ≥ 1) erzeugen und die entstehenden Ähnlichkeitswerte über die Anzahl der erstellten Modelle mitteln: 𝑝𝑟𝑜𝑥𝑅𝐹 (𝑥𝑖 , 𝑥𝑗 ) = 1 𝑛𝑓𝑜𝑟𝑒𝑠𝑡 𝑛𝑓𝑜𝑟𝑒𝑠𝑡 (6) ∑ 𝑝𝑟𝑜𝑥𝑓 (𝑥𝑖 , 𝑥𝑗 ), 𝑓=1 wobei 𝑝𝑟𝑜𝑥𝑓 (𝑥𝑖 , 𝑥𝑗 ) die im RF Modell 𝑓 berechnete Ähnlichkeit zwischen 𝑥𝑖 und 𝑥𝑗 ist. Schließlich lässt sich dieses Ähnlichkeitsmaß auf folgende Weise in ein Distanzmaß überführen [13]: 𝑑𝑅𝐹 (𝑥𝑖 , 𝑥𝑗 ) = √1 − 𝑝𝑟𝑜𝑥𝑅𝐹 (𝑥𝑖 , 𝑥𝑗 ). (7) Dieses Distanzmaß kann nun direkt in Gleichung (2) verwendet werden. Die so entstehende Variante von t-SNE wird im Folgenden als RF-t-SNE bezeichnet. 4 Datenvorverarbeitung und Parametereinstellungen Die betrachteten Methoden unserer Analyse basieren auf den R Paketen Rtsne [14], vegan [15] und randomForest [16]. Analog zu [17] und [18], erstellen wir zunächst für beide in Tabelle 1 vorgestellten Datensätze jeweils eine große Datenmatrix, die pro Zeile alle Belastungskollektiveinträge eines Fahrzeugs und pro Spalte die Werte aller Fahrzeuge in einer Belastungskollektivklasse enthält. Mehrklassige Belastungskollektive werden dabei durch ihre relativen Häufigkeiten dargestellt, wohingegen für einklassige Kollektive die absoluten Zählerstände verwendet werden. Um unerwünschte skalierungsbedingte Effekte zu vermeiden, wird jede Spalte standardisiert, sodass sie Erwartungswert 0 und Varianz 1 besitzt. Die Länderinformation zu jedem Fahrzeug wird ausschließlich zur farblichen Unterscheidung der berechneten zweidimensionalen Repräsentationen in den erzeugten Streudiagrammen verwendet, d.h. sie hat keinerlei Einfluss auf die Ergebnisse der analysierten Verfahren zur Dimensionsreduktion. Aus Datenschutzgründen werden die Ländernamen durch Nummern ersetzt. Tabelle 2 zeigt die gewählten Parametereinstellungen pro Datensatz und Algorithmus. Zur Bestimmung der paarweisen Distanzen 𝑑𝑅𝐹 (𝑥𝑖 , 𝑥𝑗 ) wurden jeweils 50 RF-Modelle, bestehend aus je 5000 Bäumen erstellt. Der gewählte Wert für die Parameter 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡ä𝑡 und 𝑘, die Anzahl der nächsten Nachbarn in Isomap, orientiert sich an der Mindestanzahl an Fahrzeugen pro Betriebsland (vgl. Tabelle 1). Tabelle 2: Gewählte Parametereinstellungen pro Datensatz und Algorithmus Algorithmus RF-t-SNE t-SNE PCA Isomap Datensatz 1 𝑛𝑡𝑟𝑒𝑒 = 5000 𝑛𝑓𝑜𝑟𝑒𝑠𝑡 = 50 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡ä𝑡 = 25 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡ä𝑡 = 25 𝑘 = 25 Datensatz 2 𝑛𝑡𝑟𝑒𝑒 = 5000 𝑛𝑓𝑜𝑟𝑒𝑠𝑡 = 50 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡ä𝑡 = 100 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡ä𝑡 = 100 𝑘 = 100 5 Ergebnisse In den folgenden beiden Abschnitten werden die Ergebnisse der beiden durchgeführten Fallstudien präsentiert. In Fallstudie 1 wird untersucht, ob in den beiden Datensätzen eine Abhängigkeit zwischen den Ausprägungen der Belastungskollektivdaten und den primären Betriebsländern der Fahrzeuge visuell erkennbar ist. In der zweiten Fallstudie wird danach überprüft, ob die vorgestellte Methode RF-t-SNE dazu beitragen kann, Fahrzeuge mit einem Ausfall der Hybridbatterie von solchen ohne unterscheidbar zu machen. Für jede Fallstudie erfolgt ein Vergleich von RF-t-SNE mit den gängigen Methoden t-SNE, PCA und Isomap. 5.1 Analyse der Abhängigkeit der Fahrzeugbelastungen vom Betriebsland am Beispiel zweier verschiedener Hybridfahrzeugflotten Abbildung 2 zeigt die zweidimensionalen Visualisierungen der Belastungskollektive von Datensatz 1, die mithilfe der eingangs erwähnten Verfahren zur Dimensionsreduktion ermittelt wurden. In jeder der vier Graphiken werden Fahrzeuge, die im gleichen Land betrieben werden, durch das gleiche Symbol und dieselbe Farbe dargestellt, wobei noch einmal betont wird, dass diese Länderinformation nicht zur Berechnung der zweidimensionalen Koordinaten verwendet wurde. Da die jeweils ermittelten Koordinatenwerte nicht interpretierbar sind, werden die x- und y-Achsen in den Grafiken bewusst nicht angezeigt. Es fällt auf, dass die mit den Verfahren RF-t-SNE und t-SNE erzeugten zweidimensionalen Repräsentationen der Belastungskollektive deutlich mehr Struktur offenbaren als die Ergebnisse von PCA und Isomap. PCA erzeugt bis auf wenige Ausnahmen eine kompakte Punktewolke, in der sich alle Fahrzeuge der verschiedenen Länder befinden. Man erkennt lediglich, dass die Fahrzeuge aus den Ländern 3 (), 4 () und 11 () unterschiedlich, aber in sich relativ homogen belastet werden, da sie eigene Teilregionen der Punktewolke einnehmen. Land 1 2 3 4 5 6 7 8 9 10 RF-t-SNE t-SNE PCA Isomap 11 12 Abbildung 2: Visualisierung der mit RF-t-SNE, t-SNE, PCA und Isomap ermittelten, zweidimensionalen Repräsentationen der Belastungskollektivdaten einer Hybridfahrzeugflotte, die aus 6670 Fahrzeugen besteht (vgl. [19], S.5-6). Die mithilfe von Isomap erzeugte Visualisierung lässt bereits für Fahrzeuge mehrerer Länder eine Abhängigkeit der Belastungen von den jeweiligen Betriebsländern erkennen. In einer dreiecksähnlichen Punktewolke, der nahezu alle Fahrzeuge angehören, können die Länder 3 (), 4 () 6 (), 11 () und 12 () identifiziert werden, wobei die von ihnen besetzten Regionen direkt aneinander angrenzen bzw. sich überlappen. Die graphische Darstellung der Ergebnisse von RF-t-SNE bzw. t-SNE zeigt nicht nur deutlich, dass die Fahrzeuge unterschiedlicher Länder z.T. unterschiedlich betrieben werden, sondern lässt auch klar getrennte Ländercluster erkennen. In der Graphik zu RF-t-SNE bilden die Fahrzeuge der Länder 3 () und 11 () bzw. 6 () bzw. 12 () bzw. 1 () und 7 () bzw. 10 () bzw. 2 (), 4 (), 5 () und 8 () gut erkennbare und voneinander getrennte Cluster. Das Ergebnis von t-SNE ist zwar auf den ersten Blick sehr ähnlich, jedoch zeigt es im Gegensatz zu dem von RF-t-SNE keine klare Trennung zwischen den Fahrzeugen aus den Ländern 6 () und 12(). Außerdem nehmen bei RF-t-SNE die Fahrzeuge aus Land 11 () eine kompaktere Region im Cluster ein, das sie mit denen aus Land 3 () formen. Damit gibt das Ergebnis von RF-t-SNE den besten Einblick in die Datenstruktur dieses Datensatzes. Dieses Ergebnis zeigt deutlich, dass die Fahrzeugnutzung und -belastung vom Betriebsland abhängt. Dies ist nicht überraschend, da die untersuchten Länder z.T. sehr unterschiedliche Charakteristika aufweisen, die sich auf die Fahrzeugnutzung und -belastung auswirken können. So zeigt [20] beispielsweise, dass das Stauaufkommen von Land zu Land sehr stark variieren kann. Des Weiteren können die unterschiedlichen klimatischen Bedingungen verschiedene Einflüsse auf die Fahrzeuge haben. Beispielsweise ist die Hybridbatterie stark temperaturabhängig, sodass sich die Ausprägungen der zugehörigen Belastungskollektive bei Heiß- und Kaltländern unterscheiden können. Diese Abhängigkeit der Belastungen vom Betriebsland wird auch durch die Resultate der zweiten analysierten Hybridfahrzeugflotte verdeutlicht, die in Abbildung 3 zu sehen sind. Auch hier erzielt RF-t-SNE das informativste Ergebnis: Die Länder 10 () und 11 () bilden ein kompaktes Cluster, das visuell klar von den Fahrzeugen der anderen Länder unterschieden werden kann. Interessanterweise stammen die Fahrzeuge in diesem Datensatz von zwei Kontinenten, wobei die Länder 10 () und 11 () die einzigen Vertreter von einem dieser beiden Kontinente sind, d.h. die Fahrzeuge werden auf den beiden Kontinenten unterschiedlich belastet. Im Gegensatz zu den Visualisierungen der Ergebnisse von t-SNE, PCA und Isomap, wird in RF-tSNE zusätzlich ein drittes Cluster gebildet, das den Großteil der Fahrzeuge aus Land 9 () beinhaltet. Demzufolge scheint der Großteil der Fahrzeuge dieses Landes ebenfalls anderen Belastungen ausgesetzt zu sein, als die anderen Fahrzeuge desselben Kontinents. Auffällig ist auch, dass die Mehrheit der Fahrzeuge aus Land 8 () eine eigene kompakte Region im großen Cluster einnehmen, das von allen übrigen Fahrzeugen dieses Kontinents gebildet wird. Bei den übrigen Ländern ist dies nicht der Fall. Für die große Streuung der Fahrzeuge verschiedener Länder in diesem Cluster spricht, dass sich diese Länder sowohl hinsichtlich ihrer klimatischen als auch infrastrukturellen Gegebenheiten stark ähneln. Land 1 2 3 4 5 6 7 8 9 RF-t-SNE t-SNE PCA Isomap 10 11 Abbildung 3: Visualisierung der mit RF-t-SNE, t-SNE, PCA und Isomap ermittelten, zweidimensionalen Repräsentationen der Belastungskollektivdaten einer Hybridfahrzeugflotte, die aus 7576 Fahrzeugen besteht. 5.2 Visueller Vergleich der Belastungskollektivdaten von Fahrzeugen mit bzw. ohne Ausfall einer Hybridkomponente Abbildung 4 zeigt erneut die für Datensatz 2 ermittelten Ergebnisse der vier studierten Verfahren zur Dimensionsreduktion. Dieses Mal werden die Fahrzeuge jedoch nicht nach ihrer Länderzughörigkeit, sondern danach farblich unterschieden, ob sie einen Hybridbatterieausfall hatten () oder nicht (). Die Ausfallfahrzeuge belegen nur in den mit RF-t-SNE und t-SNE erzeugten graphischen Darstellungen, ein sehr kompaktes Gebiet, wohingegen ihre mithilfe von PCA und Isomap bestimmten Repräsentationen eine stärkere Streuung aufweisen. Im Gegensatz zum Resultat von t-SNE, liegen die Ausfallfahrzeuge bei RF-t-SNE in einem separaten Cluster. Da die Ausfallfahrzeuge hier visuell nah beieinander liegen, scheint der Ausfall belastungsbedingt zustande gekommen zu sein. RF-t-SNE t-SNE PCA Isomap Abbildung 4: Visualisierung der mit RF-t-SNE, t-SNE, PCA und Isomap ermittelten, zweidimensionalen Repräsentationen der Belastungskollektivdaten einer Hybridfahrzeugflotte, die aus 7576 Fahrzeugen besteht, von denen ein paar einen Ausfall der Hybridbatterie hatten () und andere nicht (). 6 Zusammenfassung und Ausblick In dieser Arbeit wurde ein neues Verfahren namens RF-t-SNE vorgestellt, das eine gesamtheitliche Visualisierung aller Belastungskollektivdaten eines Fahrzeugs bzw. einer ganzen Fahrzeugflotte ermöglicht. Anhand zweier unterschiedlicher Hybridfahrzeugflotten wurde gezeigt, dass mit dieser Methode visuell überprüft werden kann, ob die Fahrzeugbelastungen vom jeweiligen Betriebsland der Fahrzeuge abhängt. Des Weiteren kann dieses Verfahren Hinweise darauf geben, ob der Ausfall einer (Hybrid)komponente belastungsbedingt eingetreten ist. Ferner könnte dieses Verfahren die Basis für ein Frühwarnsystem von Ausfällen bilden, indem man Fahrzeuge, die in unmittelbarer Nähe von Ausfallfahrzeugen abgebildet werden, als ausfallgefährdet einstuft und unter besondere Beobachtung stellt. Eine Einschränkung des Verfahrens ist, dass man anhand der Ergebnisse nicht direkt ableiten kann, warum ein Fahrzeug einem bestimmten Cluster zugeordnet wurde bzw. wie die Belastungsmuster, die den generierten Clustern zugrunde liegen, konkret aussehen. Eine zukünftige Arbeit könnte sich deshalb der Problematik widmen, Klassifikationsregeln für die (visuell) gefundenen Cluster mithilfe eines interpretierbaren Modells, wie z.B. einem Entscheidungsbaum, aus den Belastungskollektivdaten zu lernen, welche die clusterspezifischen Belastungsmuster beschreiben. Die Kenntnis über die so gefundenen Muster könnte den Ingenieuren dann dabei helfen, die Fahrzeugauslegung marktspezifisch bzw. für den gesamten Weltmarkt zu optimieren. 7 Literaturverzeichnis [1] J. Han, M. Kamber und J. Pei, "Data Mining: Concepts and Techniques", 3. Ausgabe, USA: Morgan Kaufmann Publishers, 2011. [2] L. Breiman, "Random forests", Machine Learning, Bd. 45, Nr. 1, S. 532, 2001. [3] L. J. P. van der Maaten und G. E. Hinton, "Visualizing HighDimensional Data Using t-SNE", Journal of Machine Learning Research, Nr.9, S. 2579-2605, 2008. [4] M. Köhler, S. Jenne, K. Pötter und H. Zenner, "Zählverfahren und Lastannahme in der Betriebsfestigkeit", Berlin: Springer, 2012. [5] P. Bergmeir, C. Nitsche, J. Nonnast und M. Bargende, "Classifying component failures of a hybrid electric vehicle fleet based on load spectrum data", Neural Computing and Applications, S. 1-16, 2015. [6] H. Hotelling, "Analysis of a complex of statistical variable into principal components", Educational Psychology, Nr. 24, S. 417-441, 1933. [7] K. V. Mardia, J. T. Kent und J. M. Bibby, "Multivariate Analysis", London: Academic Press, 1979. [8] J. W. Sammon, "A nonlinear mapping for data structure analysis", IEEE Transactions on Computers, S. 401-409, 1969. [9] J. B. Tenenbaum, V. de Silva und J. C. Langford, "A Global Geometric Framework for Nonlinear Dimensionality Reduction", Science, Bd. 290, Nr. 5500, S. 2319-2323, 2000. [10] S. Ji, "Computational genetic neuroanatomy of the developing mouse brain: dimensionality reduction, visualization, and clustering", BMC Bioinformatics, S. 1-14, 2013. [11] L.J.P. van der Maaten, "Accelerating t-SNE using Tree-Based Algorithms", Journal of Machine Learning Research, S. 3221-3245, 2014. [12] L. Breiman und A. Cutler, "Random Forests Manual v4.0", 2003. [13] T. Shi und S. Horvath, "Unsupervised Learning with Random Forest Predictors", Journal of Computational and Graphical Statistics, S. 118138, 2006. [14] J. Krijthe, "Rtsne: T-Distributed Stochastic Neighbor Embedding using Barnes-Hut Implementation", Version 0.10, 2015, http://CRAN.Rproject.org/package=Rtsne. [15] J. Oksanen, F. G. Blanchet, R. Kindt, P. Legendre, P. R. Minchin, R. B. O'Hara, G. L. Simpson, P. Solymos, M. Henry, H. Stevens und H. Wagner, "vegan: Community Ecology Package", Version 2.3-0, 2015, http://CRAN.R-project.org/package=vegan. [16] A. Liaw und M. Wiener, "Classification randomForest“, R News, 2002. and Regression by [17] P. Bergmeir, C. Nitsche, J. Nonnast und M. Bargende, "Klassifikationsverfahren zur Identifikation von Korrelationen zwischen Antriebsstrangbelastungen und Hybridkomponentenfehlern einer Hybridfahrzeugflotte", Tag des kooperativen Promotionskollegs HYBRID, 2014. [18] P. Bergmeir, C. Nitsche, J. Nonnast, M. Bargende, P. Antony und U. Keller, "Using Balanced Random Forests on Load Spectrum Data for Classifying Component Failures of a Hybrid Electric Vehicle Fleet", In: Proceedings of 13th International Conference on Machine Learning and Applications (ICMLA), S. 397-404, 2014. [19] P. Bergmeir, C. Nitsche, J. Nonnast und M. Bargende, "A Load Spectrum Data based Data Mining System for Identifying Different Types of Vehicle Usage of a Hybrid Electric Vehicle Fleet", Eingereicht als SAE Technical Paper für den SAE World Congress 2016, (im Review-Prozess). [20] "TomTom Traffic Index - Measuring Congestion Worldwide", TomTom International BV, https://www.tomtom.com/en_gb/trafficindex/#/list, (Zugriff am 5.10.2015). [21] L. J. van der Maaten, "Visualizing Data using t-SNE", Google Tech Talk am 24.06.2013. https://www.youtube.com/watch?v=RJVL80Gg3lA &list=UUtXKDgv1AVoG88PLl8nGXmw, (Zugriff am 28.10.2015).
© Copyright 2025 ExpyDoc