Methoden des Data Mining zur Visualisierung

Methoden des Data Mining zur Visualisierung
unterschiedlicher Belastungsmuster einer
Hybridfahrzeugflotte auf Basis von Lastkollektivdaten
Philipp Bergmeir a, Christof Nitsche b,
Jürgen Nonnast a, Michael Bargende c
a
Fakultät Informationstechnik, Hochschule Esslingen,
Flandernstr. 101, 73732 Esslingen
Email: [email protected]
[email protected]
b
Daimler AG, Abteilung RD/PGH, Mercedes-Benz Werk Sindelfingen,
Bela-Barenyi-Str. 14, 71063 Sindelfingen
c
Institut für Verbrennungsmotoren und Kraftfahrwesen, Universität
Stuttgart, Pfaffenwaldring 12, 70569 Stuttgart
Abstract: Um die Auslegung zukünftiger Hybridantriebsstränge und deren
Komponenten hinsichtlich wirtschaftlicher Aspekte und ihrer Lebensdauer
optimieren zu können, ist das Wissen, welchen unterschiedlichen
Belastungsmustern die Fahrzeuge einer Hybridfahrzeugflotte ausgesetzt
sind, zwingend erforderlich.
Diese Arbeit stellt deshalb eine Methodik aus dem Bereich des Data
Mining vor, die es ermöglicht, die in den Belastungskollektivdaten
vorherrschenden Belastungsmuster zu visualisieren. Hierfür wird zunächst
mithilfe des Random Forest (RF) Algorithmus für jedes beliebige
Fahrzeugpaar eine Kennzahl ermittelt, die angibt, ob die beiden betrachteten Fahrzeuge auf eine ähnliche Weise belastet werden. Auf Basis der
so ermittelten Ähnlichkeitswerte werden schließlich mithilfe eines
Verfahrens zur Dimensionsreduktion namens t-Distributed Stochastic
Neighbor Embedding (t-SNE), zweidimensionale Repräsentationen der
Fahrzeugbelastungskollektivdaten ermittelt, die beispielsweise in einem
Streudiagramm graphisch dargestellt werden können.
Das große Potenzial der vorgestellten Methodik wird anhand zweier
Fallstudien gezeigt, in denen die hochdimensionalen Belastungskollektivdaten zweier unterschiedlicher Hybridfahrzeugflotten, die aus 6670 bzw.
7576 Fahrzeugen bestehen, visualisiert werden.
1 Einleitung
Moderne Steuergeräte und Datenlogger, sowie große und kostengünstige
Speichermedien führen seit einiger Zeit dazu, dass in der Automobilindustrie
pro Fahrzeug sehr viele Daten aufgezeichnet werden, die u.a. das
Fahrverhalten oder diverse Belastungen des Antriebsstrangs und einzelner
Komponenten beschreiben. Aus dieser Vielzahl an Daten sollen schließlich
Erkenntnisse gewonnen werden, die es den Ingenieuren ermöglichen,
zukünftige Bauteile oder Antriebsstränge, beispielsweise hinsichtlich ihrer
Lebensdauer zu optimieren. Die Extraktion von nützlichem Wissen aus
diesen stetig wachsenden Datenmengen stellt dabei jedoch eine immer
größer werdende Herausforderung dar [1].
In dieser Arbeit wird deshalb ein Data Mining System vorgestellt, mit dessen
Hilfe aus einer Vielzahl verschiedener Belastungskollektive, welche
zusammen betrachtet sowohl die gesamtheitliche Nutzung als auch
Belastung jedes einzelnen Fahrzeugs charakterisieren, zweidimensionale
Repräsentationen bestimmt werden können, die eine Visualisierung dieser
Fahrzeuggesamtbelastungen ermöglichen. Hierfür wird zunächst mit Hilfe
des Random Forest (RF) Algorithmus [2] für jedes Fahrzeugpaar ein
Ähnlichkeitswert bestimmt, anhand dessen sich beurteilen lässt, ob zwei
Fahrzeuge einem ähnlichen Belastungsmuster ausgesetzt sind oder nicht.
Diese paarweisen Kennzahlen werden anschließend durch eine einfache
mathematische Transformation in Unähnlichkeitswerte überführt, welche als
Eingabe für ein Verfahren zur Dimensionsreduktion namens t-Distributed
Stochastic Neighbor Embedding (t-SNE) [3] dienen. Dieses Verfahren
berechnet schließlich die gewünschten niedrigdimensionalen Repräsentationen der Belastungskollektivdatensätze pro Fahrzeug.
Durch das vorgestellte Verfahren kann, sozusagen „auf einen Blick“, für eine
ganze Fahrzeugflotte herausgefunden werden, ob die Fahrzeugbelastungen
beispielsweise von den jeweiligen Ländern abhängen, in denen die
Fahrzeuge primär betrieben werden oder in welchen Ländern ein ähnliches
Nutzungs- bzw. Belastungsverhalten der Fahrzeuge vorherrscht. Eine
weitere mögliche Anwendung besteht darin, visuell zu überprüfen, ob
Fahrzeuge mit einem Ausfall einer bestimmten (Hybrid)komponente von
solchen, bei denen das betrachtete Bauteil ordnungsgemäß funktioniert, rein
auf Belastungskollektivbasis unterschieden werden können. Beide
genannten Anwendungsfälle werden anhand zweier, im realen Fahrbetrieb
erzeugten, Datensätze in dieser Arbeit behandelt und mithilfe dieser wird die
Überlegenheit der vorgeschlagenen Methodik gegenüber gängigen
Alternativen demonstriert.
Die restliche Arbeit gliedert sich folgendermaßen: Nach dieser Einleitung
erfolgt in Abschnitt 2 eine kurze Einführung in Belastungskollektivdaten, da
diese unsere Datenbasis bilden. Der dritte Abschnitt erläutert danach im
Detail das Verfahren t-SNE, die Berechnung des RF-basierten
Ähnlichkeitsmaßes und wie dieses in t-SNE eingesetzt werden kann. Im
vierten Abschnitt wird im Anschluss daran erklärt, wie die Daten
vorverarbeitet und welche Parametereinstellungen in den Analysen
verwendet werden. Die erzielten Ergebnisse werden in Abschnitt 5
präsentiert und diskutiert. Der sechste und letzte Abschnitt enthält eine kurze
Zusammenfassung dieser Arbeit und gibt einen kurzen Ausblick auf
zukünftige Forschungsthemen.
2 Datenbasis: Belastungskollektive
Belastungskollektivdaten haben ihren Ursprung in der Betriebsfestigkeit und
werden, wie der Name bereits suggeriert, dazu verwendet, die Belastungen
eines Bauteils darzustellen. Sie stellen das Ergebnis sog. „Zähl“- oder
„Klassierverfahren“ dar, die auf Beanspruchungszeitfunktionen, d.h. Messreihen von Belastungssignalen, angewendet werden. Da diese Art der
Transformation der Signalmessungen zu einem Informationsverlust führt,
wie z.B. zum Verlust der Kenntnis über das zeitliche Eintreten bestimmter
Events, muss für jeden Anwendungsfall individuell geprüft werden, ob der
Einsatz dieser Verfahren zulässig ist [4].
Zu den bekanntesten Zählverfahren gehören die sog. „Rainflow“-, die
„Verweildauer“- und die „Momentanwertzählung“ [4], wobei letztere den
meisten der hier betrachteten Belastungskollektiven zugrunde liegt. Für eine
detaillierte Erläuterung dieser Verfahren wird der interessierte Leser auf [4]
und [5] verwiesen.
Die beiden in dieser Arbeit analysierten Datensätzen wurden durch zwei
reale, unterschiedliche Hybridfahrzeugflotten generiert und setzen sich aus
jeweils über 50 heterogenen Belastungskollektiven zusammen, wovon die
meisten direkt auf den in den Fahrzeugen verbauten Steuergeräten
berechnet wurden. Zusätzliche Kollektive wurden nachträglich durch
einfache Berechnungen aus diesen gewonnen.
Tabelle 1: Eigenschaften der analysierten Belastungskollektivdatensätze
Charakteristika
Fahrzeuganzahl
Anzahl an Betriebsländern
Mindestanzahl an Fahrzeugen pro
Betriebsland
Anzahl an Belastungskollektivklassen
Anzahl an Hybridbatterieausfällen
Datensatz 1
6670
12
25
Datensatz 2
7576
11
100
737
-
793
33
Tabelle 1 gibt einen kurzen Überblick über die wichtigsten Kennzahlen der
beiden Datensätze. Datensatz 1 enthält Belastungskollektivdaten für 6670
Hybridfahrzeuge, wohingegen Datensatz 2 sich aus den Daten von 7576
Fahrzeugen zusammensetzt. Die betrachteten Hybridfahrzeuge werden in
12 bzw. 11 verschiedenen Ländern unterschiedlicher Kontinente betrieben,
wobei aus jedem Land mindestens 25 bzw. 100 Fahrzeuge stammen. Die
Belastungskollektive des ersten Datensatzes ergeben zusammen 737
Belastungskollektivklassen, wohingegen die Fahrzeuge des zweiten
Datensatzes jeweils durch 793 solcher Attribute beschrieben sind. Zusätzlich
befinden sich unter den 7576 Fahrzeugen des zweiten Datensatzes 33
Fahrzeuge, deren Belastungskollektive den Stand zum Zeitpunkt eines
Ausfalls der Hybridbatterie widerspiegeln.
3 Methodik
Um Datenanalysen auf hochdimensionalen Datensätzen durchführen zu
können, ist es oftmals zwingend erforderlich, die Anzahl der Dimensionen zu
reduzieren. Aus diesem Grund wurde im Lauf der Jahre eine ganze Reihe
an Verfahren zur Dimensionsreduktion entwickelt. Diese lassen sich in die
beiden Hauptgruppen, die sog. „linearen“ bzw. „nichtlinearen“ Dimensionsreduktionsverfahren aufteilen. Zu den bekanntesten linearen Vertretern
zählen die sog. „Hauptkomponentenanalyse“ (PCA) [6] und die
„Multidimensionale Skalierung“ (MDS) [7]. Als Repräsentanten der
nichtlinearen Verfahren seien an dieser Stelle das sog. „Sammon Mapping“
[8] und „Isomap“ [9] genannt.
Ein wesentlicher Unterschied der Methoden dieser beiden Hauptgruppen
besteht darin, dass lineare Reduktionsverfahren versuchen, „unähnliche“
Datenobjekte im niedrigdimensionalen Raum möglichst weit voneinander
entfernt zu modellieren, wohingegen die nichtlinearen Varianten danach
streben, „ähnliche“ Instanzen möglichst nah beieinander abzubilden [3].
Ein großer Nachteil der meisten Vertreter beider Gruppen ist jedoch, dass
die gefundenen niedrigdimensionalen Repräsentationen der Datensätze
nicht zugleich lokale und globale Strukturen des Ausgangsdatensatzes
erhalten. Unter lokalen Strukturen versteht man hierbei, dass sich die
„Nachbarschaft“ eines hochdimensionalen Datenpunktes auch für seinen
niedrigdimensionalen Repräsentanten nicht ändert. Andererseits sollten aber
auch globale Strukturen, wie das Vorhandensein von Datenclustern im
hochdimensionalen Raum nicht durch die Projektion in den niedrigdimensionalen Raum verloren gehen [10].
Ein vergleichsweise neues nichtlineares Verfahren zur Dimensionsreduktion,
das diese Problematik geeignet berücksichtigt, ist das sog. „t-Distributed
Stochastic Neighbor Embedding“ (t-SNE) [3], das von van der Maaten und
Hinton im Jahr 2008 vorgestellt wurde. Da es das „Herzstück“ der in dieser
Arbeit vorgestellten Methodik darstellt, wird es im folgenden Abschnitt
detailliert erläutert.
3.1 t-Distributed Stochastic Neighbor Embedding
Gegeben sei ein hochdimensionaler Datensatz 𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑁 }, wobei
𝑥𝑖 ∈ ℝ𝑝 sei und die Einträge der Belastungskollektive des 𝑖. Fahrzeugs
enthalte. Die Menge der korrespondierenden, zu bestimmenden niedrigdimensionalen Datenrepräsentationen werde mit 𝑌 = {𝑦1 , 𝑦2 , … , 𝑦𝑁 } bezeichnet, wobei 𝑦𝑖 ∈ ℝ𝑚 und 𝑚 ≪ 𝑝 gelte. Um eine einfache Visualisierung von 𝑌
zu ermöglichen, wird für 𝑚 typischerweise 2 oder 3 gewählt.
Die Grundidee von t-SNE besteht darin, „Ähnlichkeiten“ zwischen je zwei
beliebigen Objekten 𝑥𝑖 und 𝑥𝑗 des hochdimensionalen Ausgangsdatensatzes
𝑋 bzw. zwischen den gesuchten niedrigdimensionalen Repräsentationen 𝑦𝑖
und 𝑦𝑗 so zu modellieren, dass diese jeweils eine Wahrscheinlichkeitsverteilung über den Objektpaaren bilden. Dabei werden letztere so definiert,
dass zwei „ähnlichen“ bzw. „benachbarten“ Instanzen eine hohe
Wahrscheinlichkeit zugeordnet wird, wohingegen weit voneinander entfernt
liegende, d.h. sehr „unähnliche“ Datenobjekte, eine geringe Wahrscheinlichkeit unter dieser Verteilung besitzen. Formal ist die gemeinsame Wahrscheinlichkeit 𝑝𝑖𝑗 , welche t-SNE als Maß für die paarweise Ähnlichkeit
zwischen zwei hochdimensionalen Objekten 𝑥𝑖 und 𝑥𝑗 verwendet, gegeben
durch [11]:
𝑝𝑖𝑗 =
pj|i + 𝑝𝑖|𝑗
,
2𝑁
(1)
wobei 𝑝𝑖|𝑖 = 0 und die bedingte Wahrscheinlichkeit 𝑝𝑗|𝑖 durch den
normalisierten Gaußkern
2
𝑝𝑗|𝑖 =
exp (−𝑑(𝑥𝑖 , 𝑥𝑗 ) ⁄2𝜎𝑖2 )
(2)
∑𝑘≠𝑖 𝑒𝑥𝑝(−𝑑(𝑥𝑖 , 𝑥𝑘 )2 ⁄2𝜎𝑖2 )
definiert ist. Dabei bezeichnet 𝑑(𝑥𝑖 , 𝑥𝑗 ) eine Distanzfunktion, z.B. die
Euklidische Distanz 𝑑(𝑥𝑖 , 𝑥𝑗 ) = ‖𝑥𝑖 − 𝑥𝑗 ‖2 , und die Bandbreite des
Gaußkerns wird durch 𝜎𝑖 angegeben. Letztere wird, individuell für jedes
Objekt 𝑖 so gewählt, dass die Perplexität der bedingten Wahrscheinlichkeitsverteilung 𝑃𝑖 einem vordefinierten Wert 𝑢 entspricht. Dadurch nimmt 𝜎𝑖
für Objekte, die sich in dichteren Regionen des hochdimensionalen Raumes
befinden, tendenziell niedrigere Werte an als für Objekte, die in
dünnbesiedelten Bereichen liegen. Insofern kann die Perplexität als ein Maß
für die effektive Anzahl an Nachbarn eines Objektes gesehen werden. Sie ist
durch die Gleichung
𝑃𝑒𝑟𝑝(𝑃𝑖 ) = 2− ∑𝑗 𝑝𝑗|𝑖 log2 𝑝𝑗|𝑖
(3)
gegeben und nimmt üblicherweise Werte zwischen 5 und 50 an, wobei die
Ergebnisse von t-SNE üblicherweise sehr robust gegenüber Werteänderungen dieses Parameters sind [3].
Um im niedrigdimensionalen Raum lokale Datenstrukturen erhalten zu
können, müssen Objekte, die im hochdimensionalen Raum weit voneinander
entfernt liegen, im niedrigdimensionalen Raum durch eine noch größere
Distanz modelliert werden. Eine skizzenhafte Begründung zeigt Abbildung 1.
2D
1D
𝑥𝑘
𝑥𝑖
𝑥𝑖
𝑥𝑗
𝑥𝑘
𝑥𝑗
Abbildung 1: Skizze zur Abstandserhaltungsproblematik bei einer Projektion dreier
zweidimensionaler Punkte in den eindimensionalen Raum: Eine exakte Modellierung
kurzer Distanzen ( ) im eindimensionalen Raum führt zu einer Abstandsvergrößerung
zwischen weiter entfernt liegenden Punkten (
) [20].
Die Objekte 𝑥𝑖 und 𝑥𝑗 sowie 𝑥𝑗 und 𝑥𝑘 sind im zweidimensionalen Raum (vgl.
linke Graphik) jeweils gleich weit voneinander entfernt, während der Abstand
zwischen 𝑥𝑖 und 𝑥𝑘 etwas größer ist. Möchte man die kurzen Distanzen ( )
im eindimensionalen Raum erhalten, müssen die Punkte 𝑥𝑖 und 𝑥𝑘 weiter
entfernt als ursprünglich voneinander modelliert werden, da eine Dimension
nicht ausreicht, um diesen Abstand ebenfalls zu erhalten. Würde man
hingegen die Distanz (
) zwischen diesen beiden Punkten im eindimensionalen Raum bewahren, so würden dadurch alle drei Punkte näher
„zusammenrücken“. Dies kann zu einer völligen Überlagerung bzw. einer
Überlappung ähnlicher Punkte im niedrigdimensionalen Raum führen,
sodass keine lokalen Unterschiede bzw. Strukturen mehr erkennbar sind.
Man spricht hierbei auch vom sog. „crowding problem“ [3].
In t-SNE werden die Ähnlichkeiten zwischen den niedrigdimensionalen
Repräsentationen 𝑦𝑖 und 𝑦𝑗 zweier Objekte 𝑥𝑖 und 𝑥𝑗 deshalb durch einen
normalisierten Kern einer Student-t-Verteilung mit einem Freiheitsgrad
berechnet:
2 −1
𝑞𝑖𝑗 =
(1 + ‖𝑦𝑖 − 𝑦𝑗 ‖ )
∑𝑘≠ℓ(1 + ‖𝑦𝑘 − 𝑦ℓ ‖2 )−1
(4)
,
wobei 𝑞𝑖𝑖 = 0 ist. Da bei dieser Wahrscheinlichkeitsverteilung mehr Masse
auf den Flanken im Vergleich zur Normalverteilung liegt, können unähnliche
Objekte, verglichen mit dem Ursprungsraum, noch weiter voneinander
entfernt modelliert und dadurch dem „crowding problem“ entgegengewirkt
werden.
Schließlich erhält man die finalen Koordinaten der Projektionspunkte
𝑦1 , 𝑦2 , … , 𝑦𝑁 im niedrigdimensionalen Raum durch Minimierung der KullbackLeibler-Divergenz (KL-Divergenz) zwischen den induzierten gemeinsamen
Wahrscheinlichkeitsverteilungen 𝑃 und 𝑄:
min 𝐾𝐿(𝑃‖𝑄) = ∑ ∑ 𝑝𝑖𝑗 log
𝑄
𝑖
𝑗≠𝑖
𝑝𝑖𝑗
.
𝑞𝑖𝑗
(5)
Dieses Minimierungsproblem kann mithilfe eines Gradientenabstiegsverfahrens gelöst werden.
Aufgrund der Asymmetrie der KL-Divergenz werden unterschiedliche Arten
von Fehlern in der niedrigdimensionalen Darstellung verschieden stark
gewichtet: Werden einerseits wertemäßig große Wahrscheinlichkeiten 𝑝𝑖𝑗 ,
d.h. ähnliche Objekte 𝑥𝑖 und 𝑥𝑗 , fälschlicherweise durch wertemäßig kleine
𝑞𝑖𝑗 , d.h. durch entfernte Punkte 𝑦𝑖 und 𝑦𝑗 modelliert, so führt dies zu einem
hohen Beitrag in der Zielfunktion (vgl. (5)). Andererseits führt die
Verwendung einer hohen Wahrscheinlichkeit 𝑞𝑖𝑗 für eine geringe Wahrscheinlichkeit 𝑝𝑖𝑗 nur zu einem kleinen Beitrag in (5), weshalb diese Fehler
nicht so stark ins Gewicht fallen. Dadurch gelingt es t-SNE lokale Strukturen,
d.h. ähnliche Objekte, im niedrigdimensionalen Raum korrekt darzustellen.
3.2 Das Random Forest Ähnlichkeitsmaß
Der RF Algorithmus [2] gehört heutzutage zu den State of the Art
Klassifikations- und Regressionsverfahren. Mithilfe eines einfachen Tricks,
den Breiman und Cutler in [12] erstmals vorstellen, kann dieses Verfahren
jedoch auch dazu verwendet werden, Ähnlichkeitsmaße zwischen hochdimensionalen Objekten zu bestimmen.
Im ersten Schritt erzeugt man hierfür einen synthetischen Datensatz
𝑋̃ = {𝑥
̃,
̃,
̃}
1 𝑥
2 …,𝑥
𝑁 durch unabhängiges, randomisiertes Sampling auf Basis
der eindimensionalen Randverteilungen der Attribute des Datensatzes
𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑁 }. Präziser ausgedrückt, entspricht die 𝑟. Koordinate des
generierten Objektes 𝑥̃𝑗 einem zufällig gezogenen Wert aus der Menge
{𝑥1𝑟 , 𝑥2𝑟 , … , 𝑥𝑁𝑟 }, wobei 𝑥𝑖𝑟 die 𝑟. Komponente des Vektors 𝑥𝑖 sei.
Im zweiten Schritt erhalten alle Objekte des Originaldatensatzes 𝑋 das
Klassenlabel 𝐿𝑜𝑟𝑖𝑔 ∈ {0,1} und alle synthetisch generierten Objekte aus 𝑋̃
das Label 𝐿𝑠𝑦𝑛 ∈ {0,1}, wobei 𝐿𝑜𝑟𝑖𝑔 ≠ 𝐿𝑠𝑦𝑛 sei. Anschließend wird mithilfe des
RF Algorithmus eine binäre Klassifikation zur Unterscheidung der Datensätze (𝑋, 𝐿𝑜𝑟𝑖𝑔 ) und (𝑋̃, 𝐿𝑠𝑦𝑛 ) durchgeführt.
Anhand des so erlernten RF Modells kann man schließlich ein Maß
𝑝𝑟𝑜𝑥(𝑥𝑖 , 𝑥𝑗 ) für die Ähnlichkeit zweier beliebiger Objekte 𝑥𝑖 und 𝑥𝑗 wie folgt
bestimmen: Man „füttert“ das RF Modell nacheinander mit 𝑥𝑖 und 𝑥𝑗 und
zählt, wie oft beide Objekte im gleichen Endknoten (=„Blatt“) jedes einzelnen
Entscheidungsbaumes landen, welche das RF Modell bilden. Je häufiger
dies der Fall ist, umso ähnlicher sind sich die beiden Objekte. Anschließend
erfolgt eine Normierung dieser Zählerstände, indem man durch die Anzahl
der Bäume im RF teilt. Um die Stabilität der Ergebnisse zu erhöhen, kann
man nacheinander 𝑛𝑓𝑜𝑟𝑒𝑠𝑡 Random Forest Modelle (𝑛𝑓𝑜𝑟𝑒𝑠𝑡 ≥ 1) erzeugen
und die entstehenden Ähnlichkeitswerte über die Anzahl der erstellten
Modelle mitteln:
𝑝𝑟𝑜𝑥𝑅𝐹 (𝑥𝑖 , 𝑥𝑗 ) =
1
𝑛𝑓𝑜𝑟𝑒𝑠𝑡
𝑛𝑓𝑜𝑟𝑒𝑠𝑡
(6)
∑ 𝑝𝑟𝑜𝑥𝑓 (𝑥𝑖 , 𝑥𝑗 ),
𝑓=1
wobei 𝑝𝑟𝑜𝑥𝑓 (𝑥𝑖 , 𝑥𝑗 ) die im RF Modell 𝑓 berechnete Ähnlichkeit zwischen 𝑥𝑖
und 𝑥𝑗 ist.
Schließlich lässt sich dieses Ähnlichkeitsmaß auf folgende Weise in ein
Distanzmaß überführen [13]:
𝑑𝑅𝐹 (𝑥𝑖 , 𝑥𝑗 ) = √1 − 𝑝𝑟𝑜𝑥𝑅𝐹 (𝑥𝑖 , 𝑥𝑗 ).
(7)
Dieses Distanzmaß kann nun direkt in Gleichung (2) verwendet werden. Die
so entstehende Variante von t-SNE wird im Folgenden als RF-t-SNE
bezeichnet.
4 Datenvorverarbeitung und Parametereinstellungen
Die betrachteten Methoden unserer Analyse basieren auf den R Paketen
Rtsne [14], vegan [15] und randomForest [16].
Analog zu [17] und [18], erstellen wir zunächst für beide in Tabelle 1
vorgestellten Datensätze jeweils eine große Datenmatrix, die pro Zeile alle
Belastungskollektiveinträge eines Fahrzeugs und pro Spalte die Werte aller
Fahrzeuge in einer Belastungskollektivklasse enthält.
Mehrklassige Belastungskollektive werden dabei durch ihre relativen
Häufigkeiten dargestellt, wohingegen für einklassige Kollektive die absoluten
Zählerstände verwendet werden. Um unerwünschte skalierungsbedingte
Effekte zu vermeiden, wird jede Spalte standardisiert, sodass sie
Erwartungswert 0 und Varianz 1 besitzt.
Die Länderinformation zu jedem Fahrzeug wird ausschließlich zur farblichen
Unterscheidung der berechneten zweidimensionalen Repräsentationen in
den erzeugten Streudiagrammen verwendet, d.h. sie hat keinerlei Einfluss
auf die Ergebnisse der analysierten Verfahren zur Dimensionsreduktion. Aus
Datenschutzgründen werden die Ländernamen durch Nummern ersetzt.
Tabelle 2 zeigt die gewählten Parametereinstellungen pro Datensatz und
Algorithmus. Zur Bestimmung der paarweisen Distanzen 𝑑𝑅𝐹 (𝑥𝑖 , 𝑥𝑗 ) wurden
jeweils 50 RF-Modelle, bestehend aus je 5000 Bäumen erstellt. Der
gewählte Wert für die Parameter 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡ä𝑡 und 𝑘, die Anzahl der nächsten
Nachbarn in Isomap, orientiert sich an der Mindestanzahl an Fahrzeugen pro
Betriebsland (vgl. Tabelle 1).
Tabelle 2: Gewählte Parametereinstellungen pro Datensatz und Algorithmus
Algorithmus
RF-t-SNE
t-SNE
PCA
Isomap
Datensatz 1
𝑛𝑡𝑟𝑒𝑒 = 5000
𝑛𝑓𝑜𝑟𝑒𝑠𝑡 = 50
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡ä𝑡 = 25
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡ä𝑡 = 25
𝑘 = 25
Datensatz 2
𝑛𝑡𝑟𝑒𝑒 = 5000
𝑛𝑓𝑜𝑟𝑒𝑠𝑡 = 50
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡ä𝑡 = 100
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡ä𝑡 = 100
𝑘 = 100
5 Ergebnisse
In den folgenden beiden Abschnitten werden die Ergebnisse der beiden
durchgeführten Fallstudien präsentiert. In Fallstudie 1 wird untersucht, ob in
den beiden Datensätzen eine Abhängigkeit zwischen den Ausprägungen der
Belastungskollektivdaten und den primären Betriebsländern der Fahrzeuge
visuell erkennbar ist. In der zweiten Fallstudie wird danach überprüft, ob die
vorgestellte Methode RF-t-SNE dazu beitragen kann, Fahrzeuge mit einem
Ausfall der Hybridbatterie von solchen ohne unterscheidbar zu machen. Für
jede Fallstudie erfolgt ein Vergleich von RF-t-SNE mit den gängigen
Methoden t-SNE, PCA und Isomap.
5.1 Analyse der Abhängigkeit der Fahrzeugbelastungen vom Betriebsland am Beispiel zweier verschiedener Hybridfahrzeugflotten
Abbildung 2 zeigt die zweidimensionalen Visualisierungen der Belastungskollektive von Datensatz 1, die mithilfe der eingangs erwähnten Verfahren
zur Dimensionsreduktion ermittelt wurden. In jeder der vier Graphiken
werden Fahrzeuge, die im gleichen Land betrieben werden, durch das
gleiche Symbol und dieselbe Farbe dargestellt, wobei noch einmal betont
wird, dass diese Länderinformation nicht zur Berechnung der
zweidimensionalen Koordinaten verwendet wurde. Da die jeweils ermittelten
Koordinatenwerte nicht interpretierbar sind, werden die x- und y-Achsen in
den Grafiken bewusst nicht angezeigt.
Es fällt auf, dass die mit den Verfahren RF-t-SNE und t-SNE erzeugten
zweidimensionalen Repräsentationen der Belastungskollektive deutlich mehr
Struktur offenbaren als die Ergebnisse von PCA und Isomap.
PCA erzeugt bis auf wenige Ausnahmen eine kompakte Punktewolke, in der
sich alle Fahrzeuge der verschiedenen Länder befinden. Man erkennt
lediglich, dass die Fahrzeuge aus den Ländern 3 (), 4 () und 11 ()
unterschiedlich, aber in sich relativ homogen belastet werden, da sie eigene
Teilregionen der Punktewolke einnehmen.
Land
1
2
3
4
5
6
7
8
9
10
RF-t-SNE
t-SNE
PCA
Isomap
11
12
Abbildung 2: Visualisierung der mit RF-t-SNE, t-SNE, PCA und Isomap ermittelten,
zweidimensionalen Repräsentationen der Belastungskollektivdaten einer Hybridfahrzeugflotte, die aus 6670 Fahrzeugen besteht (vgl. [19], S.5-6).
Die mithilfe von Isomap erzeugte Visualisierung lässt bereits für Fahrzeuge
mehrerer Länder eine Abhängigkeit der Belastungen von den jeweiligen
Betriebsländern erkennen. In einer dreiecksähnlichen Punktewolke, der
nahezu alle Fahrzeuge angehören, können die Länder 3 (), 4 () 6 (), 11
() und 12 () identifiziert werden, wobei die von ihnen besetzten Regionen
direkt aneinander angrenzen bzw. sich überlappen.
Die graphische Darstellung der Ergebnisse von RF-t-SNE bzw. t-SNE zeigt
nicht nur deutlich, dass die Fahrzeuge unterschiedlicher Länder z.T.
unterschiedlich betrieben werden, sondern lässt auch klar getrennte Ländercluster erkennen. In der Graphik zu RF-t-SNE bilden die Fahrzeuge der
Länder 3 () und 11 () bzw. 6 () bzw. 12 () bzw. 1 ()
 und 7 () bzw.

10 () bzw. 2 (), 4 (), 5 () und 8 () gut erkennbare und voneinander
getrennte Cluster. Das Ergebnis von t-SNE ist zwar auf den ersten Blick sehr
ähnlich, jedoch zeigt es im Gegensatz zu dem von RF-t-SNE keine klare
Trennung zwischen den Fahrzeugen aus den Ländern 6 () und 12().
Außerdem nehmen bei RF-t-SNE die Fahrzeuge aus Land 11 () eine
kompaktere Region im Cluster ein, das sie mit denen aus Land 3 ()
formen. Damit gibt das Ergebnis von RF-t-SNE den besten Einblick in die
Datenstruktur dieses Datensatzes.
Dieses Ergebnis zeigt deutlich, dass die Fahrzeugnutzung und -belastung
vom Betriebsland abhängt. Dies ist nicht überraschend, da die untersuchten
Länder z.T. sehr unterschiedliche Charakteristika aufweisen, die sich auf die
Fahrzeugnutzung und -belastung auswirken können. So zeigt [20]
beispielsweise, dass das Stauaufkommen von Land zu Land sehr stark
variieren kann. Des Weiteren können die unterschiedlichen klimatischen
Bedingungen verschiedene Einflüsse auf die Fahrzeuge haben. Beispielsweise ist die Hybridbatterie stark temperaturabhängig, sodass sich die
Ausprägungen der zugehörigen Belastungskollektive bei Heiß- und
Kaltländern unterscheiden können.
Diese Abhängigkeit der Belastungen vom Betriebsland wird auch durch die
Resultate der zweiten analysierten Hybridfahrzeugflotte verdeutlicht, die in
Abbildung 3 zu sehen sind. Auch hier erzielt RF-t-SNE das informativste
Ergebnis: Die Länder 10 () und 11 () bilden ein kompaktes Cluster, das
visuell klar von den Fahrzeugen der anderen Länder unterschieden werden
kann. Interessanterweise stammen die Fahrzeuge in diesem Datensatz von
zwei Kontinenten, wobei die Länder 10 () und 11 () die einzigen Vertreter
von einem dieser beiden Kontinente sind, d.h. die Fahrzeuge werden auf
den beiden Kontinenten unterschiedlich belastet. Im Gegensatz zu den
Visualisierungen der Ergebnisse von t-SNE, PCA und Isomap, wird in RF-tSNE zusätzlich ein drittes Cluster gebildet, das den Großteil der Fahrzeuge
aus Land 9 () beinhaltet. Demzufolge scheint der Großteil der Fahrzeuge
dieses Landes ebenfalls anderen Belastungen ausgesetzt zu sein, als die
anderen Fahrzeuge desselben Kontinents.
Auffällig ist auch, dass die Mehrheit der Fahrzeuge aus Land 8 () eine
eigene kompakte Region im großen Cluster einnehmen, das von allen
übrigen Fahrzeugen dieses Kontinents gebildet wird. Bei den übrigen
Ländern ist dies nicht der Fall. Für die große Streuung der Fahrzeuge
verschiedener Länder in diesem Cluster spricht, dass sich diese Länder
sowohl hinsichtlich ihrer klimatischen als auch infrastrukturellen
Gegebenheiten stark ähneln.
Land
1
2
3
4
5
6
7
8
9
RF-t-SNE
t-SNE
PCA
Isomap
10
11
Abbildung 3: Visualisierung der mit RF-t-SNE, t-SNE, PCA und Isomap ermittelten,
zweidimensionalen Repräsentationen der Belastungskollektivdaten einer Hybridfahrzeugflotte, die aus 7576 Fahrzeugen besteht.
5.2 Visueller Vergleich der Belastungskollektivdaten von Fahrzeugen
mit bzw. ohne Ausfall einer Hybridkomponente
Abbildung 4 zeigt erneut die für Datensatz 2 ermittelten Ergebnisse der vier
studierten Verfahren zur Dimensionsreduktion. Dieses Mal werden die
Fahrzeuge jedoch nicht nach ihrer Länderzughörigkeit, sondern danach
farblich unterschieden, ob sie einen Hybridbatterieausfall hatten () oder
nicht ().

Die Ausfallfahrzeuge belegen nur in den mit RF-t-SNE und t-SNE erzeugten
graphischen Darstellungen, ein sehr kompaktes Gebiet, wohingegen ihre
mithilfe von PCA und Isomap bestimmten Repräsentationen eine stärkere
Streuung aufweisen. Im Gegensatz zum Resultat von t-SNE, liegen die
Ausfallfahrzeuge bei RF-t-SNE in einem separaten Cluster. Da die
Ausfallfahrzeuge hier visuell nah beieinander liegen, scheint der Ausfall
belastungsbedingt zustande gekommen zu sein.
RF-t-SNE
t-SNE
PCA
Isomap
Abbildung 4: Visualisierung der mit RF-t-SNE, t-SNE, PCA und Isomap ermittelten,
zweidimensionalen Repräsentationen der Belastungskollektivdaten einer Hybridfahrzeugflotte, die aus 7576 Fahrzeugen besteht, von denen ein paar einen Ausfall der
Hybridbatterie hatten () und andere nicht ().
6 Zusammenfassung und Ausblick
In dieser Arbeit wurde ein neues Verfahren namens RF-t-SNE vorgestellt,
das eine gesamtheitliche Visualisierung aller Belastungskollektivdaten eines
Fahrzeugs bzw. einer ganzen Fahrzeugflotte ermöglicht. Anhand zweier
unterschiedlicher Hybridfahrzeugflotten wurde gezeigt, dass mit dieser
Methode visuell überprüft werden kann, ob die Fahrzeugbelastungen vom
jeweiligen Betriebsland der Fahrzeuge abhängt. Des Weiteren kann dieses
Verfahren Hinweise darauf geben, ob der Ausfall einer (Hybrid)komponente
belastungsbedingt eingetreten ist.
Ferner könnte dieses Verfahren die Basis für ein Frühwarnsystem von
Ausfällen bilden, indem man Fahrzeuge, die in unmittelbarer Nähe von
Ausfallfahrzeugen abgebildet werden, als ausfallgefährdet einstuft und unter
besondere Beobachtung stellt.
Eine Einschränkung des Verfahrens ist, dass man anhand der Ergebnisse
nicht direkt ableiten kann, warum ein Fahrzeug einem bestimmten Cluster
zugeordnet wurde bzw. wie die Belastungsmuster, die den generierten
Clustern zugrunde liegen, konkret aussehen. Eine zukünftige Arbeit könnte
sich deshalb der Problematik widmen, Klassifikationsregeln für die (visuell)
gefundenen Cluster mithilfe eines interpretierbaren Modells, wie z.B. einem
Entscheidungsbaum, aus den Belastungskollektivdaten zu lernen, welche
die clusterspezifischen Belastungsmuster beschreiben. Die Kenntnis über
die so gefundenen Muster könnte den Ingenieuren dann dabei helfen, die
Fahrzeugauslegung marktspezifisch bzw. für den gesamten Weltmarkt zu
optimieren.
7 Literaturverzeichnis
[1]
J. Han, M. Kamber und J. Pei, "Data Mining: Concepts and
Techniques", 3. Ausgabe, USA: Morgan Kaufmann Publishers, 2011.
[2]
L. Breiman, "Random forests", Machine Learning, Bd. 45, Nr. 1, S. 532, 2001.
[3]
L. J. P. van der Maaten und G. E. Hinton, "Visualizing HighDimensional Data Using t-SNE", Journal of Machine Learning
Research, Nr.9, S. 2579-2605, 2008.
[4]
M. Köhler, S. Jenne, K. Pötter und H. Zenner, "Zählverfahren und
Lastannahme in der Betriebsfestigkeit", Berlin: Springer, 2012.
[5]
P. Bergmeir, C. Nitsche, J. Nonnast und M. Bargende, "Classifying
component failures of a hybrid electric vehicle fleet based on load
spectrum data", Neural Computing and Applications, S. 1-16, 2015.
[6]
H. Hotelling, "Analysis of a complex of statistical variable into principal
components", Educational Psychology, Nr. 24, S. 417-441, 1933.
[7]
K. V. Mardia, J. T. Kent und J. M. Bibby, "Multivariate Analysis",
London: Academic Press, 1979.
[8]
J. W. Sammon, "A nonlinear mapping for data structure analysis",
IEEE Transactions on Computers, S. 401-409, 1969.
[9]
J. B. Tenenbaum, V. de Silva und J. C. Langford, "A Global Geometric
Framework for Nonlinear Dimensionality Reduction", Science, Bd. 290,
Nr. 5500, S. 2319-2323, 2000.
[10] S. Ji, "Computational genetic neuroanatomy of the developing mouse
brain: dimensionality reduction, visualization, and clustering", BMC
Bioinformatics, S. 1-14, 2013.
[11] L.J.P. van der Maaten, "Accelerating t-SNE using Tree-Based
Algorithms", Journal of Machine Learning Research, S. 3221-3245,
2014.
[12] L. Breiman und A. Cutler, "Random Forests Manual v4.0", 2003.
[13] T. Shi und S. Horvath, "Unsupervised Learning with Random Forest
Predictors", Journal of Computational and Graphical Statistics, S. 118138, 2006.
[14] J. Krijthe, "Rtsne: T-Distributed Stochastic Neighbor Embedding using
Barnes-Hut Implementation", Version 0.10, 2015, http://CRAN.Rproject.org/package=Rtsne.
[15] J. Oksanen, F. G. Blanchet, R. Kindt, P. Legendre, P. R. Minchin, R. B.
O'Hara, G. L. Simpson, P. Solymos, M. Henry, H. Stevens und H.
Wagner, "vegan: Community Ecology Package", Version 2.3-0, 2015,
http://CRAN.R-project.org/package=vegan.
[16] A. Liaw und M. Wiener, "Classification
randomForest“, R News, 2002.
and
Regression
by
[17] P. Bergmeir, C. Nitsche, J. Nonnast und M. Bargende,
"Klassifikationsverfahren zur Identifikation von Korrelationen zwischen
Antriebsstrangbelastungen und Hybridkomponentenfehlern einer
Hybridfahrzeugflotte", Tag des kooperativen Promotionskollegs
HYBRID, 2014.
[18] P. Bergmeir, C. Nitsche, J. Nonnast, M. Bargende, P. Antony und U.
Keller, "Using Balanced Random Forests on Load Spectrum Data for
Classifying Component Failures of a Hybrid Electric Vehicle Fleet", In:
Proceedings of 13th International Conference on Machine Learning
and Applications (ICMLA), S. 397-404, 2014.
[19] P. Bergmeir, C. Nitsche, J. Nonnast und M. Bargende, "A Load
Spectrum Data based Data Mining System for Identifying Different
Types of Vehicle Usage of a Hybrid Electric Vehicle Fleet", Eingereicht
als SAE Technical Paper für den SAE World Congress 2016, (im
Review-Prozess).
[20] "TomTom Traffic Index - Measuring Congestion Worldwide", TomTom
International BV, https://www.tomtom.com/en_gb/trafficindex/#/list,
(Zugriff am 5.10.2015).
[21] L. J. van der Maaten, "Visualizing Data using t-SNE", Google Tech
Talk am 24.06.2013. https://www.youtube.com/watch?v=RJVL80Gg3lA
&list=UUtXKDgv1AVoG88PLl8nGXmw, (Zugriff am 28.10.2015).