und Masterarbeitsthemen im WS 2015/2016

TECHNISCHE UNIVERSITÄT
ILMENAU
Fakultät für Wirtschaftswissenschaften und Medien
Fachgebiet für Quantitative Methoden
der Wirtschaftswissenschaften
Postfach 10 05 65
D-98684 Ilmenau
Telefon: +49 (0)3677 69 4052
Telefax: +49 (0)3677 69 4204
28. September 2015
Bachelor- und Masterarbeitsthemen im WS 2015/2016
Imputation kategorialer Daten mittels Entscheidungsbäumen
Bachelorarbeit
Betreuer: Bankhofer
Entscheidungsbäume sind Modellbildungsmethoden zur Prognose von Klassenzugehörigkeiten
basierend auf Informationen, die in einer Lernprobe bereits vorhanden sind. Ähnlich werden Imputationsmethoden verwendet, um aus vorhandenen Daten die Werte von fehlenden Daten abzuleiten.
Ziel dieser Arbeit ist es zunächst, Entscheidungsbaumverfahren vorzustellen und die Möglichkeiten
einer Anwendung zur Imputation fehlender kategorialer Daten zu systematisieren. Neben der Darstellung möglicher Vor- und Nachteile dieser Vorgehensweise sollte diese im Hauptteil der Arbeit
durch Beispielrechnungen illustriert werden.
Literatur:
•
Bankhofer, U. (1995): Unvollständige Daten- und Distanzmatrizen in der Multivariaten Datenanalyse. Bergisch Gladbach, Köln: Eul.
•
Bankhofer, U. und Vogel, J. (2008): Datenanalyse und Statistik. Wiesbaden: Gabler.
•
Little, R.J.A., and Rubin, D.B. (2002): Statistical Analysis with Missing Data. Second Edition. New York: Wiley.
•
Witten, I., Frank, E., and Hall, M. (2011): Data Mining: Practical Machine Learning Tools
and Techniques. Third Edition. Burlington: Morgan Kaufmann.
•
+ eigene Literatursuche
Die Szenariotechnik als Instrument der strategischen Planung
Bachelorarbeit
Betreuer: Bankhofer
Die Szenariotechnik stellt ein Methodenkonzept zur Ergänzung der traditionellen Prognoseverfahren dar. In den 1960er Jahren zunächst für den militärischen Bereich entwickelt, hat sie sich inzwischen als ein nützliches Instrument der langfristigen Prognose auch in Politik und Wirtschaft etabliert.
Auf der Grundlage einer Literaturrecherche ist das Verfahren allgemein zu beschreiben und seine
Vor- und Nachteile zu erläutern. Es sind nicht nur die prinzipiell möglichen Anwendungsgebiete zu
umreißen, sondern auch einige typische in der Literatur beschriebene Anwendungen aus der unternehmerischen Praxis und den Wirtschaftswissenschaften exemplarisch vorzustellen.
Literatur:
•
Fink, A., Siebe, A. (2006): Handbuch Zukunftsmanagement, Campus
•
Götze, U. (1994): Szenario-Technik in der strategischen Unternehmensplanung, Deutscher
Universitätsverlag
•
Wilms, F. E. P. (2006): Szenariotechnik: Vom Umgang mit der Zukunft, Haupt
•
+ eigene Literatursuche
Parallelkoordinatenplots zur Darstellung hochdimensionaler Daten: Vorteile und Grenzen
Bachelorarbeit
Betreuer: Rockel
Klassische Visualisierungsmethoden wie Streuungsdiagramme oder Säulendiagramme können
häufig nur zwei oder drei Dimensionen in einem Diagramm darstellen. Viele Datensätze besitzen
jedoch mehr als drei Dimensionen. Um diese mehrdimensionalen Beziehungen in einer Grafik darzustellen, wurden unter anderem Parallelkoordinatenplots entwickelt.
Das Ziel dieser Arbeit ist es, als erstes die Visualisierungsmethode Parallelkoordinatenplots darzustellen und Analogien zu bekannten Visualisierungsmethoden aufzuzeigen. Anschließend soll untersucht werden, für welche Daten sich Parallelkoordinatenplots besonders gut eigenen und für
welche Daten besser auf andere Visualisierungsmethoden zurückgegriffen werden sollte.
Literatur:
•
Inselberg, A. (2008) - Parallel Coordinates: Visualization, Exploration and Classification of
High-dimensional Data, in: Chen, C., Härdle, W., Unwin, A. (Hrsg.): Handbook of Data Visualization, Berlin: Springer, S. 643-680
•
Wegman, Edward J. (1990): Hyperdimensional Data Analysis Using Parallel Coordinates.
Journal of the American Statistical Association, 85, S. 664-675
•
+ eigene Literatursuche
Strukturgleichungsmodelle mit latenten Variablen
Masterarbeit
Betreuer: Bankhofer
Strukturgleichungsmodelle sind ein Standardinstrument zur empirischen Prüfung von komplexen
Hypothesensystemen. Anhand eines Datensatzes soll überprüft werden, ob vermutete kausale Zusammenhänge zwischen beobachtbaren Variablen mit dem Datenmaterial übereinstimmen. Die
Besonderheit besteht darin, dass auch nicht beobachtbare, theoretisch konstruierte Variablen in die
Kausalanalyse einbezogen werden können. In der Arbeit ist das prinzipielle Vorgehen bei einer
Analyse mit Strukturgleichungsmodellen zu beschreiben, und anhand einer Literaturrecherche sind
typische Anwendungen dieser Methode in den Wirtschaftswissenschaften aufzuzeigen. Da die Methode die Verfahren Pfadanalyse, Regressionsanalyse und Faktorenanalyse kombiniert, ist das
Thema besonders für Studierende geeignet, die Kenntnisse aus der Vorlesung Datenanalyse mitbringen.
Literatur:
•
Backhaus, K., Erichson, B., Weiber, R. (2010) Fortgeschrittene multivariate Analysemethoden: Eine anwendungsorientierte Einführung, Springer
•
Bollen, K. A. (1989) Structural Equations with Latent Variables, Wiley
•
Reinecke, J. (2005) Strukturgleichungsmodelle in den Sozialwissenschaften, Oldenbourg
•
+ eigene Literatursuche
Distanzberechnungsmethoden und deren Auswirkungen auf die Ergebnisse
einer Clusteranalyse
Diplom- bzw. Masterarbeit
Betreuer: Bankhofer
In der Datenanalyse werden die mit einer Datenmatrix über die Ähnlichkeitsstruktur der Objekte
vorliegenden Informationen im Allgemeinen zunächst durch eine geeignete Distanzmatrix abgebildet. Abhängig von der Skalierung der Merkmale können die Distanzindizes sehr unterschiedlich
berechnet werden, so dass letztendlich auch unterschiedliche Distanzmatrizen die Ausgangsinformationen jeweils adäquat abbilden. In dieser Arbeit soll daher im Rahmen einer Simulationsstudie
untersucht werden, inwieweit die Ergebnisse von Clusteranalysen gegenüber unterschiedlichen
Merkmalsskalierungen und Distanzberechnungen variieren bzw. stabil bleiben.
Literatur:
•
Vorlesungsskript Datenanalyse und die darin angegebene Literatur
•
+ eigene Literatursuche
Imputationsmethoden zur Behandlung fehlender Werte und deren Verfügbarkeit in
Softwarepaketen
Masterarbeit
Betreuer: Bankhofer
Die Anwendung von Algorithmen, mit denen die vorhandenen Daten um Schätzungen für die fehlenden Werte ergänzt werden, so dass eine vollständige Datenmatrix resultiert, heißt Imputation.
Somit können Verfahren, die für vollständige Daten entwickelt worden sind, ohne den Verlust von
Informationen angewendet werden.
Zunächst ist der Stand der Forschung im Bereich der Imputationsverfahren zu ergründen. Hauptaugenmerk hierbei sollten aktuelle Entwicklungen sowie die Beurteilung der Güte dieser Imputationsverfahren in entsprechenden Simulationsstudien sein. Im empirischen Teil der Arbeit sind Softwarepakete zur statistischen Analyse von Daten auf die implementierten Imputationsverfahren hin zu
untersuchen und existierende Speziallösungen darzustellen.
Literatur:
•
Bankhofer, U. (1995): Unvollständige Daten- und Distanzmatrizen in der Multivariaten Datenanalyse. Bergisch Gladbach, Köln: Eul.
•
Little, R.J.A., and Rubin, D.B. (2002): Statistical Analysis with Missing Data. Second Edition. New York: Wiley.
•
Andridge, R.R., and Little, R.J.A. (2010): A Review of Hot Deck Imputation for Survey Nonresponse. International Statistical Review, 78, pp.40-64.
•
Weitere Literatur auf Anfrage
•
+ eigene Literatursuche
Imputation auf Basis von EM-Parameterschätzungen
Masterarbeit
Betreuer: Rockel
Im Falle von fehlenden Daten können viele Standardverfahren der Datenanalyse nicht direkt eingesetzt werden, da sie einen vollständigen Datensatz voraussetzen. Eine Möglichkeit zur Behebung
dieses Problems ist, die fehlenden Werte mit geeigneten Werten zu ersetzen.
Der EM-Algorithmus wurde ursprünglich nicht zur Imputation entwickelt, sondern um auf Basis einer
Datenmatrix mit fehlenden Werten Maximum-Likelihood-Schätzungen für Parameter zu liefern. Diese Parameterschätzungen können dann anstelle des Datensatzes mit fehlenden Werten in der späteren Analyse verwendet werden. Allerdings ist dies nur möglich, wenn für das gewählte Datenanalyseverfahren diese geschätzten Parameter ausreichen. Falls das nicht der Fall ist, können die geschätzten Parameter jedoch auch zur Imputation der fehlenden Werte genutzt werden. Eine auf
diese Art vervollständigte Datenmatrix kann dann wieder mit herkömmlichen Analyseverfahren ausgewertet werden.
Das Ziel dieser Arbeit ist es daher, zunächst den EM-Algorithmus und die verschiedenen Möglichkeiten einer Verwendung von EM-Parameterschätzungen zur Imputation darzustellen. Anschließend sollen anhand bestehender Vergleiche in der Literatur und einer eigenen Simulationsstudie
die Imputationsergebnisse auf Basis von EM-Parameterschätzungen bewertet werden.
Literatur:
•
Bankhofer, U. (1995): Unvollständige Daten- und Distanzmatrizen in der Multivariaten Datenanalyse. Bergisch Gladbach, Köln: Eul
•
Little, R.J.A., and Rubin, D.B. (2002): Statistical Analysis with Missing Data. Second Edition. New York: Wiley
•
Dempster, A..; Laird, N. and Rubin, D. (1977): Maximum likelihood from incomplete data via
the EM algorithm. Journal of the Royal Statistical Society, 39, S. 1-38
•
+ eigene Literatursuche