TECHNISCHE UNIVERSITÄT ILMENAU Fakultät für Wirtschaftswissenschaften und Medien Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Postfach 10 05 65 D-98684 Ilmenau Telefon: +49 (0)3677 69 4052 Telefax: +49 (0)3677 69 4204 28. September 2015 Bachelor- und Masterarbeitsthemen im WS 2015/2016 Imputation kategorialer Daten mittels Entscheidungsbäumen Bachelorarbeit Betreuer: Bankhofer Entscheidungsbäume sind Modellbildungsmethoden zur Prognose von Klassenzugehörigkeiten basierend auf Informationen, die in einer Lernprobe bereits vorhanden sind. Ähnlich werden Imputationsmethoden verwendet, um aus vorhandenen Daten die Werte von fehlenden Daten abzuleiten. Ziel dieser Arbeit ist es zunächst, Entscheidungsbaumverfahren vorzustellen und die Möglichkeiten einer Anwendung zur Imputation fehlender kategorialer Daten zu systematisieren. Neben der Darstellung möglicher Vor- und Nachteile dieser Vorgehensweise sollte diese im Hauptteil der Arbeit durch Beispielrechnungen illustriert werden. Literatur: • Bankhofer, U. (1995): Unvollständige Daten- und Distanzmatrizen in der Multivariaten Datenanalyse. Bergisch Gladbach, Köln: Eul. • Bankhofer, U. und Vogel, J. (2008): Datenanalyse und Statistik. Wiesbaden: Gabler. • Little, R.J.A., and Rubin, D.B. (2002): Statistical Analysis with Missing Data. Second Edition. New York: Wiley. • Witten, I., Frank, E., and Hall, M. (2011): Data Mining: Practical Machine Learning Tools and Techniques. Third Edition. Burlington: Morgan Kaufmann. • + eigene Literatursuche Die Szenariotechnik als Instrument der strategischen Planung Bachelorarbeit Betreuer: Bankhofer Die Szenariotechnik stellt ein Methodenkonzept zur Ergänzung der traditionellen Prognoseverfahren dar. In den 1960er Jahren zunächst für den militärischen Bereich entwickelt, hat sie sich inzwischen als ein nützliches Instrument der langfristigen Prognose auch in Politik und Wirtschaft etabliert. Auf der Grundlage einer Literaturrecherche ist das Verfahren allgemein zu beschreiben und seine Vor- und Nachteile zu erläutern. Es sind nicht nur die prinzipiell möglichen Anwendungsgebiete zu umreißen, sondern auch einige typische in der Literatur beschriebene Anwendungen aus der unternehmerischen Praxis und den Wirtschaftswissenschaften exemplarisch vorzustellen. Literatur: • Fink, A., Siebe, A. (2006): Handbuch Zukunftsmanagement, Campus • Götze, U. (1994): Szenario-Technik in der strategischen Unternehmensplanung, Deutscher Universitätsverlag • Wilms, F. E. P. (2006): Szenariotechnik: Vom Umgang mit der Zukunft, Haupt • + eigene Literatursuche Parallelkoordinatenplots zur Darstellung hochdimensionaler Daten: Vorteile und Grenzen Bachelorarbeit Betreuer: Rockel Klassische Visualisierungsmethoden wie Streuungsdiagramme oder Säulendiagramme können häufig nur zwei oder drei Dimensionen in einem Diagramm darstellen. Viele Datensätze besitzen jedoch mehr als drei Dimensionen. Um diese mehrdimensionalen Beziehungen in einer Grafik darzustellen, wurden unter anderem Parallelkoordinatenplots entwickelt. Das Ziel dieser Arbeit ist es, als erstes die Visualisierungsmethode Parallelkoordinatenplots darzustellen und Analogien zu bekannten Visualisierungsmethoden aufzuzeigen. Anschließend soll untersucht werden, für welche Daten sich Parallelkoordinatenplots besonders gut eigenen und für welche Daten besser auf andere Visualisierungsmethoden zurückgegriffen werden sollte. Literatur: • Inselberg, A. (2008) - Parallel Coordinates: Visualization, Exploration and Classification of High-dimensional Data, in: Chen, C., Härdle, W., Unwin, A. (Hrsg.): Handbook of Data Visualization, Berlin: Springer, S. 643-680 • Wegman, Edward J. (1990): Hyperdimensional Data Analysis Using Parallel Coordinates. Journal of the American Statistical Association, 85, S. 664-675 • + eigene Literatursuche Strukturgleichungsmodelle mit latenten Variablen Masterarbeit Betreuer: Bankhofer Strukturgleichungsmodelle sind ein Standardinstrument zur empirischen Prüfung von komplexen Hypothesensystemen. Anhand eines Datensatzes soll überprüft werden, ob vermutete kausale Zusammenhänge zwischen beobachtbaren Variablen mit dem Datenmaterial übereinstimmen. Die Besonderheit besteht darin, dass auch nicht beobachtbare, theoretisch konstruierte Variablen in die Kausalanalyse einbezogen werden können. In der Arbeit ist das prinzipielle Vorgehen bei einer Analyse mit Strukturgleichungsmodellen zu beschreiben, und anhand einer Literaturrecherche sind typische Anwendungen dieser Methode in den Wirtschaftswissenschaften aufzuzeigen. Da die Methode die Verfahren Pfadanalyse, Regressionsanalyse und Faktorenanalyse kombiniert, ist das Thema besonders für Studierende geeignet, die Kenntnisse aus der Vorlesung Datenanalyse mitbringen. Literatur: • Backhaus, K., Erichson, B., Weiber, R. (2010) Fortgeschrittene multivariate Analysemethoden: Eine anwendungsorientierte Einführung, Springer • Bollen, K. A. (1989) Structural Equations with Latent Variables, Wiley • Reinecke, J. (2005) Strukturgleichungsmodelle in den Sozialwissenschaften, Oldenbourg • + eigene Literatursuche Distanzberechnungsmethoden und deren Auswirkungen auf die Ergebnisse einer Clusteranalyse Diplom- bzw. Masterarbeit Betreuer: Bankhofer In der Datenanalyse werden die mit einer Datenmatrix über die Ähnlichkeitsstruktur der Objekte vorliegenden Informationen im Allgemeinen zunächst durch eine geeignete Distanzmatrix abgebildet. Abhängig von der Skalierung der Merkmale können die Distanzindizes sehr unterschiedlich berechnet werden, so dass letztendlich auch unterschiedliche Distanzmatrizen die Ausgangsinformationen jeweils adäquat abbilden. In dieser Arbeit soll daher im Rahmen einer Simulationsstudie untersucht werden, inwieweit die Ergebnisse von Clusteranalysen gegenüber unterschiedlichen Merkmalsskalierungen und Distanzberechnungen variieren bzw. stabil bleiben. Literatur: • Vorlesungsskript Datenanalyse und die darin angegebene Literatur • + eigene Literatursuche Imputationsmethoden zur Behandlung fehlender Werte und deren Verfügbarkeit in Softwarepaketen Masterarbeit Betreuer: Bankhofer Die Anwendung von Algorithmen, mit denen die vorhandenen Daten um Schätzungen für die fehlenden Werte ergänzt werden, so dass eine vollständige Datenmatrix resultiert, heißt Imputation. Somit können Verfahren, die für vollständige Daten entwickelt worden sind, ohne den Verlust von Informationen angewendet werden. Zunächst ist der Stand der Forschung im Bereich der Imputationsverfahren zu ergründen. Hauptaugenmerk hierbei sollten aktuelle Entwicklungen sowie die Beurteilung der Güte dieser Imputationsverfahren in entsprechenden Simulationsstudien sein. Im empirischen Teil der Arbeit sind Softwarepakete zur statistischen Analyse von Daten auf die implementierten Imputationsverfahren hin zu untersuchen und existierende Speziallösungen darzustellen. Literatur: • Bankhofer, U. (1995): Unvollständige Daten- und Distanzmatrizen in der Multivariaten Datenanalyse. Bergisch Gladbach, Köln: Eul. • Little, R.J.A., and Rubin, D.B. (2002): Statistical Analysis with Missing Data. Second Edition. New York: Wiley. • Andridge, R.R., and Little, R.J.A. (2010): A Review of Hot Deck Imputation for Survey Nonresponse. International Statistical Review, 78, pp.40-64. • Weitere Literatur auf Anfrage • + eigene Literatursuche Imputation auf Basis von EM-Parameterschätzungen Masterarbeit Betreuer: Rockel Im Falle von fehlenden Daten können viele Standardverfahren der Datenanalyse nicht direkt eingesetzt werden, da sie einen vollständigen Datensatz voraussetzen. Eine Möglichkeit zur Behebung dieses Problems ist, die fehlenden Werte mit geeigneten Werten zu ersetzen. Der EM-Algorithmus wurde ursprünglich nicht zur Imputation entwickelt, sondern um auf Basis einer Datenmatrix mit fehlenden Werten Maximum-Likelihood-Schätzungen für Parameter zu liefern. Diese Parameterschätzungen können dann anstelle des Datensatzes mit fehlenden Werten in der späteren Analyse verwendet werden. Allerdings ist dies nur möglich, wenn für das gewählte Datenanalyseverfahren diese geschätzten Parameter ausreichen. Falls das nicht der Fall ist, können die geschätzten Parameter jedoch auch zur Imputation der fehlenden Werte genutzt werden. Eine auf diese Art vervollständigte Datenmatrix kann dann wieder mit herkömmlichen Analyseverfahren ausgewertet werden. Das Ziel dieser Arbeit ist es daher, zunächst den EM-Algorithmus und die verschiedenen Möglichkeiten einer Verwendung von EM-Parameterschätzungen zur Imputation darzustellen. Anschließend sollen anhand bestehender Vergleiche in der Literatur und einer eigenen Simulationsstudie die Imputationsergebnisse auf Basis von EM-Parameterschätzungen bewertet werden. Literatur: • Bankhofer, U. (1995): Unvollständige Daten- und Distanzmatrizen in der Multivariaten Datenanalyse. Bergisch Gladbach, Köln: Eul • Little, R.J.A., and Rubin, D.B. (2002): Statistical Analysis with Missing Data. Second Edition. New York: Wiley • Dempster, A..; Laird, N. and Rubin, D. (1977): Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, 39, S. 1-38 • + eigene Literatursuche
© Copyright 2024 ExpyDoc