Fachprojekt: Data-Mining und Datenanalyse Nico Piatkowski 11.05.2015 2/8 Übersicht I Heute: I I I Frequent Set Mining mit FP-Growth Clustering mit DB-Scan Themenübersicht und Beispielthemen I Montag: I I Besprechung der Themen Daten IO mit Java Termine: I Kein Treen am nächsten Mittwoch (13.05.2015) I Thema/Proposal bis nächsten Montag (18.05.2015) 3/8 Frequent Set Mining Gegeben: Datensatz X = {0, 1}d , D = x (i ) 1≤i ≤N Min-Support m∈N mit diskreter Domäne . Jedes x (i ) ist die vektorielle Darstellung einer Menge (Indikatorvektor, Transaktionsdaten) Frage: Welche sind die häugsten Teilemengen (frequent sets, frequent pattern)? Denition: ⇒ M ist häug ⇔ M kommt in D häuger als Naives Nachzählen hat exponentielle Komplexität! Bessere Algorithmen: I A-priori (beim letzten Treen) I FP-Growth (jetzt) m mal vor O(2d ) 4/8 FP-Growth Grundlegende Beobachtungen: 1. Der Datensatz D muss mindestens einmal komplett betrachtet werden, um alle häugen Mengen (und ihre Häugkeiten) zu bestimmen 2. Bei Verwendung einer geeigneten Datenstruktur, ist möglicherweise ein Scan von D ausreichend 3. Häuge Mengen mit gleichen Objekten können beim zählen zusammengefasst werden. Zusammengefasste Teilmengen teilen sich die Zähler 4. Eine beliebige aber feste Ordnung der Objekte erlaubt das Zusammenfassen in einem Präxbaum. Der Baum wird kleiner, wenn die Ordnung der Objekte auf den Häugkeiten basiert 5/8 Density-based Clustering (DB-Scan) Problem mit k -Means: Es können nur Runde Cluster gefunden werden! Alternative Cluster denition: 1. Punkte in einem Cluster haben höchstens Abstand Nachbarn 2. Ein Cluster enthält mindestens m Punkte ε zu ihren 6/8 Übersicht: I Überwachtes Lernen: I Regression, Klassikation I Zielfunktionen I I Unüberewachtes Lernen: I Clustering, Probabilistic (Mixture-)Models, Missing Data, Frequent Pattern Mining I Modellklassen I linear, polynomiell, probabilistisch, Nearest Neighbor, Entscheidungsbaum I Optimierungsalgorithmen I Gradientenabstieg, (Quasi-)Newton Erwarteter Fehler, Log-Likelihood (+ untere Schranke), k -Means I Fehlerfunktionen I L1 ,L2 , Acc, Hinge I Data-Mining Algorithmen I I I I Lloyds Algorithmus (k -Means Heuristik), DB-Scan Expectation Maximization A-Priori, FP-Growth Entscheidungsbauminduktion I Abhängigkeit: Kullback-Leibler Divergence, Mutual Information 7/8 Beispielthemen: I Unüberewachtes Lernen, Clustering, Vergleich von k -Means und DB-Scan I Unüberewachtes Lernen, Mixture-Models mit EM (Maximum Likelihood Schranke), Vergleich von Gaussian und Poisson I Überwachtes Lernen mit Gradientenabstieg, Klassikation, lineares Modell(+Hinge-Loss), Vergleich mit Entscheidungsbaum(+Inf-Gain) I Überwachtes Lernen, Klassikation, Probabilistisches Modell (Multinomial, Maximum Likelihood), Vergleich von Grid-Diskretisierung und Cluster Diskretisierung 8/8 Datensätze: I UC Irvine Machine Learning Repository: http://archive.ics.uci.edu/ml I Statistisches Bundesamt: https://www.destatis.de/DE/Startseite.html I Andere Quellen!?
© Copyright 2025 ExpyDoc