1 / 109

Data Mining 2. Vorlesung

Data Mining 2. Vorlesung. Georg Pölzlbauer 15. Mai 2007 poelzlbauer@ifs.tuwien.ac.at. Thematisch verwandte (aufbauende) Lehrveranstaltungen. SS 188.464, Data Mining, 2 VO WS 181.191, Machine Learning, 2 VU WS 188.413, Selbstorganisierende Systeme, 3 VU

dacian
Télécharger la présentation

Data Mining 2. Vorlesung

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining2. Vorlesung Georg Pölzlbauer 15. Mai 2007 poelzlbauer@ifs.tuwien.ac.at

  2. Thematisch verwandte (aufbauende) Lehrveranstaltungen • SS 188.464, Data Mining, 2 VO • WS 181.191, Machine Learning, 2 VU • WS 188.413, Selbstorganisierende Systeme, 3 VU • SS 188.412, Information Retrieval, 3 VU

  3. Weiterführende Themen • Data Mining Tutorials: http://www.autonlab.org/tutorials/ • WS 183.425, Statistische Mustererkennung, 2 VO + 2 UE • SS 107.284, AKSTA Advanced Regression and Classification, 2 VU

  4. Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines

  5. Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines

  6. I. Visualisierung von Daten • Daten sind meist hochdimensional • Scatterplot kann nur 2 Variablen darstellen • Scatterplot Matrix kann beliegig viele Dimensionen darstellen • wird aber schnell unübersichtlich

  7. Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Scatterplot

  8. I. Beispiel 3D http://noppa5.pc.helsinki.fi/koe/3d3.html

  9. I. Scatterplot Matrix: 3 Dimensionen

  10. I. Scatterplot Matrix: 8 Dimensionen

  11. I. Hauptkomponentenanalyse • Principal Component Analysis (PCA) • Sucht (& findet) die "interessanteste" 2-dimensionale Projektion • "Interessant": Richtung mit der höchsten Varianz

  12. Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Varianz s2 s1

  13. I. Beispiel PCA -> Kamera

  14. I. PCA: Theorie • wird aus Kovarianzmatrix berechnet (=> Problem mit Ausreißern) • Eigenvektoren/Eigenwerte werden gebildet • Eigenvektoren mit höchsten Eigenwerten sind Hauptkomponenten • Neue Achsen haben keinen semantischen Sinn mehr

  15. Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Beispiel Hauptkomponenten

  16. Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) I. Beispiel Hauptkomponenten

  17. Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines

  18. II. Problemstellung

  19. II. Problemstellung Training Modell

  20. II. Problemstellung Training Modell Vorhersage

  21. II. Begriffsdefinition • bei ML muss ein kategorisches Attribut vorhergesagt werden (kontinuierlich = Regression) • Synonyme: • Überwachtes Lernen (Supervised Learning) • Klassifikation • Machine Learning (ML) • (Prediction)

  22. Gewicht (kg) 100 90 80 70 60 50 40 1,50 1,60 1,70 1,80 1,90 Größe (m) II. Beispiel

  23. Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines

  24. III. k-Nearest Neighbors (1) • Einfaches Lernverfahren, bei dem kein Modell gebildet wird • Die Trainingsdaten werden zum Klassifizieren verwendet (lazy learning) • Hyperparameter: k ist die Anzahl der nächsten Nachbaren, die betrachtet werden um die Klasse zu ermitteln

  25. III. k-Nearest Neighbors (2) • wenn es nur 2 Klassen gibt sollte k ungerade sein • wird bei einer hohen Anzahl an Samples ineffizient • ist stark von der Skalierung abhängig

  26. III. Beispiel kNN

  27. III. Beispiel kNN ?

  28. III. Beispiel kNN: k = 1

  29. III. Beispiel kNN: k = 3

  30. III. Beispiel kNN: k = 5

  31. Übersicht • Hauptkomponentenanalyse (PCA) • Problemstellung: Überwachtes Lernen • k-Nearest Neighbors • Decision Trees • Lineare Klassifizierung • Modellselektion • Support Vector Machines

  32. IV. Binäre Decision Trees • Bauen auf Informationstheorie auf (Shannon) • Sind ein rekursiver Algorithmus bei dem der Eingaberaum bei jedem Schritt in 2 Teile gespalten wird • Klassifizierung: Baum wird von der Wurzel an abgearbeitet bis ein Blatt erreicht wird

  33. IV. Decision Trees: Beispiel

  34. IV. Informationstheorie, Entropie • Von Claude Shannon • Anwendungen u.a. in Datenkompression • Mißt Informationsgehalt und Redundanz • Informationsgehalt wird in Bits gemessen

  35. IV. Was ist „Entropie“? • In ML ist Entropie ein Maß für die Unreinheit eines Datensets • Hohe Entropie: • schlecht für Klassifizierung • muß reduziert werden • Formel für Entropie H von Datensatz X:

  36. IV. Berechnung von H(X)

  37. IV. H(X): Fallbeispiele p(xred) p(xblue) H(X) I 0.5 0.5 1 II 0.3 0.7 0.88 III 0.7 0.3 0.88 IV 0 1 0

  38. IV. H(X): Relative und absolute Häufigkeiten vs. => H(X1) = H(X2) Nur relative Häufigkeiten sind relevant!

  39. IV. Information Gain Information Gain: Untergruppen, die die Entropie am stärksten verringern Gegeben: Datenset und 3 verschiedene Möglichkeiten zur Unterteilung, wie entscheidet man am besten? H(X) = 1

  40. IV. Informatin Gain (Eigenschaften) • IG ist höchstens so groß wie die Entropie vor der Teilung • IG ist der Wert um den Entropie durch Teilung verringert werden kann • IG ist mindestens 0 (falls die Entropie nicht reduziert werden kann) • 0 <= IG <= H(X)

  41. IV. Decision Trees Algorithmus • Datenset: Kategorische oder quantitative Variable • Für jede Dimension, für jeden möglichen Split wird IG berechnet • Kategorisch: Eine gegen den Rest • Quantitativ: Sortieren, dann zwischen allen möglichen Werten trennen • Rekursion bis nicht mehr geteilt werden kann

  42. IV. Decision Trees: Quantitative Varible 0.07 0.00 0.01 0.03 0.08 0.03 0.00 0.00 0.01 0.13 0.06 original H: 0.99 0.17 0.01 0.11 0.43 0.26 0.06 0.13 0.05 0.29 0.28 0.09 0.16

  43. IV. Decision Trees: Beispiel

  44. IV. Decision Trees: Klassifikation

  45. IV. Decision Trees: Klassifikation

  46. IV. Decision Trees: Klassifikation

  47. IV. Decision Trees: Mehr als 2 Klassen

  48. IV. Decision Trees: Nicht-binäre Bäume

  49. IV. Decision Trees: Overfitting Vollständige Decision Trees sind meistens zu komplex

  50. IV. Decision Trees: Trainingsende • Mögliche Kriterien zur Unterbrechung der Rekursion: • Anzahl der Samples ist gering (unter einem Schwellwert) • Entropie ist gering • IG ist gering • statistische Tests (Chi-Quadrat) etc. • Schwellwerte sind Hyperparameter

More Related