1 / 57

Oberseminar Datenbanken Carsten Severin Tobias Sorgatz

Oberseminar Datenbanken Carsten Severin Tobias Sorgatz. Datamining. Überblick. 1. Einleitung 2. Eingaben 3. Ausgaben 4. Algorithmen 5. Glaubwürdigkeit 6. Maschinelles Lernen in der Praxis. 1.0. Beispiele. Beispiel 1: Künstliche Befruchtung

walter
Télécharger la présentation

Oberseminar Datenbanken Carsten Severin Tobias Sorgatz

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Oberseminar DatenbankenCarsten Severin Tobias Sorgatz Datamining

  2. Überblick • 1. Einleitung • 2. Eingaben • 3. Ausgaben • 4. Algorithmen • 5. Glaubwürdigkeit • 6. Maschinelles Lernen in der Praxis

  3. 1.0. Beispiele • Beispiel 1: Künstliche Befruchtung • Eigenschaften definieren, die größteÜberlebenschance garantieren

  4. 1.1. Beispiele • Beispiel 2: Vieh wird geschlachtet • Gesundheit • Lebenserwartung • Fruchtbarkeit • Gewicht

  5. 1.2. Situation • Immer mehr Daten werden gespeichert • Internet • Preiswerte Speichermedien • Mehr Anwendungen: Bilder, Filme • Alle 20 Monate Verdopplungder Daten

  6. 1.3. Lösung: Data Mining • Es ist eine Möglichkeit gesucht, dieDatenflut zu analysieren • Daten sollen ausgewertet werden • Lösung: Data Mining

  7. 1.4.1. Datamining • Verarbeitung elektronisch gespeicherter Daten • Lernen: Wissen durch Studium aneignen • Prozess der autom. oder halbautom. Mustererkennung • Maschinelles Lernen: Lernen automatisieren

  8. 1.4.2. Data Mining • Aneignen von Wissen • Fähigkeit es zu verwenden • Gezielte Suche in Datenbanken • Analyse bereits vorhandener Daten • Suche nach Mustern • Ergebnisse ein weiteres Handeln einbeziehen

  9. 1.5. Data Mining und Ethik • problematisch sind rassische und sexuelle Informationen • Undurchschaubarkeit von Daten (unvorhersehbare Auswertungen) • Viele Daten werden für neue Analysen zusammengefasst

  10. 1.6. Bias: Lernverfahren • Zur Bestimmung des Lernverfahrens • Sprachbias: • Ist die Beschreibung universal? • Wird domänenwissen genutzt • Suchbias: • bestmögliche Beschreibung finden • Bias zur Vermeidung der Überanpassung

  11. 2. Eingabe • Wie werden die Daten zur Analyse eingegeben?

  12. 2.1. Eingabe der Daten • Konzepte • Instanzen • Attribute

  13. 2.1.1. Konzepte • Unabhängig von Art des Lernens • Beschreibt was gelernt werden soll • Ausgabe des Lernverfahrens: • Baum • Regelmenge

  14. 2.1.2. Instanzen • Jede Instanz ist ein eigenes Beispiel • Zeile in einer Tabelle

  15. 2.1.3.1. Attribute • Attribut ist Spalte einer Tabelle • Problem: Instanzen mit unterschiedlichen Attributen -> Möglichst viele Attribute

  16. 2.1.3.2. Attribute • Numerische Attribute • Nominale Attribute • Ordinale Attribute

  17. 2.2. Beispiel • Wie sehen einzulesende Datenmengen aus? • Wie sehen Regelmengen aus?

  18. 2.2.1. Beispiel: Datensatz

  19. 2.2.2. Beispiel: Baum

  20. 2.2.3. Beispiel: Regelmenge

  21. 2.3. Aufbereitung • Aufbereitung der Eingabedaten • Integration von verschiedenen Datenquellen • Datacleaning • Data Warehousing • ARFF-Dateien

  22. 2.3.1. Data Warehousing • Zusammenfassung von Datenquellen • Unternehmensweite Datenbankintegration • Keine Abteilungsgrenzen • Aggregation von Daten

  23. 2.4. Eingabe: Fehlende Daten • Einträge außerhalb Gültigkeit (-1) • Unterscheidung von fehlenden Daten(-1,-2) • Wegen verändertes Experiment • Wegen Messfehlern • Wegen Verweigerung • Ist Auftreten zufällig oder wichtig für Analyse?

  24. 2.5. Eingabe: Genauigkeit • Daten für andere Zwecke gespeichert • Ungenauigkeiten plötzlich von anderer Bedeutung • Schreibfehler (sind Daten gleich?) • Bewusste Manipulation

  25. 2.6. Arten des Lernens • Klassifizierendes Lernen • Vorhandene Daten in Klassen fassen • Numerische Vorhersage • Numerische statt diskrete Werte • Clustering • Gruppieren von Instanzen

  26. 3.6 Bäume für numerische Vorhersage 3.7 Instanzbasierte Darstellung 3.8 Cluster 3. Ausgabe 3.1 Entscheidungstabellen 3.2 Entscheidungsbäume 3.3 Klassifikationsregeln 3.4 Assoziationsregeln 3.5 Regeln mit Ausnahmen

  27. 3.1 Entscheidungstabellen • Einfachste, elementarste Methode • weniger einfach bei spezieller Auswahl von Attributen • Kompliziert: Auswahl der die Entscheidung nicht beeinflussenden Attribute

  28. 3.2 Entscheidungsbäume • Ansatz: Teile und Herrsche • Knoten eines Baumes bedingen Auswertung eines Attributs • Blätter stellen Klassifikationen dar

  29. 3.3 Klassifikationsregeln • Anwendung einer Regel verlangt Auswertung einer Menge von Attributen • Allgemein logische UND Verknüpfung der Bedingungen • Aus Baum: pro Blatt eine Regel, Auswertung jeder Regel eines Knotens auf dem Pfad von Wurzel zu Blatt

  30. 3.4 Assoziationsregeln • Können nicht nur Klassen vorhersagen, sondern auch Attribute • Damit Vorhersage beliebiger Attributkombinationen • if temperatur =kalt • then luftfeuchtigkeit = normal

  31. 3.5 Regeln mit Ausnahmen • Vermeidung falscher Klassifikation durch Zulassen von Ausnahmen • Schaffen einer neuen Entscheidungsebene • Bei Fortsetzung erhält man Baumstruktur • if stimme = hoch then Frau • except if eunuch then Mann

  32. 3.6 Bäume für numerische Vorhersagen • Auswertung eines numerischen Attributes

  33. 3.7 Instanzbasierte Darstellung • Auswendiglernen durch Merken von Trainingsinstanzen • Neue Instanz wird mit vorhandenen verglichen und der Klasse der ähnlichsten vorhandenen Instanz zugeordnet • BSP: Buchstabenerkennung

  34. 3.8 Cluster • Ausgabe eines Diagramms: Anzeige der in die Cluster eingeordneten Instanzen • Einfachster Fall: Zuweisung einer Clusternummer zu jeder Instanz

  35. 4.3 Teile und Herrsche 4.4 Abdeckungs- algorithmen 4. Algorithmen 4.1 Ableitung elementarer Regeln 4.2 statistische Modellierung

  36. 4.1 Ableitung elementarer Regeln • Baum auf einer Ebene • Auswertung einer Regelmenge eines Attributes • für jedes attribut • für jeden wert des attributes • zählen, wie oft jede klasse erscheint • klasse mit häufigsten auftreten ermitteln • regel aufstellen die diesem attributwert klasse zuordenet • fehlerrate der regeln berechnen • regelmenge mit kleinsten fehler auswählen

  37. 4.2 Statistische Modellierung • Nutzung aller Attribute • Gewichtung für alle Attribute gleich • Attribute werden als unabhängig voneinander angesehen • Rechnen mit Wahrscheinlichkeiten • Auswertung von Hypothesen und zugehörigen Ereignissen

  38. 4.3 Teile und Herrsche • Wahl eines Wurzelattributes • Anlegen einer Verzweigung für jeden Wert • Zerlegung der Beispielmenge in Untermengen, eine für jeden Wert des Attr. • Rekursive Anwendung für jede Verzweigung, nur Instanzen die Verzweigung erreichen • Alle Instanzen eines Knotens gleiche Klasse: Konstruktion des Baumabschn. fertig

  39. 4.4 Abdeckungs-Algorithmen • Betrachtung einzelner Klassen nacheinander • Abdeckung aller Instanzen • Auschluss klassenfremder Instanzen • Ableitung einer Regel in jedem Schritt die einige Instanzen abdeckt

  40. 5. Glaubwürdigkeit • 5.1 Trainieren und Testen • 5.2 Leistungsvorhersage • 5.3 Kreuzvalidierung • 5.3.1 Leave one out • 5.4 Vorhersage von Wahrscheinlichkeiten

  41. 5.1 Trainieren und Testen • Bei richtiger Klassifikation: Erfolg • Andernfalls : Fehler • Angabe des Verhältnisses zwischen Erfolg und Fehler: Gesamtleistung des Klassifizierers • Nicht effektiv, da mit alten Daten gearbeitet wird, Vorhersage schwer möglich

  42. 5.2 Leistungsvorhersage • Fehlerrate (fr) sei bestimmt (5.1) • Bestimmung von Erfolgsrate (er): 1-fr • Mit Mitteln der Wahrscheinlichkeitsrechnung Bestimmung der Wahrscheinlichkeit von er. • Bei grossen Testreihen: Normalverteilung

  43. 5.3Kreuzvalidierung • Aufteilung der Datenmenge in Test und Trainingsmenge, feste Partitionen (Bsp3) • Garantiert beste Mischung der Beispiele aller Klassen • Nacheinander Ausführung von: • Testen einer Partition, trainieren mit den zwei Anderen

  44. 5.3.1 Leave-one-out • N-fache Kreuzvalidierung • N ist Anzahl der Instanzen in der Datenmenge • Nacheinander: • Weglassen einer Instanz • Training mit restlichen Instanzen Auswertung aller N Ergebnisse durch Mittelwertbildung

  45. 5.4 Vorhersage von Wahrscheinlichkeiten • Bisheriges Ziel: hohe Erfolgsrate für Vorhersage • Nicht mehr wahr oder falsch (Vorhersage hat tatsächlichen Wert der Instanz) • Einführung beliebig vieler Abstufungen • Verschiedene Gewichtung von unterschiedlichen Vorhersageergebnissen

  46. 6. Maschinelles Lernen in der Praxis • Algorithmen sind in Praxis viel komplexer • Behandlung realer Probleme • Schwerpunkte: numerische Attribute Fehlerbehandlung • Anwendung von Statistiken

  47. 6.1 Entscheidunsbäume • Erweiterung des Teile-und-herrsche Algo: • Behandlung numerischer und fehlender Werte • Beschneidung (wegen Überanpassung) • Umwandlung der Entscheidungsäume in Klassifikationsregeln

  48. 64 65 68 69 70 71 72 75 80 81 83 85 yes no yes yes yes no yes no no yes yes no 6.1.1 Numerische Werte • Anpassung an nominale (boolsche) Struktur • Beispiel: Temperaturabfrage

  49. 6.1.2 Fehlende Werte • Zerlegung der Instanz, unter Verwendung numerischer Gewichtung, und Bearbeitung mit allen Verzweigungen des Baumes • Bei Erreichen eines Blattknotens: Zusammenfügen der Entscheidungen des Blattknotens unter Verwendung der Gewichtung, die mit “durchgesickert” ist

  50. 6.1.3 Pruning 6.1.3.1 Postpruning: Nachträgliches Beschneiden des fertigen Baumes („zusammengehörige Attribute“) • 6.1.3.2 Prepruning • Beschneidung während der Baumbildung • (Arbeitseinsparung)

More Related