640 likes | 979 Vues
Folien zu “Data Mining” von I. H. Witten und E. Frank übersetzt von N. Fuhr. Zuverlässigkeit: Evaluierung des Gelernten. Aspekte: Training, Testen, Tuning Vorhersage der Qualität: Vertrauensintervalle Holdout, Kreuzvalidierung, Bootstrap Vergleich von Verfahren: der t-Test
E N D
Folien zu “Data Mining”vonI. H. Witten und E. Frank übersetzt von N. Fuhr
Zuverlässigkeit:Evaluierung des Gelernten Aspekte: Training, Testen, Tuning Vorhersage der Qualität: Vertrauensintervalle Holdout, Kreuzvalidierung, Bootstrap Vergleich von Verfahren: der t-Test Schätzung von Wahrscheinlichkeiten: Kostenfunktionen Kosten-basierte Maße Evaluierung nummerischer Vorhersagen Das Prinzip der minimalen Beschreibungslänge 5
Evaluierung: der Schlüssel zum Erfolg Wie gut sind die Vorhersagen des Gelernten? Fehler in den Trainingsdaten ist kein guter Indikator für die Qualität bei neuen Daten Sonst wäre 1-NN der optimale Klassifikator! Einfache Lösung, wenn ausreichend viele Lerndaten (mit Klassenzugehörigkeit) verfügbar: Aufteilung der Daten in Trainings- und Testmenge Aber: meist nur begrenzte Lerndatenmenge verfügbar Ausgefeiltere Techniken müssen angewendet werden
Aspekte der Evaluierung Statistische Zuverlässigkeit von beobachteten Qualitätsunterschieden ( Signifikanztests) Wahl des Qualitätsmaßes: Anzahl korrekter Klassifikationen Genauigkeit der Wahrscheinlichkeitsschätzungen Fehler in nummerischen Vorhersagen Kosten für verschiedene Arten von Fehlern Für viele praktische Anwendungen sind die Kosten relevant
Training und Testen I Naheliegendes Qualitätsmaß für Klassifikationsprobleme: Fehlerrate Erfolg: Die Klasse einer Instanz wird korrekt vorhergesagt Fehler: Die Klasse wird falsch vorhergesagt Fehlerrate: Anteil der Fehler an den Entscheidungen für eine Menge von Instanzen Resubstitutions-Fehler: Fehlerrate auf den Trainingsdaten Resubstitutions-Fehler ist extrem optimistisch!
Training und Testen II Testmenge: unabhängige Instanzen, die nicht zum Erlernen des Klassifikators benutzt wurden Annahme: Sowohl Trainings- als auch Test-menge sind repräsentative Stichproben für das zugrundeliegende Problem Test- und Trainingsmenge können sich grundsätzlich unterscheiden Beispiel: Klassifikator, der mit Kundendaten von zwei verschiedenen Städten A und B entwickelt wurde Um die Qualität eines Klassifikators aus A für eine neue Stadt zu schätzen, teste ihn mit Daten aus B
Anmerkung zum Parameter-Tuning Die Testdaten dürfen in keiner Weise zum Lernen des Klassifikators benutzt werden! Einige Lernverfahren arbeiten mit 2 Stufen: Stufe 1: Aufbau der grundlegenden Struktur Stufe 2: Optimierung der Parameter Die Testdaten dürfen nicht zum Parameter-Tuning benutzt werden! Ordentliches Vorgehen arbeitet mit drei Mengen: Trainingsdaten, Validierungsdaten, Testdaten Validierungsdaten werden zur Parameteroptimierung benutzt
Optimale Ausnutzung der Daten Nach der Evaluierung können alle Daten zum Lernen des endgültigen Klassifikators benutzt werden Allgemein: je mehr Trainingsdaten, desto besser der Klassifikator (aber der Qualitätszuwachs nimmt ab) Je umfangreicher die Testdaten, desto genauer die Schätzung der Fehlerrate Holdout-Prozedur: Methode zum Aufteilen der Originaldaten in Lern- und Testdaten Dilemma: idealerweise sollten sowohl Trainings- als auch Testmenge möglichst groß sein!
Vorhersage der Qualität Angenommen, die Fehlerrate beträgt 25%. Wie nahe ist dieser Wert an der wahren Fehlerrate? Hängt von der Größe der Testmenge ab Vorhersage ist wie der Wurf einer (unfairen!) Münze “Kopf” ist ein “Erfolg”, “Zahl” ist ein “Fehler” In der Statistik wird eine Folge solcher unabhängiger Ereignisse als Bernoulli-Prozess bezeichnet Statistik-Theorie liefert Vertrauensintervalle für den wahren zugrundeliegenden Fehleranteil
Vertrauensintervalle Man kann sagen: p liegt innerhalb eines bestimmten Intervalls mit einer gewissen vorgegebenen Konfidenz Beispiel: S=750 Erfolge bei N=1000 Versuchen Geschätzte Erfolgsquote: 75% Wie nahe ist dies an der wahren Erfolgswahrscheinlichkeit p? Antwort: mit 80%iger Wahrscheinlichkeit ist p[73.2,76.7] Anderes Beispiel: S=75 und N=100 Geschätzte Erfolgsquote: 75% Mit 80%iger Konfidenz p[69.1,80.1]
Mittelwert und Varianz Mittelwert und Varianz für einen Bernoulli-Prozess:p, p (1–p) Erwartete Erfolgsquote f=S/N Mittelwert und Varianz für f : p, p (1–p)/N Für ausreichend große N folgtf einer Normalverteilung c%-Vertrauensintervall [–z Xz] für Zufallsvariable mit Mittelwert 0: Pr[–z Xz]=c Mit einer symmetrischen Verteilung: Pr[–z Xz]=1-2xPr[ X≥ z]
Vertrauensintervalle Vertrauensintervalle für die Normalverteilung mit Mittelwert 0 und Varianz 1: Also gilt z.B.: Pr[–1.65X 1.65]=90% Um diese Beziehung anzuwenden, müssen wir die Zufallsvariable f so transformieren, dass sie Mittelwert 0 und Varianz 1 hat Pr[X z] z 0.1% 3.09 0.5% 2.58 1% 2.33 5% 1.65 10% 1.28 20% 0.84 40% 0.25 –1 0 1 1.65
Transformation von f • Transformierter Wert von f :(d.h. subtrahiere den Mittelwert und dividiere durch die Standardabweichung) • Resultierende Gleichung: • Auflösen nach p :
Beispiele • f = 75%, N = 1000, c = 80% (so dass z = 1.28): • f = 75%, N = 100, c = 80% (so dass z = 1.28): • Anm.: Die Annahme einer Normalverteilung gilt nur für große N (d.h. N > 100) • f = 75%, N = 10, c = 80% (so dass z = 1.28): (nur grobe Näherung)
Holdout-Schätzung • Was tun, wenn nur wenige Lerndaten zur Verfügung stehen? • Die holdout-Methode reserviert eine Teilmenge zum Testen und nutzt den Rest zum Trainieren • Meist: ein Drittel zum Testen, der Rest für das Training • Problem: die Stichproben sind evtl. nicht repräsentativ • Beispiel: eine Klasse kommt in den Testdaten nicht vor • Fortgeschrittene Version nutzt Stratifikation • Stellt sicher, dass jede Klasse mit annähernd gleicher relativer Häufigkeit in beiden Teilmengen vorkommt
Wiederholte holdout-Methode Holdout-Schätzung kann zuverlässiger gemacht werden, indem der Prozess mit verschiedenen Teilstichproben wiederholt wird In jeder Iteration wird ein bestimmter Anteil der Daten zufällig zum Trainieren ausgewählt (evtl. mit Stratifikation) Die Fehlerquoten der verschiedenen Iterationen werden gemittelt, um eine Gesamt-Fehlerquote zu berechnen Dies wird repeated holdout-Methode genannt Immer noch nicht optimal: die verschiedenen Testmengen überlappen sich Können Überlappungen ganz vermieden werden?
Kreuzvalidierung Kreuzvalidierung vermeidet überlappende Testmengen Teile Daten in k Teilmengen gleicher Größe auf Benuze reihum jede Teilmenge zum Testen, den Rest jeweils zum Trainieren Wird k-fache Kreuzvalidierung genannt Oft sind die Teilmengen stratifiziert, bevor die Kreuzvalidierung durchgeführt wird Die Fehlerquoten werden gemittelt, um die Gesamt-Fehlerrate zu berechnen
Mehr zu Kreuzvalidierung Standard-Methode zur Evaluierung: stratifizierte 10fache Kreuzvalidierung Warum 10? Umfangreiche Experiments haben gezeigt, dass dies die beste Wahl ist, um zuverlässige Schätzungen zu bekommen Ferner gibt es theoretische Begründungen hierzu Stratifikation reduziert die Varianz der Schätzungen Noch besser: wiederholte stratifizierte Kreuzvalidierung Z.B.: 10fache Kreuzvalidierung wird 10mal wiederholt und die Ergebnisse gemittelt (reduziert die Varianz)
Leave-One-Out Kreuzvalidierung Leave-One-Out:spezielle Form der Kreuzvalidierung: Anzahl der Durchführungen = Anzahl der Trainingsinstanzen D.h., für n Trainingsinstanzen wird der Klassifikator n-mal gelernt Nutzt die Daten optimal aus Keine zufällige Stichprobenauswahl! Aber: großer Rechenaufwand (Ausnahme: NN)
Leave-One-Out-KV und Stratifikation Nachteil von Leave-One-Out-KV: Stratifikation ist nicht möglich Verfahren garantiert eine nicht-stratifizierte Stichprobe, da die Testmenge nur eine einzige Instanz enthält! Extrembeispiel: Datenmenge, in der zwei Klassen gleich häufig auftreten Einfacher Lerner sagt jeweils die Mehrheitsklasse voraus 50% Genauigkeit auf frischen Daten Leave-One-Out-KV würde aber 100% Fehlerquote liefern
Die Bootstrap-Methode KV zieht Stichproben ohne Ersetzung Eine Instanz, die einmal ausgewählt wurde, kann nicht nochmals für eine spezielle Trainings- oder testmenge ausgewählt werden Bootstrap zieht Stichproben mit Ersetzen, um die Trainingsmenge zu bilden Ziehe n-mal mit Ersetzung aus einer Datenmenge mit n Instanzen, um eine Stichprobe mit n Instanzen zu bilden Benutze diese Daten als Trainingsmenge Die Instanzen aus der ursprünglichen Datenmenge, die nicht in der Trainingsmenge vorkommen, werden als Testmenge verwendet
Der 0.632-Bootstrap • Verfahren wird auch 0.632-Bootstrap genannt • Die Wahrscheinlichkeit, dass eine bestimmte Instanz beim einmaligen Ziehen nicht ausgewählt wird, ist 1–1/n • Daraus ergibt sich die Wahrscheinlichkeit, dass die Instanz in den Testdaten landet: • Somit wird die Trainingsmenge ungefähr 63.2% aller Instanzen enthalten
Schätzung der Fehlerquote beim Bootstrap Die Fehlerschätzung aus den Testdaten ist sehr pessimistisch Trainiert wurde auf nur ~63% aller Instanzen Daher wird die Fehlerquote mit dem Resubstitutions-Fehler verrechnet: Der Resubstitutions-Fehler bekommt ein geringeres Gewicht als der Fehler auf den Testdaten Der Vorgang wird mehrfach wiederholt und der Mittelwert der Fehlerraten berechnet
Mehr zu Bootstrap Wahrscheinlich die beste Methode, um die Qualität bei sehr kleinen Datenmengen zu schätzen Allerdings gibt es einige Probleme Betrachte die zufällige Datenmenge von vorhin Ein perfekter Lerner erzielt 0% Resubstitutionsfehler und ~50% Fehler auf den Testdaten Bootstrap-Schätzung für diesen Klassifikator: Tatsächlich erwarteter Fehler: 50%
Vergleich von Data-Mining-Verfahren • Häufige Frage: Welches von zwei Lernverfahren ist besser? • Anm.: Dies ist anwendungsabhängig! • Naheliegende Mathode: Vergleich der 10fach-KV-Schätzungen • Problem: Varianz in der Schätzung • Varianz kann durch wiederholte KV reduziert werden • Aber: Wir wissen immer noch nicht, ob die Ergebnisse statistisch signifikant sind
Signifikanztests Signifikanztests sagen uns, wie sicher wir sein können, dass ein Unterschied wirklich existiert Nullhypothese: es gibt keinen “wirklichen” Unterschied Alternative Hypothese: Es gibt einen Unterschied Ein Signifikanztest misst, wieviel Evidenz es dafür gibt, die Nullhypothese zu verwerfen Beispiel: Wir benutzen 10fache KV Frage: ist die Differenz bei den Mittelwerten der zwei 10KV-Schätzer signifikant?
Paarweiser t-Test Der Student- oder t-Test sagt aus, ob die Mittelwerte zweier Stichproben signifikant differieren Nehme individuelle Stichproben bei der Kreuzvalidierung Benutzung von paarweisem t-Test, da die einzelnen Stichprobenelemente paarweise auftreten Dieselbe KV wird zweimal angewendet William Gosset Born: 1876 in Canterbury; Died: 1937 in Beaconsfield, England Obtained a post as a chemist in the Guinness brewery in Dublin in 1899. Invented the t-test to handle small samples for quality control in brewing. Wrote under the name "Student".
Verteilung der Mittelwerte • x1 x2 … xkund y1 y2 … yksind die 2k Stichprobenwerte für k-fache KV • mx und my sind die Mittelwerte • Mit ausreichend vielen Werten ist der Mittelwert der unabhängigen Stichprobenwerte normalverteilt • Schätzungen für die Varianzen der Mittelwerte sind x2/k undy2/k • Wennxundy die wahren Mittelwerte sind, dann sindannähernd normalverteilt mit Mittelwert 0 und Varianz 1
Die Student-Verteilung Bei kleinen Stichproben (k < 100) folgt der Mittelwert der Student-Verteilung mit k–1 Freiheitsgraden Vertrauensintervalle: 9 Freiheitsgrade Normalverteilung Pr[X z] z Pr[X z] z 0.1% 4.30 0.1% 3.09 0.5% 3.25 0.5% 2.58 1% 2.82 1% 2.33 5% 1.83 5% 1.65 10% 1.38 10% 1.28 20% 0.88 20% 0.84
Verteilung der Differenzen • Sei md = mx – my • Die Differenzen der Mittelwerte (md) folgen ebenfalls der Student-Verteilung mit k–1 Freiheitsgraden • Sei d2 die Varianz der Differenzen • Die standardisierte Version von md wird t-Statistik genannt: • Wir benutzen t zur Durchführung des t-Tests
Test-Durchführung Lege ein Signifikanzniveau fest Wenn die Differenz signifikant ist auf dem % Niveau,dann beträgt die Wahrscheinlichkeit, dass tatsächlich ein Unterschied vorliegt (100-)% Dividiere das Signifikanz-Niveau durch zwei, da der Test zweiseitig ist D.h. Die wahre Differenz ist entweder +ve oder – ve Schlage den Wert für z nach, der zu /2 gehört Falls t –z oder t z, dann ist der Unterschied signifikant D.h., die Nullhypothese kann verworfen werden
Unabhängige Stichproben • Falls die KV-Schätzungen zu verschiedenen Randomisierungen gehören, sind sie nicht verbunden, sondern unabhängig • (oder wie benutzten k -fache KV für ein Verfahren und j -fache KV für das andere) • Dann müssen wir den t-Test für unabhängige Stichproben mit min(k , j) – 1 Freiheitsgraden anwenden • Die t-Statistik wird dann zu:
Interpretation des Ergebnisses All unsere KV-Schätzer basieren auf der gleichen Datenmenge Die Stichproben sind nicht unabhängig Besser wäre es, für jeden der k Schätzwerte eine andere Datenmenge zu benutzen, um die Qualität für andere Datenbestände vorhersagen zu können Oder: Benutze heuristischen Test, z.B. korrigierten t-Test mit neu gebildeten Stichproben
Vorhersage von Wahrscheinlichkeiten • Bisheriges Qualitätsmaß: Erfolgsquote • Wird auch als 0-1 loss function bezeichnet : • Die meisten Klassifikatoren liefern Klassen-Wahrscheinlichkeiten • Bei manchen Anwendungen möchte man die Genauigkeit der Wahrscheinlichkeitsschätzungen messen • 0-1 loss ist nicht das passende Maß hierfür
Quadratische Verlustfunktion • p1 … pksind die Wahrscheinlichkeitsschätzungen für eine Instanz • c ist der Klassenindex der aktuellen Instanz • ac=1, sonst a1 … ak = 0 • Quadratischer Fehler ist: • Wir wollen minimieren: • Man kann zeigen, dass dies minimal ist wenn jeweils pj = pj*, der wahren Wahrscheinlichkeit
Informationelle Verlustfunktion Die informationelle Verlustfunktion ist –log(pc),wobei c den Index der aktuellen Klasse bezeichnet Anzahl der erforderlichen Bits, um die aktuelle Klasse mitzuteilen Seien p1* … pk* die wahren Klassenwahrscheinlichkeiten Dann ist der Erwartungswert der Verlustfunktion: Rechtfertigung: minimal wenn pj = pj* Problem: Klassen mit Häufigkeit 0
Diskussion • Welche Verlustfunktion wählen? • Beide belohnen gute Schätzungen • Quadratische Verlustfunktion berücksichtigt alle Schätzungen von Klassenwahrscheinlichkeiten für eine Instanz • Informationelle Verlustfunktion betrachtet nur die Wahrscheinlichkeitsschätzung für die tatsächliche Klasse • Quadratischer Verlust ist beschränkt:er kann nicht größer als 2 werden • Informationeller Verlust kann beliebig groß werden • Informationeller Verlust ist verwandt mit dem MDL-Prinzip[später]
Berücksichtigung der Kosten Bei praktischen Anwendungen führen verschiedene Arten von Fehlern oft zu unterschiedlichen Kosten Beispiele: Aufspüren von Terroristen “Kein Terrorist” korrekt bei 99.99% aller Fälle Kredit-Entscheidungen Erkennen von Ölflecken Fehlerdiagnosen Werbesendungen
Predicted class Yes No Actual class Yes True positive False negative No False positive True negative Berücksichtigung der Kosten • Die Fall-Matrix: • Es kann noch weitere Arten von Kosten geben! • Z.B.: Kosten zum Sammeln der Trainingsdaten
Steigerungsdiagramm In der Praxis sind die Kosten oft unbekannt Entscheidungen werden gefällt, indem verschiedene mögliche Szenarien verglichen werden Beispiel: Werbesendung an 1.000.000 Haushalte Versand an alle; 0.1% antworten (1000) Data mining Tool identifiziert Teilmenge von 100,000 Aussichtsreichen, 0.4% davon antworten (400)40% der Antworten für 10% der Kosten kann sich lohnen Identifiziere Teilmenge von 400,000 Aussichtsreichen, 0.2% davon antworten (800) Ein Steigerungsdiagramm erlaubt den visuellen Vergleich
Generierung eines Steigerungsdiagramms Sortiere Instanzen nach der geschätzten Erfolgswahrscheinlichkeit : x-Achse: Stichprobengrößey-Achse: Anzahl Erfolgsfälle Predicted probability Actual class 1 0.95 Yes 2 0.93 Yes 3 0.93 No 4 0.88 Yes … … …
Eine hypothetisches Steigerungsdiagramm 40% der Antworten für 10% der Kosten 80% der Antwortenfür 40% der Kosten
ROC-Kurven ROC-Kurven sind ähnlich zuSteigerungsdiagrammen Steht für “receiver operating characteristic” Wird in der Signaltheorie benutzt, um den Tradeoff zwischen Erfolgsquote und Fehlerrate in einem verrauschten Übertragungskanal darzustellen Unterschiede zu Steigerungsdiagramm: y-Achse zeigt den Prozentsatz positiver Elemente in der Stichprobe im Gegensatz zur deren absoluter Anzahl x –Achse zeigt den Prozentsatz von falschen positiven in der Stichprobe im Gegensatz zur Stichprobengröße
Beispiel einer ROC-Kurve Gezackte Kurve: eine Testdatenmenge Glatte Kurve: Resultat von Kreuzvalidierung
Kreuzvalidierung und ROC-Kurven Einfache Methode zur Erstellung einer ROC-Kurve mittels Kreuzvalidierung: Sammle Wahrscheinlichkeiten für die Instanzen in den Testmengen Sortiere Instanzen nach Wahrscheinlichkeiten Methode ist in WEKA implementiert Es gibt aber noch andere Möglichkeiten Die im Buch beschriebene Methode generiert eine ROC-Kurve für jede Testmenge und mittelt dann
ROC-Kurven für zwei Verfahren Für eine kleine, ausgewählte Menge, benutze Methode A Für größere Mengen, benutze Methode B Dazwischen: wähle zwischen A und B mit geeigneten Wahrscheinlichkeiten
Die konvexe Hülle Für zwei Verfahren kann man jeden Punkt auf der konvexen Hülle errreichen! TP und FP-Quoten für Verfahren 1: t1 und f1 TP und FP-Quoten für Verfahren 2: t2 und f2 Wenn Methode 1 für 100q % der Fälle benutzt wird und Methode 2 für den rest, dann TP-Rate für das kombinierte Verfahren:q t1+(1-q) t2 FP-Rate für das kombinierte Verfahren:q f2+(1-q) f2
Kosten-sensitives Lernen Die meisten Lernverfahren unterstützen kein Kosten-sensitives Lernen Sie generieren denselben Klassifikator unabhängig davon, welche Kosten den einzelnen Klassen zugeordnet werden Beispiel: Standard-Lerner für Entscheidungsbäume Einfache Methoden für Kosten-sensitives Lernen: Resampling der Instanzen entsprechend den Kosten Gewichtung der Instanzen entsprechend den Kosten Einige Verfahren können Kosten berücksichtigen, indem sie bestimmte Parameter variieren, z.B. naiver Bayes
Maße im Information Retrieval Anteil der gefundenen Dokumente, die relevant sind: Precision=TP/(TP+FP) Anteil der relevanten Dokumente, die gefunden wurden: Recall =TP/(TP+FN) Precision/Recall-Kurven sind meist ähnlich zu hyperbolischen Kurven Globale Maße: Mittelwert der Precision bei 20%, 50% und 80% Recall (three-point average recall) F-Maß=(2RecallPrecision)/(Recall+Precision)
Zusammenfassung der Maße Domäne Achsen Erklärung Steigerungsdiagramm Marketing TP Größe d. Teilm. TP (TP+FP)/(TP+FP+TN+FN) ROC-Kurve Signaltheorie TP-Quote FP-Quote TP/(TP+FN) FP/(FP+TN) Recall-Precision- Kurve Information retrieval Recall Precision TP/(TP+FN) TP/(TP+FP)