Lernen und Klassifizieren AS2-2

Lernen und Klassifizieren AS2-2 Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

Stochast. Klassifikation Lernen linearer Klassifikation Lernen und Zielfunktion Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

Das Perzeptron Idee: Reize wiedererkennen Rosenblatt 1958 • Künstliche Retina • Assoziations-Schicht • Response-Schicht j X · · · y · · · R A S • Verbindungen zu A fix (zufällig): x = (x1,...,xn)T = (1(S),...,n(S))T • Stärke der Verbindungen zu R veränderbar: w = (w1,...,wn)T Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

Das Perzeptron Entscheiden • := {x} alle Muster,= 1 + 2 1 : Menge aller x aus Klasse 1 2 : Menge aller x aus Klasse 2 Schwelle DEF Log. Prädikat Mit den Erweiterungen x = (x1,...,xn,1)T w = (w1,...,wn,s)T wird Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

Das Perzeptron: Pseudo-code 3 DEF numerische Werte PERCEPT3: Wähle zufällige Gewichte w zum Zeitpunkt t:=0. REPEAT t:= t+1; w(t) = w(t–1) +(L(x) – y(x))x(t)Fehler-Lernregel UNTIL (alle x richtig klassifiziert) Sogar ohne Umdefinition der Muster aus 2! Rüdiger Brause: Adaptive Systeme AS-1, WS 2011

Das Perzeptron: Konvergenz Perzeptron - Konvergenztheorem(MinskyPapert 1988) Wenn die Mustermenge ilinear separierbarist, so konvergiert der Algorithmus bei t   Problem: Wenn Klassen sich überlappen, so wird die Grenzlinie bei g = 1 immer hin und her geschoben

Das Perzeptron: Zielfunktion Ziel: Verallgemeinerung der Lernregel Hier: Minimierung aller Fehlentscheidungen DEF Perzeptron-Zielfunktion „Energie“ Neuformulierung erwartetes Lernen: Gradient d.h. Stochast. Lernen

Lernen durch Iteration Gradientenabstieg einer Zielfunktion R(w) w * w ) R ( w ) - ¶ R ( w ) ¶ W ( t w ( t - 1 ) w w := (w(t-1) – w(t)) ~ – wR(w(t–1)) w(t) = w(t–1) – (t) wR(w(t–1)) - 8 - Rüdiger Brause: Adaptive Systeme AS-1, WS 2009 Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

Was kann ein Perzeptron ? Erwartung: „Intelligente Leistungen“ durch Wahl von (S) Abbildung der Merkmale auf linear separierbare Mustermengen Perzeptronarten • diameter-limited perceptrons nur Bildpunkte aus einem begrenzten Radius • order-restricted perceptrons von maximal n (beliebigen) Bildpunkten abhängig • random perceptrons eine zufällige Auswahl aller Bildpunkte

Was kann ein Perzeptron ? Topologische Prädikate, z.B. • „X ist ein Kreis“ ? • „X ist eine konvexe Figur“ ? • „X ist eine zusammenhängende Figur“ ? • ... Tatsache: keine korrekte Klassifizierung von Punktmengen X (Bildpixeln) dieser Arten Tatsache: keine korrekte Klassifizierung von Punktmengen X (Bildpixeln) dieser Arten Nur „X hat Eulerzahl E“ E(X) : = K(X) – Anzahl der Löcher Nur „X hat Eulerzahl E“ E(X) : = K(X) – Anzahl der Löcher

Was kann ein Perzeptron ? Eulerzahl E E(X) : = K(X) – Anzahl der Löcher K(X) : = zusammenhängende Komponenten Loch := zusamm. Komponente der komplementären Menge K(x) = 2, Löcher = 1  E(x) = 1

Was kann ein Perzeptron ? Beispiel: keine korrekte Klassifizierung von Punktmengen X (Bildpixeln) für Prädikat „X ist Typ A“ möglich mit „diameter-limited“ Perzeptron Typ A Muster 2 Muster 1 Nicht Typ A Muster 4 Muster 3

Was kann ein Perzeptron ? Beweis: offen: Typ A Nicht Typ A

Adaline: Aktivität Schwellwert - regler w 0 Quantisierer S(z) Ausgabe y d Summierer Regler Fehleranzeige Schalterfeld für Eingabemuster Lehrer - Schalter für gewünschte Ausgabe Rüdiger Brause: Adaptive Systeme AS-1, WS 2011

Adaline: Aktivität Verlauf des Klassifizierungsfehlers für „Klasse T liegt vor“ bei Präsentationen von T,G,F und sofortiger Nachregelung Rüdiger Brause: Adaptive Systeme AS-1, WS 2011

Adaline: Lernalgorithmus Minimierung des erwartetenquadratischen Fehlers R(w,L) := (z(x) – L(x))2x= (wTx – L(x))2x durch Anpassung der Parameter w(t) = w(t–1) – (t)R(w(t–1)) w(t) = w(t-1) –(t)(wTx–L(x))xstochastische Approximation w(t) = w(t–1) –(t)(wTx–L(x)) Widrow-Hoff Lernregel

Übersicht: Lernen Assoziativspeicher 1. Muster xk eingespeichert wi(1) = Likxk(Hebb‘sche Regel) Perzeptron wi(t) = wi(t-1) + (Li(x)-yi)x (Fehler-Lernregel) wi(1) = (Li(xk)-yi)xk = Likxk bei wi(0) = 0  yik(0) = 0. Adaline wi(t) = wi(t-1) + (t)(L(x)-zi)x(Gradientenabstieg) wi(1) = (Li(xk)-zi)xk = Likxk bei wi(0) = 0  zik(0) = 0. Assoziativspeicher = Grundfunktion von Netzen

Lernen und Zielfunktionen Lernen linearer Klassifikation Stochast. Klassifikation Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

Übersicht Lernarten • Beispiel-basiertes Lernen (example based learning, feedback learning) Gegeben: ( Eingabex, gewünschte AusgabeL) Ziel: Differenz zwischen y und L im Laufe des Lernens klein machen. • Erklärungs-basiertes Lernen (explanation based learning EBL) Gegeben: Beispielpaare,Ziel sowie Regeln, es zu erreichen. Lernen: Generalisierung der Beispiele. (regelbasierte Systeme, nicht bei neuronalen Netzen) • Score-basiertes Lernen (reinforcement learning) Gegeben: skalares Gütemaß ("gut", "schlecht", mit Abstufungen dazwischen) für Lernleistung. Lernen: ??Der Lernende muss daraus selbst sehen, was an der Ausgabe zu ändern ist. • Unüberwachtes Lernen (observation based learning, emotion based learning, similarity learning) Gegeben: keineexplizite Rückmeldung über die Güte seines Lernens Lernen: Vergleich gewünschte Auswirkungen mit beobachteten Auswirkungen. Folgerung für geeignete Verhaltensänderung.

Lernen durch Iteration Modifikationen Gradientenabstieg • Taylorentwicklung f(x+Dx)= f(x) + Dx+(Dx)2 + ... R(w+w)– R(w) = wR(w)Tw + ½wTRw + ... mit R = Hesse-Matrix • Conjugate gradient R(w+w)– R(w) = (wR(w)T+ ½wTR) w = 0 löse n-dim Gleichungssystem für w

t w t Lernen durch Iteration Newton-Iteration F(w) f(w) f’(w ) t f’(wt) = f(w ) = w* w w t+1 wt+1 = wt – Newton-Verfahren wt+1 = wt –

(w(t)) = wR(w) < 0 Lernen durch Iteration Konvergenz des Gradientenverfahrens Es ist R(t) =Ljapunov-Funktionmit Konvergenz, wenn • R(t+1) <R(t) bzw. < 0 monoton fallend • Ex. endliches R0<R(t) für jedes t Ljapunov-Bedingung Also: Wenn dann Konvergenz Hinreichend dafür:= – wR(w) mit  > 0 weil = – (wR(w))2< 0 Mit  und t = 1ist w(t) – w(t-1) = – wR(w) Gradientenabstieg

F ( w ) a | w - w * | + b w * w f ( x , w ) Stochastische Approximation Gesucht: Nullstelle einer stochast. Funktion f(x,w) = R‘(x,w) Methode 1: Alle Ereignisse x abwarten und dann F(w) = f(x,w)xbilden w(t) = w(t-1) – (t) F(w(t-1)) Methode 2: Einfach f(x,w) verwenden Robbins, Monro 1951 w(t) = w(t-1) – (t) f(w(t-1),x(t))stochastische Approximation

Stochastisches Lernen Lernen mit Zielfunktion R(w) =r(w,x)x w(t) = w(t-1) - (t) w R(w(t-1)) wird ersetzt durch Lernen mit stochast. Zielfunktion r(w,x) w(t) = w(t-1) - (t) w r(w(t-1),x(t))stochastisches Lernen

Stochastische Approximation Voraussetzungen das klein Gedruckte... • die Funktion F(w) := f(x,w)x ist zentriert, d.h. F(w*) = 0 • F(w) ist ansteigend, d.h. F(w<w*) < 0, F(w>w*) > 0 . • F(w) ist beschränkt mit |F(w)| < a|w-w*|+b < a,b > 0 • f(x,w) hat endliche Varianz, d.h. 2(w) = (F(w) - f(x,w))2x< • (t)verschwindet, (t)  0 • (t)wird nicht zu schnell klein= • (t) wird nicht zu groß 2 <  Dann ex. (w(t) – w*)2 = 0mittl. quadr. Konv. Robbins-Monro P( w(t) = w*) = 1Blum

Stochastische Iteration: Konvergenz Beispiel Sei die Zufallsvariable x gegeben, geschätzt durch w. Abweichung bei der Schätzung ist R(w) = r(w,x)x = (w-x)2x mean squared error w(t) = w(t-1) - (t) wr(w(t-1),x(t)) stoch. Gradient w(t) = w(t-1) - (t)(w(t-1)-x(t)) Zeitabhängigkeit R(w)  R(w*) bei w  w* stoch. und erwarteter Verlauf?

Stochastische Iteration: Konvergenz Stochastische Iteration wi(t) = wi(t-1) - (t)(wi(t-1)-x(t)) Behauptung Bei(t) := 1/ t ist immer w(t) = xx Beweis durch vollständige Induktion w(0)  0 Kap.2.3.2 • w(t=1) = 0 - (t)(0-x) = x = xxInduktionsverankerung Mit w(t-1) = xt-1= Induktionsvoraussetzung • giltw(t)= ... = xtInduktionsschritt q.e.d.

Konvergenzverlauf x = 1

Erwarteter Konvergenzverlauf RechnungAnhang D.4 • mittl. quadrat. Abweichung • ErwartungswertallerVerläufe • AbweichungdurchStandardabweichungbeschreibbar  |w* - w(t)|  = t = x / t

Konvergenzverlauf Abweichung w*(t) w* = 1, x= 0,288

Stochastisches Lernen Beispiel Klassentrennung wi(t) = wi(t-1) - (t)(wi(t-1)-x(t)) Behauptung Bei(t) := 1/ t ist immer w(t) = xxKlassenprototyp Beweis durch vollständige Induktion w(0)  0 Problem: xx ist abhängig von der Klassenentscheidung für x

Lernen und Zielfunktionen Lernen linearer Klassifikation Stochast. Klassifikation Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

Stochastische Musterklassifikation Grundsituation der Erkennung w w Muster x 1 1 w w w w w P ( ) P ( | ) P ( | ) X X 2 i i i 2 mit P(x) . . . . . . w w empfangen M M Quelle, Sender Empfänger a priori a posteriori Notation: Mustermenge  = {x}, unterteilt in Klassen i k = "Klasse k liegt vor " Klassifikation k: P(k|x) = maxj P(j|x) Bayes-Klassifikation Wie erhaltenwirP(j|x) ? - 33 - Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

Klassifikationsleistung Diagnose-Situation („confusion matrix“)

ROC -Kurven von Diagnosesystemen Wechselseit. Abhängigkeit Sensitivität / Spezifität Beispiel med. DiagnoseLeistung eines Diagnosesystems Receiver Operating Characteristic(ROC) Spezifität PL= f(PK) EER Sensitivität • Area UnderCurve (AUC)

ROC -Kurven von Diagnosesystemen Aufgabe: Ex. einDiagnosesystemmit D(x) > c Klasse A liegtvor D(x) < c Klasse A liegtnichtvor Frage: Wiewird ROC und AUC davongemessen? Antwort: • Fürfestes c überalle x die Leistung (Pk ,PL ) messen, einenPunkt der Grafikeinzeichnen • c variieren, und jeweilsPunktzeichnen • ROC in die Punkteeinpassen, AUC davonberechnen

Lernen und Zielfunktionen Lernen linearer Klassifikation Stochast. Klassifizierung Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

Das XOR-Problem Aufgabe Trennung zweier Klassen durch eine Gerade – wie ? x 0 ={ } = {(0,0), (1,1)} 2 1 1 ={ } = {(1,0), (0,1)} Klassen nicht linear separierbar! 0 0 x 1 1 Rüdiger Brause: Adaptive Systeme AS-1, WS 2011

_ x y := x OR 1 1 2 _ x 1 y := OR x 2 2 y := y ANDy XOR 1 2 Þ w = w = w = w = 1/3 1 4 5 6 w = - =w 1/3 2 3 s1=s2=0, s = 1/2 Das XOR-Problem Lösung Trennung durch zweiSchichten x y= (x1 x2) negiertes XOR = (x1ORx2) AND (x1OR x2) 2 1 0 0 x 1 1 z.B. formalebinäreNeuronen • S(z>s) = 1, S(z<s) = 0 Rüdiger Brause: Adaptive Systeme AS-1, WS 2011

Multilayer-Klassifikation Separierung von Klassen 1.Neuron 2.Neuron 3.Neuron

Sigma-Funktion F: Fähigkeiten der Multilayer-Netzwerke Approximationsnetze Interpolation anhand von Beispielen (Stützstellen) Typ. Netz Linearkombinationen von Basisfunktionen S(.) wobei { z | z(x) = w(1)Tx+b } affine Funktionenn Sist Quetschfunktion

Fähigkeiten der Multilayer-Netzwerke Satz Hornik, Stinchkombe, White 1989 Für die Funktionswerte jeder beliebigen Funktion f(x) : n von N Mustern x1.. xN ex. eine Sigma-Funktion F, so dass für alle Muster xi mit i = 1..N gilt F(xi) = f(xi) Gilt auch für Schicht {Fi} Assoziativspeicher Satz Jede beliebige, stetige Funktion f(x) in einem kompakten Intervall ("kompakte Teilmenge des n ") kann beliebig dicht(uniform dicht im Sinne der Ls-Norm in der Menge Cn aller stetigen Funktionen und p-dicht in der Menge der Borel meßbaren Funktionen) durch eine Sigma-Funktion F(x) approximiert werden Anmerkung: Gilt auch für S = stetig, begrenzt, nicht-konstant (RBF)

Fähigkeiten der Multilayer-Netzwerke Frage: Wieviel Schichten muss ein Netzwerk mindestens haben, um eine beliebige Funktion beliebig gut zu approximieren? ? Antworten: • eine • zwei • drei • unendlich viele

x y 1 f 1 1 x 2 y 2 f 2 y x n n Mehrschichten-Netze Fähigkeiten von Mehrschicht-Netzen nicht-linear linear Eingabe z.B. DNA, Patienten-daten, Roboter-sensoren Ausgabe z.B. Struktur, Diagnose, Roboter-bewegung • Ein 2-Schichtennetzwerk mit nicht-linearer Ausgabefunktion S(z) kann JEDE beliebige Funktion so genau wie gewünscht approximieren, wenn genügend Neuronen ex. Neuronenzahl gegeben. Lernalgorithmus=?

Lernen und Zielfunktionen Lernen linearer Klassifikation Stochast. Klassifizierung Lernen in Multilayer-Netzen Backpropagation-Lernen Rüdiger Brause: Adaptive Systeme AS-2 WS 2011

Backpropagation Netzarchitektur und Aktivität Eingabe hidden units Ausgabe x Gesamtaktivität

(2) y (1) (2) y x = (2) (2) d L y (1) - d Backpropagation-Grundidee Netzarchitektur und Lernen Schichtweise Verbesserung durch Rückführung des Fehlers Eingabe 1.Schicht 2.Schicht Ausgabe (1) x Ausgabe hidden units units

Backpropagation-Lernregel letzte Schicht wi (t+1)=wi (t) -gGradienten-Lernregel wij (t+1)=wij (t) - g (yi(wij)-L(x))stoch. Approximation mit = Lernziel: R(w*) = min E(y(w) - L(x))2min.mittl. quadr. Fehler Mit i := - (yi(wij)-L(x)) S‘(zi) ist wij(x) = i xjDelta-Regel

Lernen und Klassifizieren AS2-2

Lernen und Klassifizieren AS2-2

Presentation Transcript

Lernen und Gedächtnis

Organisationales Lernen und Nachhaltigkeit

Stimmung und Lernen

Lernen und Gedächtnis

Selbstorganisation und Lernen

Landeskunde – Spiel und Lernen

AS2

Konkurrentes Lernen AS2-4

Autonomes Lernen und Lernstrategien

Lernen und Klassifizieren AS2-2

Lernen und Klassifizieren AS1-2

Lehren und Lernen von Bewegungen

Lesen lernen und Schreiben lernen nach Wolfgang Menzel

Maschinelles Lernen und Data Mining

Vortrag: Kooperatives Arbeiten und Lernen

Lernen und Kompetenzen erhalten

Selbstorganisation und Lernen

Maschinelles Lernen und Neural Computation

Maschinelles Lernen und automatische Textklassifikation

Kompetenzorientiertes Lehren und Lernen

Lernen und Gedächtnis

Lernen und Selbstkonzept