Inteligencja Obliczeniowa Perceptrony wielowarstwowe i wsteczna propagacja błędów.

Inteligencja ObliczeniowaPerceptrony wielowarstwowe i wsteczna propagacja błędów. Wykład 10 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W Duch

Perceptron jednowarstwowy. Uczenie się perceptronów Nieliniowa reguła delta Adatron Co było

Perceptrony wielowarstwowe. Algorytm wstecznej propagacji błędów (BP) Metody minimalizacji Ulepszenia BP Co będzie Problem: perceptrony radzą sobie tylko z problemami, które są liniowo separowalne, nie można więc rozwiązać prostego zagadnienia typu XOR, a więc prawie żadnego zagadnienia w wysokowymiarowych przypadkach.

0.5 +1 -2 +1 1 +1 +1 +1 XOR – rozwiązanie najprostsze. Najprostsze rozwiązanie, ale jak to uczyć? Co można zrobić? Najpierw utworzyć jakąś reprezentację wewnętrzną za pomocą perceptronów, ale jaką? • Założyć reprezentację wewnętrzną a priori - zgadywaną dla każdego problemu niezależnie. • Zastosować konkurencyjne uczenie się bez nadzoru; użyteczne elementy same się uaktywnią, chociaż nie ma na to gwarancji. • Uczyć odpowiedniej reprezentacji wewnętrznej dla danej klasy problemów – trzeba znaleźć efektywny algorytm uczenia.

XOR z warstwą ukrytą rozwiązuje XOR

Warstwa ukryta i granice decyzji

Sieć MLP 2-4-1.

MLP = Multilayer Perceptron. Perceptron 3-warstwowy z warstwą wejściową, ukrytą i wyjściową - oznaczenia.

MLP - oznaczenia Liczba warstw M=3 Xi(l)-całkowity sygnał dochodzący do elementu i należącego do warstwy l oi(l)- sygnał wychodzący z elementu inależącego do warstwy l Wij(l)- wagi łączące element inależący do warstwy l-1oraz element jz warstwy l Xj(l) = SiWij(l)oi(l-1)aktywacja neuronu j w warstwie l. oj(l) = s(Xj(l))sygnał wysyłany z tego neuronu Fi(X;W) = oi(M)funkcja realizowana przez MLP

Algorytm wstecznej propagacji błędów (1974, 1986) Miara błędu dla wzorca p i Nowyjść BP-1 Gradientowa reguła minimalizacji błędu równoważna jest regule delta. Obliczenia gradientu dla warstwy zewnętrznej:

Funkcja błędu w 2D Problem 1D bez warstwy ukrytej.

Błąd „lokalny” dla warstwy M Zmiana wag w warstwie wyjściowej: Wagi łączące neuron j i neuron k w warstwie M-1: Gradient: BP-2

Ponieważ to gradient: a zmiana wag: Struktura wzoru dla kolejnych warstw jest taka sama. BP-3

Funkcja realizowana przez sieć: Inicjalizacja: przypadkowe małe wartości wag. Propagacja sygnałów od wejścia do wyjścia. Propagacja korekcji błędów wstecz: rekursywne obliczanie DWij. BP- podsumowanie

Sigmoidy Logistyczna funkcja aktywacji: Próg q, nachylenie T Pochodna ma max dla o=0.5: Błąd wyjściowego elementu:

XOR – dynamika uczenia

Funkcja błędu w 2D z PCA Patrząc w kierunku największej wariancji wag możemy zrobić projekcję funkcji błędu – dla XOR jest ona dość skomplikowana. Przeskalowanie kierunku c2 pokazuje więcej szczegółów.

Własności MLP MLP jest uniwersalnym aproksymatorem: • 1 warstwa – f. ciągłe • 2 warstwy – f. nieciągłe (dowód via tw. Stone’a- Weierstrassa) Szybkość zbieżności z sigmoidami: O(1/n); z wielomianami O(1/n1/d) W niektórych problemach inne funkcje dają szybsza zbieżność. Parametry sieci: architektura, liczba warstw, liczba neuronów. Końcowa warstwa: perceptron. Neurony ukryte: transformacja nieliniowa do przestrzeni odwzorowań, tworząca nowe cechy za pomocą nieliniowych kombinacji.

Przykłady zbieżności dla XOR Architektura 2-2-2, rozmyte klastry XOR. W p-ni wyjściowej w warstwie ukrytej

Uczenie MLP Parametry uczenia: • szybkość uczenia • bezwładność Pozwala usunąć szybkie oscylacje, zmienia efektywną stałą uczenia: dla małych zmian wag. • sposób prezentacji danych Losowa prezentacja – element stochastyczny, uczenie on-line. Ustalona kolejność. Poprawki po całej epoce – po kilku prezentacjach też warto.

Problemy i ulepszenia. • Niewłaściwie dobrana architektura sieci. • Minima lokalne i plateau, wąskie „rynny”. • Wpływ nowych wzorców na już nauczone – zapominanie. • Szybkość uczenia – zagadnienie jest NP-trudne. • Schematy adaptacji dla stałej uczenia: zwiększaćh o a=const dla malejącego błędu, zmniejszać o -hb dla rosnącego błędu. Duże kroki na powierzchni gładkiej, drobne kroki na skomplikowanej. Lokalne stałe uczenia się, różne dla różnych węzłów - kosztowne.

Ulepszenia MLP • Szybsze procedury minimalizacji błędu. • Modyfikacje schematu wstecznej propagacji. • Unikanie minimów lokalnych – różne możliwości. • Funkcje kosztu, niekoniecznie MSE. • Inicjalizacja parametrów, lepszy start. • Regularyzacja i zwiększenie zdolność do generalizacji sieci - wybór modelu o odpowiedniej złożoności. • Sieci konstruktywistyczne/ontogeniczne, dostosowujące złożonośc do danych. • Funkcje transferu, nie tylko sigmoidy.

Perceptrony wielowarstwowe: ulepszenia, algorytmy konstruktywistyczne. Sieci Hopfielda Sieci Hebbowskie i modele mózgu Samoorganizacja Perceptrony wielowarstwowe Co dalej?

Koniec wykładu 10 Dobranoc …

Inteligencja Obliczeniowa Perceptrony wielowarstwowe i wsteczna propagacja błędów.

Inteligencja Obliczeniowa Perceptrony wielowarstwowe i wsteczna propagacja błędów.

Presentation Transcript

Potencjał czynnościowy - propagacja

Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe

Psychologia poznawcza Cognitive science Cognitive neuroscience

Sztuczna Inteligencja Systemy ekspertowe - teoria

Inteligentne Systemy Obliczeniowe Wstęp do systemów ekspertowych

Inteligencja Obliczeniowa Sieci RBF.

Oddziaływanie światła z materią

Sieci neuronowe jednokierunkowe wielowarstwowe

Metody analizy decyzji Wykład 7 – sekwencyjne problemy decyzyjne

Teoria kablowa (cable theory) – propagacja potencjału czynnościowego

Inteligencja

Wsteczna Propagacja Błędu (Backpropagation)

Inteligencja Obliczeniowa Zbiory rozmyte, modelowanie wiedzy.

1. Pragmatyka 2. Sztuczna Inteligencja; Chatbot’y 3. Analiza konwersacji

Geometria obliczeniowa Wykład 6

Inteligencja Obliczeniowa Ulepszenia MLP

Wykład 13 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn)

Rozwój i współczesne technologie procesorów dla komputerów osobistych

Płeć mózgu w sprzedaży i zarządzaniu czyli orgazm w biznesie

Podział komputerów

Wykład 13 5 czerwca 2014

Dwa sposoby przedstawiania Adaline’ów