VI EKSPLORACJA DANYCH

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości innych zmiennych. Przy zastosowaniu klasyfikacji zmienna, która będzie przewidywana jest kategoryczna.

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Metody klasyfikacji: Taksonomia fenetyczna: opiera się na relacji podobieństwa pomiędzy klasyfikowanymi obiektami Taksonomia filogenetyczna: opiera się na relacji pokrewieństwa klasyfikowanych obiektów Taksonomia: (gr. taxis = układ, porządek + nomos = prawo) nauka o zasadach i metodach klasyfikowania, w szczególności o tworzeniu i opisywaniu jednostek systematycznych - taksonów

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja W zadaniach klasyfikacji nowemu rekordowi przypisuje się kategorię najbardziej podobnego rekordu lub rekordów. Podobieństwo określone jest bliskością rekordów w wielowymiarowej przestrzeni. Do mierzenia podobieństwa konieczne są zdefiniowane miary odległości. • Miara odległości lub funkcja odległości jest rzeczywistoliczbową funkcją d, taką, że dla dowolnych współrzędnych x, y i z: • d(x,y) ≥ 0 i d(x,y) = 0 wtedy i tylko wtedy, gdy x = y • d(x,y) = d(y,x) • d(x,z) ≤ d(x,y) + d(y,z)

VI EKSPLORACJA DANYCH de(x,y) = √(y1 – x1)2 + (y2 – x2)2 + … + (yn – xn)2 Zadania eksploracji danych: klasyfikacja Metryka euklidesowa Naturalna, „zwykła” odległość punktów na prostej, płaszczyźnie, czy też dowolnej euklidesowej przestrzeni Rn w przypadku, gdy n = 1 de(x,y) = │y - x│ w przypadku ogólnym, gdy x, y Rn oraz x = ( x1, x2, …, xn) i y = ( y1, y2, …, yn)

II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja • normalizacja min - max X* = X - Xmin / Xmax - Xmin • standaryzacja X* = X - Xśr / (X)

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów • wybieramy nowy obiekt o wejściowym wektorze Y • analizujemy k najbliższych punktowi Y punktów ze zbioru danych treningowych (uczących) • przydzielamy ten obiekt do klasy, w której jest większość spośród tych k punktów

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Funkcja decyzyjna: Funkcja określająca metodę porównania wybranych rekordów (leżących najbliżej) do podjęcia decyzji klasyfikacyjnej dla nowego rekordu. Funkcją decyzyjną jest głosowanie. • głosowanie proste • głosowanie ważone

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie proste • określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu • porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość • określ liczby rekordów (należących dok)w poszczególnych klasach • przypisz nowy rekord do klasy dominującej

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja 0,4 0,5 0,4 0,1 0,3 0,2

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie ważone • określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu • porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość • oblicz wagi k rekordów w poszczególnych klasach • oblicz sumaryczne ważone głosy dla każdej klasy reprezentowanej przez k najbliższych sąsiadów • wybierz dla nowego rekordu klasę z dominującym głosem

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Wybór k – małe vs. duże Wybór k – małe: klasyfikacja jest pod wpływem przypadkowych pojedynczych danych (punktów). Dla małej wielkości k algorytm zwróci wartość zmiennej celu najbliższej obserwacji. Proces może prowadzić do przeuczenia – zapamiętania całego zbioru uczącego. Wybór k – duże: dla dużej wartości k pojawia się skłonność do „wygładzania” odpowiedzi. Lokalne ciekawe zachowania wydobyte ze zbioru uczącego zostają utracone.

VI EKSPLORACJA DANYCH Zalety metody najbliższego sąsiedztwa: • metoda łatwo daje się zaprogramować, • metoda nie wymaga żadnej optymalizacji ani uczenia, • metoda bez problemów daje sobie radę z brakującymi danymi (wartościami), • przy niektórych problemach jej dokładność klasyfikacyjna jest bardzo dobra i wypada lepiej niż inne metody.

VI EKSPLORACJA DANYCH Wady metody najbliższego sąsiedztwa: • metoda należy do tzw. metod leniwych, tzn. nie jest tutaj budowany model, lecz zapamiętywane są wszystkie punkty zbioru danych, • jeśli zbiór danych jest duży, to przeszukiwanie go w celu znalezienia k najbliższych sąsiadów jest procesem czasochłonnym, • metoda wymaga przechowywania całego zbioru danych, o objętości np, • ograniczenia czasowe lub objętościowe uniemożliwiają zastosowanie tej metody online,

VI EKSPLORACJA DANYCH Σiwiyi ynowy = Σiwi Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów Algorytm k – najbliższych sąsiadów może być również stosowany do szacowania i przewidywania. Uśrednianie lokalnie ważone – metoda szacuje zmienną celu jako średnią ważoną dla k najbliższych sąsiadów wg. wzoru: gdzie wi = 1/ odległość2

VI EKSPLORACJA DANYCH

VI EKSPLORACJA DANYCH

Presentation Transcript

Bezpieczeństwo danych

Rozproszone bazy danych – 1 Replikacja danych

Bazy danych

Eksploracja danych

Szyfrowanie danych

Zapis danych

Bazy danych

Kompresja danych

Bazy danych

Bazy Danych wykład VI

Kompresja danych

Podstawowe struktury danych. Typy danych.

Bazy danych

Koncentrator danych

III EKSPLORACJA DANYCH

I EKSPLORACJA DANYCH

Bazy danych

VII EKSPLORACJA DANYCH

VIII EKSPLORACJA DANYCH

Hurtownie danych a bazy danych

Eksploracja tekstu (2)

Algorytmy i Struktury Danych Struktury Danych