140 likes | 266 Vues
Explore SSL algorithms, test empirically, compare learning methods on real data, evaluate SSL benefits vs. supervised learning, implement Self-training and Co-training systems in C++ and Perl using Cluto. Achieve academic goals with original Co-training implementation.
E N D
Semi-supervised learning (SSL) Obhajoba závěrečné práce Autor: Bc. Karel BurdaVedoucí: doc. Ing. Jan Žižka, CSc.
Úvod • Částečně řízenéučení algoritmůstrojového učení(SSL) Převzato z http://www.eng.utah.edu
Cíl práce • Seznámení s algoritmy • Empirické otestováníSSL • Porovnání učících algoritmů • Supervised • Semi-supervised (SSL) • Unsupervised • Vyhodnocení
Částečně řízené učení • = Semi-supervised learning • Důvod vzniku − posílení neřízeného učení • Myšlenka použití neoznačených dat • Hlavní metody • Self-training • Co-training
Zdrojová data • 2 třídy − positivní, negativní
Metodika • Série experimentů • Náhodný výběr dat • Trénovací a testovací množina | trénovací | <| testovací | • Příprava dat • Učící proces • Vyhodnocení
Technologie • Klasifikační algoritmy • Naivní Bayes, MNB, k-NN, Support Vector Machines, k-means • C++ • Perl • Systém Cluto
Výsledky experimentů • Srovnání všech přístupů • Na reálných datech v přirozeném jazyce • SSL dává prakticky totožné výsledky jako řízené učení (klasifikace) • Vyplatí se vůbec SSL? • Propagace chybných rozhodnutí
Příklad grafu 500 trénovacích, 32 191 testovacích dokumentů
Přínos práce a závěr (1/2) • Progresivní metoda SSL na rozsáhlejších datech • Implementován Self-training i Co-training • Programový systém • Supervised i semi-supervised learning • Rozšiřitelnost • Originální implementace Co-training
Přínos práce a závěr (2/2) • Metodika přípravy textových dat, podpůrné skripty • Poskytuje úvod do relevantní teorie • Základ pro další (připravované) akademické práce • Cíle splněny