140 likes | 253 Views
Semi-supervised learning ( SSL ). Obhajoba závěrečné práce Autor : Bc. Karel Burda Vedoucí : doc. Ing. Jan Žižka, CSc. Úvod. Částečně řízené učení algoritmů strojového učení ( SSL ). Převzato z http:// www.eng.utah.edu. Cíl práce. Seznámení s algoritmy Empirické otestování SSL
E N D
Semi-supervised learning (SSL) Obhajoba závěrečné práce Autor: Bc. Karel BurdaVedoucí: doc. Ing. Jan Žižka, CSc.
Úvod • Částečně řízenéučení algoritmůstrojového učení(SSL) Převzato z http://www.eng.utah.edu
Cíl práce • Seznámení s algoritmy • Empirické otestováníSSL • Porovnání učících algoritmů • Supervised • Semi-supervised (SSL) • Unsupervised • Vyhodnocení
Částečně řízené učení • = Semi-supervised learning • Důvod vzniku − posílení neřízeného učení • Myšlenka použití neoznačených dat • Hlavní metody • Self-training • Co-training
Zdrojová data • 2 třídy − positivní, negativní
Metodika • Série experimentů • Náhodný výběr dat • Trénovací a testovací množina | trénovací | <| testovací | • Příprava dat • Učící proces • Vyhodnocení
Technologie • Klasifikační algoritmy • Naivní Bayes, MNB, k-NN, Support Vector Machines, k-means • C++ • Perl • Systém Cluto
Výsledky experimentů • Srovnání všech přístupů • Na reálných datech v přirozeném jazyce • SSL dává prakticky totožné výsledky jako řízené učení (klasifikace) • Vyplatí se vůbec SSL? • Propagace chybných rozhodnutí
Příklad grafu 500 trénovacích, 32 191 testovacích dokumentů
Přínos práce a závěr (1/2) • Progresivní metoda SSL na rozsáhlejších datech • Implementován Self-training i Co-training • Programový systém • Supervised i semi-supervised learning • Rozšiřitelnost • Originální implementace Co-training
Přínos práce a závěr (2/2) • Metodika přípravy textových dat, podpůrné skripty • Poskytuje úvod do relevantní teorie • Základ pro další (připravované) akademické práce • Cíle splněny