120 likes | 320 Views
LENIV É UČENIE. doc. Ing. Kristína Machová, CSc. k ristina. m achova @tuke.sk people.tuke.sk/kristina.machova/. O SNOVA:. Extenzionálna reprezentácia Reprezentácia a použitie Indukcia reprezentácie Algoritmus kNN Metriky podobnosti. EXTENZIONÁLNA REPREZENTÁCIA.
E N D
LENIVÉ UČENIE doc. Ing. Kristína Machová, CSc. kristina.machova@tuke.sk people.tuke.sk/kristina.machova/
OSNOVA: • Extenzionálna reprezentácia • Reprezentácia a použitie • Indukcia reprezentácie • Algoritmus kNN • Metriky podobnosti
EXTENZIONÁLNA REPREZENTÁCIA • Lenivé učenie učí extenzionálnu reprezentáciu • Flexibilná reprezentácia znalostí • Pojem je reprezentovaný množinou • trénovacích príkladov • Predstavuje takzvané funkcionálne učenie • Tnp = f(Ttp1, ... , TtpN) • Nezáleží na počte tried • Klasifikácia môže byť dvojtriedna aj multitriedna • Poznámka: • Tnp… trieda nového príkladu (klasifikovaného) • Ttpi... trieda i-téhotrénovacieho príkladu
EXTENZIONÁLNA REPREZENTÁCIA V kontexte reprezentačných schém • REPREZENTÁCIE • Extenzionálna (vymenovaním objektov) • Intenzionálna (zovšeobecnením) I + interpreter = E • Učenie logickej reprezentácie s učiteľom • Logické konjunkcie a produkčné pravidlá • Rozhodovacie stromy a zoznamy klasi- • Učenie s prvkami kvantitatívneho ususdzovaniafikačná • Prahové pojmy a etalónyúloha • Pravdepodobnostné pojmy • Učenie bez učiteľa • Zhluky • Učenie odmenou a trestom – sekvenčná úloha
REPREZENTÁCIA A POUŽITIE • Reprezentácia: Množina trénovacích príkladov spolu s informáciou o triede príkladu • Použitie: • Nový TP je klasifikovaný do triedy, ktorá sa • najčastejšie vyskytuje v jeho okolí. • Okolie príkladu je reprezentované najbližšími • susedmi. • Blízkosť je chápaná v zmysle podobnosti.
NEINKREMENTÁLNA INDUKCIA • kNN – k Nearest Neighbours • Navrhnutý Mitchelom v roku 1997 • Klasifikátor uchováva v pamäti všetky • trénovacie príklady • Umožňuje multitriednu klasifikáciu • Zvláda zašumené domény
ALGORITMUS kNN Klasifikácia prebieha v troch krokoch. • V cykle sa vyberie i-tý trénovací príklad z TM. • Novému príkladu sa priradí kategória k najbližších TP • Ak sú klasifikované všetky príklady, potom koniec. • Najbližší susedia sú určovaní v zmysle maximálnej • podobnosti, resp. minimálnej vzdialenosti. • V najjednoduchšom prípade (1NN) je TP priradená • kategória jedného najbližšieho suseda. • V prípade nejednoznačnosti priradenia sa rekurzívne • realizuje (k-1)NN kým nie je dosiahnutý úspech, • alebo k=1.
ALGORITMUS kNN • Výpočtová náročnosť je daná počtom určovaných • podobností klasifikovaného TP k ostatným z TM. • Pamäťová náročnosť je podmienená nutnosťou • uchovávať všetky TP v pamäti. • Výskyt irelevantných atribútov (všetky sa podieľajú • na výpočte vzdialenosti) môže ovplyvniť presnosť • klasifikácie.
METRIKY PODOBNOSTI Slúžia na výpočet vzdialenosti, resp. podobnosti dvoch TP, (reprezentovaných vektormi s numerickými hodnotami). Najčastejšie používané: • Kosínusová metrika podobnosti • Kosínusová metrika vzdialenosti
METRIKY PODOBNOSTI Ďalšie často používané: • Euklidova metrika (metrika L2) • Druhá mocnina Euklidovej metriky
METRIKY PODOBNOSTI Ďalšie metriky: • Manhattanova metrika (cityblock metrika, metrika L1) • Čebyševova metrika (maximová metrika, L∞ metrika)
METRIKY PODOBNOSTI Ďalšie metriky: • Minkovského metrika (metrika L) – kde pre λ=2 • dostaneme Euklidovu a pre λ=∞Čebiševovu metriku • Canberra metrika