320 likes | 646 Views
Invatare automata. Universitatea Politehnica Bucuresti Anul universitar 2008-2009 Adina Magda Florea http://turing.cs.pub.ro/inva_09 si curs.cs.pub.ro. Curs nr. 1. Continut curs Introducere Invatare inductiva I nvatare in spatiul versiunilor T eoria invatarii computationale
E N D
Invatare automata Universitatea Politehnica BucurestiAnul universitar 2008-2009 Adina Magda Florea http://turing.cs.pub.ro/inva_09 si curs.cs.pub.ro
Curs nr. 1 Continut curs • Introducere • Invatare inductiva • Invatare in spatiul versiunilor • Teoria invatarii computationale • Invatare prin recopensa • Invatare bazata pe FOPL • Programare logica inductiva • Retele neurale • Algoritmi genetici • Invatarea in retele Bayesiene 2
Cerinte Notare • Laborator si teme de casa T1-T3 - 30% (10+20) • Tema de casa T4 - 20% (se alege tema pana pe 15 martie) • Examen final - 50% Planificare T1 - S2 cu predare in S4 T2 - S5 cu predare in S7 T3 - S8 cu predare in S10 T4 - se publica pe 1 martie, se alege pana pe 15 martie, cu predare in S13 Cerinte pentru promovare • Minimum 6 prezente la laborator pentru promovare (in lipsa a 6 prezente cursul si laboratorul se refac in anul universitar urmator) • Studentul trebuie sa obtina minim jumatate din punctajul examenului final pentru promovare 3
1. Definitii • Invatarea este procesul prin care un sistem isi imbunatateste performantele (Herbert Simon). • Invatarea este achizitia cunostintelor explicite; • Invatarea este achizitiaa deprinderilor de rezolvare a problemelor • Invatarea este formare teoriilor, formarea ipotezelor si inferenta inductiva 4
Invatare automata Machine learning • Schimba structura, programul sau BC • Schimbarile: imbunatatiri sau de la zero Perceptie Model (BC) Rationament Actiune 5
Invatare automata De ce sa invete? • Taskuri definite prin exemple • Relatii / corelatii in cantitati mari de date • Mediu in schimbare • Date diferite, cu zgomot • Cantitate de cunostinte prea mare pentru a fi reprezentate explicit 6
Invatare automata Discipline • Statistica (esantioane - distributie de probabilitate) • Modele neuronale • Teoria controlului (control proces cu parametrii necunoscuti) • Modele psihologice • Modele biologice • Inteligenta artificiala 7
InvA – Exemple de aAplicatii • clasificarea proteinelor corespunzator functiei lor • prezice daca pacientul raspunde bine unui tratament/medicament • categorizarea textelor (e.g., filtrare spam) • detectia fraudelor • OCR • detectia fetelor umane in imagini • intelegerea limbajului vorbit • segmentarea pietii (e.g., daca un client raspunde unei promotii) • descoperirea regulilor de bune practici (tipar) • predictia consumului de electricitate • sinteza ontologiilor 8
Model simplu – Clasificare 1 x1 x2 . . xn f(X) = ? T = {X1, X2, …, Xm} – multime de invatare X = h h(X) h H • Invatare supervizata – se cunosc f(X1), …, f(Xm) Gasim h a.i. h(Xi) = f(Xi), i=1,m h(Xi) = f(Xi), i • Invatare ne-supervizata – NU se cunosc f(X1), …, f(Xm) Imparte T in submultimi – clase Se poate vedea tot ca invatarea unei functii – val f = numele submultimii careia ii apratine Xi • Invatare prin recompensa – Se cunosc recompensele pentru valorile h(X1), …, h(Xm), Nu se cunosc valorle lui f 9
Denumiri • T – vector de intrare, vector sablon, vector de caracteristici, esantioane, exemple, instante • xi- caracteristici, atribute, variabile de intrare, componente • xi - valori reale, valori numerice intregi, valori simbolice, valori booleene • f(Xi) • valori reale: h – functie de esantionare • valori simbolice: h – clasificator • boolene: 1 – instanta pozitiva, 0 – instanta negativa 10
Model conceptual – Clasificare 2 • Mediul ofera stimuli sau informatie elementului de învatare, care foloseste aceasta informatie pentru a imbunatati cunostintele (explicite) din baza de cunostinte • Aceste cunostinte sunt utilizate de componenta de prelucrare (rezolvare) în rezolvarea problemei 11
Profesor Sistem de invatare Element de invatare Feed-back Rezultate invatare Date Rezolvare BC Motor de inferenta Strategie Mediu Rezultate Evaluare performante Feed-back 12
Model conceptual – Clasificare 2 • În functie de diferenta între nivelul informatiei oferite de mediu si cel al informatiei din baza de cunostinte, se pot identifica patru tipuri de invatare • invatarea prin memorare • invatarea prin instruire • invatarea prin inductie (din exemple) • invatarea prin analogie 13
Reguli de inferenta utilizate in invatare • La baza procesului de invatare stau o serie de forme inferentiale nevalide: inductia, abductia si analogia • O metoda de învãtare poate folosi una sau mai multe astfel de forme de inferenta, cat si forme de inferenta valide, cum este deductia 14
Inferenta inductiva • O proprietate adevarata pentru o submultime de obiecte dintr-o clasa este adevarata pentru toate obiectele din acea clasa 15
Inferenta inductiva • Se poate generaliza la sintetizarea unei întregi reguli de deductie pe baza exemplelor 16
Inferenta abductiva • Se utilizeaza cunostinte cauzale pentru a explica sau a justifica o concluzie, posibil invalida 17
Inferenta abductiva • Exemplu • Uda(iarba) • (x)(PlouaPeste(x) Uda(x)) • Se poate infera abductiv ca a plouat • Cu toate acestea, abductia nu poate fi aplicata consistent in oricare caz 18
Inferenta analogica • Situatii sau entitati care tind sa fie asemanatoare sub anumite aspecte sunt asemanatoare în general • Este o combinatie a celorlalte forme de inferenta: abductive, deductive si inductive 19
Aspecte InvA • Regimuri de invatare: • Batch • Incremental • Zgomot: • zgomot atribute • zgomot iesiri (alterare iesiri) 20
Aspecte InvA Bias (learning bias) • Bias = ipoteza de lucru apriori = H se poate limita apriori la o multime de functii sau ipoteze de invatare • Invatare functie booleana de n intrari: • 2n intrari posibile, • H este functii boleene 21
x3 1 x2 0 x1 Bias T – 6 sabloane de invatare H – functii liniar separabile • Bias absolut – H este limitat la o multime de functii cunoscute • Bias preferential – H se ordoneaza dupa un anumit criteriu - se alege h minim 22
Occam Razor Principiul lamei lui Occam • prefer explicatiile simple celor complexe • Wiliam of Occam, 1285 – 1349 (?) • filozof englez "non sunt multiplicanda entia praeter necessitatem" 23
Conditii pentru o invatare "buna" Problema: identifica caractere "bune" sau "rele" dupa modul in care arata 24
Conditii pentru o invatare "buna" Clasifica datele Cravata Nu Da Pelerina Lupta Nu Da Nu Da Rau Bun Bun Rau 26
Conditii pentru o invatare "buna" Masca Da Nu Lupta Pelerina Da Nu Da Nu Urechi Rau Sex Urechi Nu Da Da Fem Masc Nu Cravata Pelerina Bun Rau Lupta Bun Nu Da Da Nu Nu Da Rau Bun Rau Bun Bun Rau Clasifica datele dar complexitate prea mare (intuitiv) 27
Conditii pentru o invatare "buna" Prea simplu, nu clasifica corect Sex Masc Fem Bun Rau Aleg prima varianta (cf. lamei lui Occam) 28
Conditii pentru o invatare "buna" • Clasificatoarele trebuie sa fie suficient de "expresive" pentru a fi in concordanta cu setul de invatare • Dar clasificatoarele care au o complexitate prea mare pot duce la fenomenul de "overfit" (overfitting) = include zgomot sau sabloane de date nerelevante 29