260 likes | 478 Views
Bajesovsko učenje. ARGO Seminar Matematički fakultet Aljoša Obuljen Februar 2009. Uvod. Odlučivanje u prisustvu neizvesnosti Formalni okvir za druge discipline (pravo, medicina...) Teorijske primene u upoređivanju drugih metoda mašinskog učenja. Uvod - osobine.
E N D
Bajesovsko učenje ARGO Seminar Matematički fakultet Aljoša Obuljen Februar 2009.
Uvod • Odlučivanje u prisustvu neizvesnosti • Formalni okvir za druge discipline (pravo, medicina...) • Teorijske primene u upoređivanju drugih metoda mašinskog učenja
Uvod - osobine • Početno uverenje o hipotezi može biti poznato ili ocenjeno. • Inkrementalna promena uverenja predstavljanjem novih dokaza. • Klasifikacija glasanjem konzistentnih hipoteza sa težinskim faktorima.
Bajesova teorema • H – prostor hipoteza • D – skup razmotrenih podataka • P(h),h iz H – početno uverenje da je h tačna • P(D|h) – uverenje da se skup D razmotri ako je h tačna (verodostojnost) • P(h|D) – traženo uverenje o h pod uslovom da se razmotrio skup D
Bajesova teorema • Teorema daje sledeću vezu između P(h), P(D|h), P(h|D): • Uverenje o h raste sa verodostojnošću i početnim uverenjem o h, a opada sa uverenjem da se razmotri D (česte pojave nisu merodavne koliko retke).
Inkrementalna promena uverenja • Razmatraju se dva dokaza – D1 i D2. • Naknadno uverenje o h posle D1koristi se kao početno prilikom razmatranja D2. • Pokazuje se da je to ekvivalentno razmatranju oba dokaza istovremeno: • Pri analizi D2, uverenje nakon analize D1, tj.P(h|D1) koristi se kao početno. • Ipak, pretpostavlja se nezavisnost u paru i u prisustvu h dokaza D1i D2!
Primer primene Bajesove teoreme • U populaciji postoji retka bolest, samo 0.5% stanovništva je zaraženo. • Određeni test ima verovatnoću lažnog pozitiva 0.01, a lažnog negativa 0.05. • Rezultat testa: pozitivan. • Hipoteze: “bolestan”, “zdrav”.
Primer primene Bajesove teoreme • P(bolestan) = 0.005 (početno uverenje, ocena iz populacije) • P(pozitivan) = P(pozitivan|bolestan)*P(bolestan) +P(pozitivan|zdrav)*P(zdrav) == 0.0147 (teorema totalne verovatnoće) • P(pozitivan|bolestan) = 0.95 • Traži se P(bolestan|pozitivan) • Bajesova teorema daje • P(bolestan|pozitivan) =P(pozitivan|bolestan)*P(bolestan)/P(pozitivan) = 0.3231. • Verovatnije je da je pacijent zdrav! (Zbog retkosti bolesti)
Bajesova teorema i učenje koncepta • Koncept: preslikavanje X->{0,1}, pri čemu je X prostor uzoraka. • Primer: koncept “drvo” na prostoru realnog sveta objekte deli na one koji jesu, odnosno nisu drvo. • Koncept je nepoznat – dati su neki uzorci, njihova pripadnost konceptu i skup hipoteza. • Zadatak: naći najuverljiviju hipotezu na osnovu datog.
Učenje koncepta • Ako je sa D obeležen skup datih uzoraka sa poznatom pripadnošću traženom konceptu, najuverljivija hipoteza daje se sa:
Praktični problemi • Najčešće početna uverenja o hipotezama nisu poznata. • Podaci mogu imati šum (data pripadnost u skupu obuke ne mora biti tačna). • Traženi koncept mora pripadati skupu hipoteza koji se razmatra.
Jedan pristup u pronalaženju najuverljivije hipoteze • Početna uverenja hipoteza mogu biti modelovana uniformno – nijedna hipoteza nije uverljivija od druge. • Verodostojnost svake hipoteze može se odrediti binarno, tj. P(D|h)=1, ako je hipoteza konzistentna sa skupom obuke, 0 u suprotnom. • Tada je uverljivost svake konzistentne hipoteze data kao: • VSH,Ddefiniše se kao skup konzistentnih hipoteza.
Pronalaženje najuverljivije hipoteze - nastavak • Ovaj pristup daje mogućnost da početna uverenja ne budu poznata. • Problem: sve konzistentne hipoteze imaju isto naknadno uverenje. Jedino rešenje je početno znanje o uverljivosti hipoteza. • Problem: nekonzistentne hipoteze su isključene. Mogu se definisati i njihove verodostojnosti, npr. kao procenat konzistentnih uzoraka.
Optimalni bajesovski klasifikator • Umesto pitanja “Koja hipoteza je najuverljivija?”, postavlja se pitanje “Koja je najuverljivija klasifikacija novog uzorka?” • Moguće klasifikacije date su skupom V. • Uverljivost svake klasifikacije: • Potrebno je modelovati P(vj|hi).
Optimalni bajesovski klasifikator • U slučaju binarne klasifikacije gde se razmatra pripadnost konceptu koji predstavljaju hipoteze. • V={-,+}, P(-|hi) = P(hi(x) = 0), P(+|hi) = P(hi(x) = 1) • Primer – P(h1|D) = 0.4, P(h2|D) = P(h3|D) = 0.3. Za dato x, h1(x) = 0, h2(x) = h3(x) = 1. • Sve tri hipoteze su konzistentne sa D, ali pravi koncept nije poznat. Dve hipoteze, sa kumulativnom uverljivošću od 0.6 tvrde da x pripada traženom konceptu, dok jedna sa uverljivošću 0.4 tvrdi da ne pripada. • Uverljivost da x pripada konceptu je 0.6. • Najuverljivija hipoteza ne daje i najuverljiviju klasifikaciju!
Optimalni bajesovski klasifikator • Za data početna uverenja o hipotezama, razmotreni skup obuke i modelovane verodostojnosti, ovaj način klasifikacije je optimalan. • Problem: računska neefikasnost u slučaju velikog broja konzistentnih hipoteza.
Naivni bajesovski klasifikator • Optimalni bajesovski klasifikator ne daje direktnu mogućnost n-arne klasifikacije. • Razlog: polazi se od konceptualizacije podataka koja je po prirodi binarna klasifikacija. • Naivni bajesovski klasifikator daje drugačiju primenu Bajesove teoreme na n-arnu klasifikaciju.
Naivni bajesovski klasifikator • Uzorci se predstavljaju torkama atributa. • Moguće klasifikacije (etikete) su date skupom V. • Najuverljivija klasifikacija uzorka je: • Ocena faktora P(vj) iz skupa obuke, ocena faktora P(a1, a2,…,an|vj) teška!
Naivni bajesovski klasifikator • Rešenje: pretpostavlja se uslovna nezavisnost atributa u prisustvu bilo koje klasifikacije. • Tada je najuverljivija klasifikacija:pri čemu je vrednosti P(ai|vj) lakše oceniti. • Pretpostavka o nezavisnosti daje reč “naivni” u imenu. • Vrlo jaka pretpostavka, često netačna, dobri rezultati u praksi uz oprez u primeni.
Primer – klasifikacija teksta • Binarna (npr. spam) • N-arna (npr. određivanje autorstva) • Atributi teksta: reči, ai je reč na i-toj poziciji u tekstu. • U slučaju spam-a, moguće klasifikacije su {0,1}. • P(0) i P(1) se lako ocenjuju na osnovu datih tekstova i njihovih klasifikacija.
Primer – klasifikacija teksta • Pretpostavlja se nezavisnost reči od drugih reči i reči od pozicija u tekstu. • Pretpostavke su jake, često netačne, ali dobijaju se dobri rezultati u praksi. • Ako je V={0,1}, najuverljivija klasifikacija teksta data je naivnim bajesovskim klasifikatorom kao: • P(wi|vj) se ocenjuje kao broj pojavljivanja reči wi u osnosu na ukupan broj reči.
Primer – klasifikacija teksta • Lako se proširuje na n-arnu klasifikaciju. • Jedan eksperiment: • 20 konferencija na Internetu • Po 1000 članaka iz svake za obuku • Od njih, 1/3 za verifikaciju, 2/3 za ocenu • Vokabular od 38500 engleskih reči • Uspešnost klasifikacije čak 89%!
Bajesovske mreže uverenja • Dosadašnji problem: ignorisanje međusobnih zavisnosti atributa/dokaza. • Bajesovske mreže uverenja daju kompromis – posmatraju se samo neke zavisnosti. • Promenljive se prikazuju acikličnim usmerenim grafom. • Grane grafa opisuju zavisnosti.
Zaključak • Formalni okvir za učenje i odlučivanje u prisustvu neizvesnosti. • Određivanje naujverljivije hipoteze pod datim pretpostavkama. • Određivanje najuverljivije klasifikacije sa najmanjom verovatnoćom greške. • N-arna klasifikacija objekata opisanih nezavisnim atributima. • Analiza međusobnih zavisnosti kod kompleksnih problema preko mreža uverenja.