1 / 22

Bayesove mreže i korisnost (engl. utility )

Bayesove mreže i korisnost (engl. utility ). Bayesove mreže mogu uključivati čvorove: Slučajne varijable (promatrano ranije) Čvorove odluke Čvorove korisnosti (engl. utility) Dio materijala preuzeto sa: Stanford University, CS 228, Knowledge Representation and Reasoning Under Uncertainty.

newman
Download Presentation

Bayesove mreže i korisnost (engl. utility )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bayesove mreže i korisnost (engl. utility) Bayesove mreže mogu uključivati čvorove: Slučajne varijable(promatrano ranije) Čvorove odluke Čvorove korisnosti (engl. utility) Dio materijala preuzeto sa: Stanford University, CS 228, Knowledge Representation and Reasoning Under Uncertainty.

  2. Teorija racionalnog odlučivanja Primjer: agent želi održati domjenak Moguće akcije: vani ili u kući Stanje svijeta: suho (vjer. 0.7) ili kiša (vjer. 0.3), vjer =1 Postoje 4 mogućnosti uz 4 ishoda (posljedice, zadovoljstva): 4 mogućnosti = 2 akcije (kući/vani):4 ishoda (zadovoljstva): u kući i suho (0.7) C1: žali (što nije vani) u kući i kiša (0.3) C2: zadovoljan (nije upropašten) Vani i suho (0.7) C3: super Vani i kiša (0.3) C4: katastrofa Jasno je da agent preferira ''super'' (C3) nego ''žali'' (C1), ali to nije dovoljno za racionalnu odluku. Kako donijeti racionalnu odluku ? Vjerojatnosti definiraju samo izglednost svijeta.

  3. Teorija racionalnog odlučivanja Traži se mjera za poželjnost (korisnost) , (engl. utility) svake posljedice Ci , kako bi se mogla donijeti racionalna odluka, t.j. traži se funkcija koja preslikava posljedice (ishode, zadovoljstva) u realne brojeve U(Ci ). U(Ci ) = funkcija korisnosti (engl. utility function) Nakon što se nekako (?) odredi funkcija U(Ci ): Agent treba izvesti akciju koja maksimizira očekivanu korisnost: EU(akcija) =  pi U(Ci ) To je princip maksimalne očekivane korisnosti – MEU (engl. maximum expected utility)

  4. Teorija racionalnog odlučivanja Neka u našem primjeru postoji funkcija korisnosti U(Ci ): 4 ishoda (zadovoljstva): C1: žali (što nije vani) 7 C2: zadovoljan (nije upropašten) 8 C3: super 10 C4: katastrofa 0 Računamo maksimalnu očekivanu korisnost za dvije moguće akcije: EU(u kući) = 0.7 x 7 + 0.3 x 8 = 7.3  treba odabrati EU(vani) = 0.7 x 10 + 0.3 x 0 = 7.0 Problemi: Uz koje uvjete uopće postoji funkcija U(Ci ) ? Koja su obilježja funkcije U(Ci ) ?

  5. Aksiomi teorije korisnosti (Ramsey 1931, Von Neumann 1944, Morgenstern 1944) Uvodi se pojam složenog scenarija = lutrija. Npr. neka akcija rezultira s dva ishoda (posljedica, rezultata): Ishod A s vjerojatnošću p, ishod B s vjerojatnošću (1-p) Lutrija je: L = [A, p; B, (1-p)] za tu akciju. Za više ishoda C = {C1, …, Cn} proširujemo: L = [C1, p(C1); … ; Cn, p(Cn) ], i p(Ci) = 1, (1  i  n) Svaki zasebni Ci može biti atomički ili lutrija (složen). Primjer domjenka: Svaka od dviju akcija ima dva moguća ishoda (akcija odgovara lutriji). Treba se odlučiti između dvije lutrije: U kući: C1 s vjer. 0.7 i C2 s vjer. 0.3 L1 = [C1, 0.7; C2, 0.3] Vani: C3 s vjer. 0.7 i C4 s vjer. 0.3 L2 = [C3, 0.7; C4, 0.3]

  6. Aksiomi teorije korisnosti Oznake: * preferencija, ~ indiferentnost, ,  logičke vezice Uređenost: Npr. za 2 lutrije L1, L2: (L1 * L2)  (L2 * L1)  (L1 ~ L2) Agent mora znati što želi (jedno od 3 mogućnosti). Nije trivijalno, npr.: Dobitak 3 M kuna sa vjer. 0.25 ili 4 M kuna sa vjer. 0.2 ? Tranzitivnost: (L1 * L2)  (L2 * L3)  (L1 * L3) ; inače iracionalno Kontinuiranost: Ako L1 * L2 * L3 (t.j. L2 je po preferenciji između L1 i L3), postoji vjerojatnost p kod kojega je lutrija L2 ekvivalentna složenoj lutriji s dva ishoda L1 i L3: p { L2 ~ [ L1, p; L3, (1-p) ]} p - mjera vrijednosti L2 relativno prema L1 i L2.

  7. Aksiomi teorije korisnosti Oznake: * preferencija, ~ indiferentnost: Zamjenljivost (supstitucija): L1 ~ L2  [ L1, p; L3, (1-p) ] ~ [ L2, p; L3, (1-p) ] Ako je agent indiferentan prema L1 ili L2, također je indiferentan prema kompleksnim lutrijama (uz jednaku vjerojatnost p). Monotonost: (L1 * L2), (p  q)  [ L1, p; L2, (1-p) ] * [ L1, q; L2, (1-q) ] Ako agent preferira L1, tada preferira i lutriju s većim p za L1. Agent želi da se nešto dobro dogodi s većom vjerojatnosti. Redukcija složenih lutrija (dekompozicija): [L1,p; [L2, q; L3, (1-q)] (1-p) ] ~ [L1, p; L2, (1-p)q; L3, (1-p)(1-q)] Primjenom zakona vjerojatnosti složene lutrije se dekomponiraju na veći broj jednostavnijih. Aksiom govori da nema vrijednosti (korisnosti) u broju koraka u postizanju ishoda (samo su konačni ishodi važni) - "no fun in gambling"

  8. Aksiomi i teorem teorije korisnosti Oznake: * preferencija, ~ indiferentnost: Teorem: Ako agentove preferencije slijede navedene aksiome, postoji funkcija U(C) koja preslikava ishode (posljedice) u realne brojeve takva da za lutrije L1 = [C1, p1; … ; Cn, pn] i pi = 1 L2 = [D1, q1; … ; Dm, qm] j qj = 1 Slijedi L1 * L2, akko i pi U(Ci) > j qj U(Dj) Korisnost svake lutrije određena je korisnošću i vjerojatnošću ishoda. Dokaz: Odredi se najmanja i najveća preferencija ishoda Cmin i Cmax. Cmin se pridruži U(Cmin)=0 Cmax se pridruži U(Cmax)=1 Svaki drugi ishod C ekvivalentan je lutriji: [Cmin, p; Cmax, (1-p)] C ima korisnost p. Primjena aksioma pokazuje da pridjeljivanje korisnosti pojedinim lutrijama prema maksimalnoj očekivanoj korisnosti rezultira u uređenju koje je konzistentno agentovim preferencijama.

  9. Aksiomi i teorem teorije korisnosti Pokazano je da uz aksiome teorije korisnosti postoji monotona funkcija U(C). Kako izgraditi funkciju korisnosti U(C) (preslikavanje ishoda u realne brojeve) ? Intuitivno: Funkcija korisnisti = funkcija vrijednosti novca (engl. utility of money). Obilježja tako definirane funkcije: monotonost preferencije (raste, "radije više nego manje"). Kakav oblik ima funkcija vrijednosti novca ? Primjer: 3 M kuna sigurno ili 4 M kuna s vjer. 0.8 ? Većina ljudi odabire prvu mogućnost. Vrijednost novca nije linearna !

  10. Bernoulli (1738) St. Petersburg paradoks Baca se nepristran novčić. Na stolu su 2 kune i ulog se udvostručuje svaki puta kada novčić padne na PISMO. Kad padne prvi puta na GRB, igra je gotova i nakon n bacanja dobiva se 2n kuna. Koliko kuna ( 2) valja ponuditi da se igra (npr. 100) ? Ishod:NovčanaVjerojatnost:Dobitak za uloženih 100 kuna: vrijednost (MV): G 2 1/2 2 – 100 = -98 PG 4 1/4 4 – 100 = -96 PPG 8 1/8 8 – 100 = -92 PPPG 16 1/16 16 – 100 = -84 … Očekivana monetarna vrijed. (EMV) cijele igre (nije EMU jer u igri novac): EMV(St.Pt.) = i pi (Grb) MVi (Grb) = i (1/2i ) 2i = 2/2 + 4/4 + … + =  Agent bi mogao ponuditi svaku konačnu sumu da maksimira dobit. Nije sukladno intuiciji -> paradoks ! Paradoks u funkciji korisnosti 2i . Bernoulli predložio logaritamsku skalu korisnosti novca: U(Sn ) = log2 n (za n > 0) EMV(St.Pt.) = i (1/2i ) log2 2i = 1/2 + 2/4 + 3/8 +… + = 2 Funkcija korisnosti (vrijednosti) novca je logaritamska !

  11. U -150000 $ 800000 Funkcija korisnosti Empirički potvrđena logaritamska funkcija (Grayson 1960): Oblik krivulje pokazuje kako se ljudi odnose prema riziku. Prvi zarađeni milijun ima znatno veći utjecaj nego naknadni ! Linearna funkcija – neutralnost prema riziku. Funkcija korisnosti je lokalno linearna (za male inkrementalne rizike i nagrade). Konveksan oblik – radije sigurna dobit nego lutrija. Konkavan oblik – radije lutrija nego sigurna dobit.

  12. U U(lottery) $500 $400 $reward Funkcija korisnosti Iznos ''sigurnog novca'' koji ljudi žele zamijeniti za lutriju = ekvivalent izvjesnosti lutrije. Npr.: koliko uložiti da se igra za 1000 kuna uz vjer. dobitka 0.5 ? EMV = 0 x 0.5 + 1000 x 0.5 = 500 Eksperimentalno utvrđeno: 400 (to je "ekvivalent izvjesnosti lutrije"). Razlika između ekvivalenta izvjesnosti i lutrije = "premija osiguranja" Premija osiguranja

  13. Ljudi i racionalnost Preferencije ljudi su rijetko konzistentne čak i prema nekoj, po volji odabranoj funkciji korisnosti. Teorija odlučivanja govori kako bi ljudi trebali donositi racionalne odluke. Ne postoji teorija koja objašnjava proces stvarnogdonošenja odluka ljudi. To je predmet istraživanja eksperimentalne ekonomije (1960 – danas). Npr: Izbor između A i B: A: 4000 s vjer. 0.8 B: 3000 sigurno Većina ljudi odabire B: Ako U(0) = 0, to bi impliciralo da je 0.8 x U(4000) < 1.0 x U(3000) Izbor između C i D: C: 4000 s vjer. 0.2 D: 3000 s vjer. 0.25 Većina ljudi odabire C. To bi impliciralo da je 0.2 x U(4000) > 0.25 x U(3000) Nema funkcije korisnosti koja je konzistentna s oba izbora !! Zaključak:ljudi su iracionalni s obzirom na aksiome teorije korisnosti, jer su uključeni drugi čimbenici (odnos prema novcu, sklonost riziku, emocionalno stanje i sl.).

  14. Mreže utjecaja i odlučivanja Proširenje Bayesovih mreža: Mreže utjecaja (engl. influence diagrams) Mreže odlučivanja (engl. decision networks) Tri tipa čvorova: Čvorovi odluke (pravokutnici) - predstavljaju točke u kojima agent ima izbor mogućih akcija. Čvorovi izglednosti (ovali) - predstavljaju slučajne varijable (klasični čvorovi probabilističkih mreža). Roditelji ovih čvorova uz čvorove izglednosti, mogu biti i čvorovi odluke. Participiraju u tablici lokalnih vjerojatnosti na uobičajen način. Čvorovi korisnosti ili vrijednosti (romboidi) - predstavljaju dijelove agentove funkcije korisnosti. Roditeljski čvorovi su svi koji utječu na korisnost. Tablica uz čvor daje korisnosti kao funkciju značajki koje ih određuju. Ovi čvorovi su krajnji (nemaju djece),

  15. Nafta Bušiti Korisnost Mreže utjecaja i odlučivanja Primjer 1: Poduzetnik treba odlučiti da li da buši u traženju nafte na određenom mjestu ili ne. Pretpostavljamo da je korisnost = novac. Na tom mjestu postoje vjerojatnosti: Suho (nema nafte) o0 = 0.5 Mokro (malo nafte) o1 = 0.3 Razmočeno (mnogo nafte) o2 = 0.2 Tablica korisnosti U(Di) = novac : o0 o1 o2 D1 (bušiti): -70 50 200 D2 (ne bušiti): 0 0 0 ; npr. u Mkuna Maksimalna očekivana vrijednost/korisnost za svaku akciju: MEU =i pi U(Di ) EU(ne bušiti) = 0 EU(bušiti) = 0.5 x (-70) + 0.3 x 50 + 0.2 x 200 = 20 MEU = 20 , treba bušiti Vrijednosti varijable: [o0, o1, o2] Čvor odluke [DA, NE] Izračun korisnosti

  16. Nafta Seizmika Bušiti Korisnost Mreže utjecaja i odlučivanja Primjer 1a: Prije odluke o bušenju izvedu se seizmički testovi koji mogu biti: s0 - difuzni odziv, skoro sigurno nema nafte s1 - otvorena refleksija, nešto nafte s2 - zatvorena refleksija, ima nafte Vjerojatnosna tablica (vjerojatnost ishoda testa uz stanje tla) o0 o1 o2 s0 0.6 0.3 0.1  = 1 ostaje po stupcu s1 0.3 0.4 0.4 s2 0.1 0.3 0.5 U času donošenja odluke poduzetnik zna rezultate seizmičkog testa. [o0, o1, o2] [s0, s1, s2] [DA, NE] Izračun korisnosti

  17. Mreže utjecaja i odlučivanja Primjer 1a - nastavak: Optimalna akcija za svaki test posebno: EU(akcija | test s0) = MEU =i pi U(Di ) = P(o0 | s0) U(o0, akcija) + + P(o1 | s0) U(o1, akcija) + P(o2 | s0) U(o2, akcija) P(o0 | s0) = P(s0 | o0) P(o0) / P(s0) Bayes ! = 0.6 x 0.5 / (0.6 x 0.5 + 0.3 x 0.3 + 0.1 x 0.2) = 0.732 Na jednak način: P(o1 | s0) = 0.219 P(o2 | s0) = 0.049 , pri tome i P(oi| s0)= 1 EU(bušiti | s0) = 0.732 x (-70) + 0.219 x 50 + 0.049 x 200 = (- 51.24) + 10.95 + 9.8 = (- 30.49) Korisnost akcija bušiti (uz s0) je -30.49 Korisnost akcije ne bušiti (uz s0) je 0. Najveća očekivana korist ako test s0: MEU(ne bušiti | s0) = 0. Analogno za ostale ishode testova: MEU(bušiti | s1) = 32.9 MEU(bušiti | s2) = 87.5 -- najveća vrijednost

  18. Mreže utjecaja i odlučivanja Primjer 1b: Banka treba odobriti novac PRIJE poznavanja testa. Znamo ako test: s0, tada ne bušiti, MEU(ne bušiti | s0) = 0 s1, tada bušiti, MEU(bušiti | s1) = 32.9 s2, tada bušiti, MEU(bušiti | s2) = 87.5 Računamo apriorne vjerojatnosti testova (marginalna razdioba): P(s0) = 0.6 x 0.5 + 0.3 x 0.3 + 0.1 x 0.2 = 0.41 P(s1) = 0.3 x 0.5 + 0.4 x 0.3 + 0.4 x 0.2 = 0.35 P(s2) = 0.1 x 0.5 + 0.3 x 0.3 + 0.5 x 0.2 = 0.24 Apriorna očekivana korisnost poduzetnika: MEU(racionalna_akcija) = iP(si ) MEU(akcija | si ) MEU = P(s0) MEU(akcija | s0) + P(s2) MEU(akcija | s2) + P(s3) MEU(akcija | s3) = 0.41 x 0 + 0.35 x 32.9 + 0.24 x 87.5 = 32.2 Zaključak: Ako je poduzetnik racionalan treba mu odobriti zajam.

  19. Test Cijena Nafta Seizmika Bušiti Korisnost Mreže utjecaja i odlučivanja Primjer 1c: Poduzetnik ima opciju poduzeti ili ne seizmički test. Poduzimanje testa ima cijenu. Varijabla S ima dodatnu vrijednost: nepoznato(S poprima tu vrijednost s vjerojatnošću 1 u slučaju da se test ne poduzima). Sekvencijsko donošenje odluka: Posebno se računa očekivana korisnost ako se ne poduzima test (Primjer 1, MEU=20), nakon toga se računa očekivana korisnost ako se poduzima test (Primjer 1b, MEU=32.2). Zaključak: Test se treba poduzeti ako mu je cijena < 12.2. Umjesto dva čvora korisnosti moguće je koristiti jedan zajednički. [DA, NE] [s0, s1, s2, nepoznato] izračun [o0, o1, o2] [DA, NE] izračun

  20. Mreže utjecaja i odlučivanja Primjer 2: Treba donijeti odluku o kupnji jednog od dva automobila C1 i C2 (uvjet je da se mora kupiti). Svaki auto može biti dobar (q1) ili loš (q2). Prodavatelj traži: C1 = $1500 Može ga se poslije prodati za $2000. Ako je auto dobar (q1) - zarada je $500, a ako je loš (q2) popravak košta $700 - gubi se $200. C2 = $1150 Može ga se poslije prodati za $1400. Ako je auto dobar (q1) - zarada je $250, a ako je loš (q2) popravak košta $150 - zarada $100. Moguće je provesti najviše 1 test po cijeni: t0 - bez testa t1 - $50, test auta C1 (ishodi: prolazi, pada) t2 - $20, test auta C2 (ishodi: prolazi, pada)

  21. Mreže utjecaja i odlučivanja Primjer 2 - nastavak: Čvorovi mreže: Auti: Ci = [q1, q2] , vrijednost svake slučajne varijable Ci je q1 ili q2. Odluka o kupnji: D= [kupi_1, kupi_2] , mora se odlučiti Odluka o testu: T= [t0, t1, t2] , bez testa, test za C1, test za C2 Test za svaki auto s ishodima dobar ili loš: ti = [prolazi, pada] Potrebno je poznavati vjerojatnosti (iz iskustva): Kakav je auto: p(C1 = q1) = 0.7, vjerojatnost da je C1 dobar (vjer. da je C1 loš = 0.3). p(C2 = g1) = 0.8, vjerojatnost da je C2 dobar. Kako su pouzdani testovi: p(t1 = prolazi | C1 = q1) = 0.90 ako C1 dobar, vjer. 0.9 da test potvrdi p(t1 = pada | C1 = q2) = 0.65 ako C1 loš, vjer. 0.65 da test potvrdi P(t2 = prolazi | C2 = q1 ) = 0.25 ako C2 dobar, vjer. 0.25 da test potvrdi P(t2 = pada | C2 = q2 ) = 0.70 ako C2 loš, vjer. 0.7 da test potvrdi

  22. C1 t1 C2 t2 T D V Mreže utjecaja i odlučivanja Primjer 2 - nastavak: Odluka bez testiranja: EMU (C1) = (0.7 x 500) + (0.3 x -200) = 290, treba kupiti C1 EMU (C2) = (0.8 x 250) + (0.2 x 100) = 220 Odluka s testiranjem – preko mreže: Za svaku vrijednost čvora odluke postavi čvor u to stanje izračunaj vjerojatnosti izračunaj korisnost akcije Vrati akciju s najvećom korisnosti Rezultat: Investiraj $50 u test 1 (na auto 1). Ako prolazi, kupi auto 1, inače kupi auto 2 [t0, t1, t2] [q1, q2] [q1, q2] [prolazi, pada] [prolazi, pada] [kupi_1, kupi_2] [izračun]

More Related