1 / 66

Všechno, co jste chtěli vědět z teori e pravděpodobnost i , z teorie informace a …

Všechno, co jste chtěli vědět z teori e pravděpodobnost i , z teorie informace a …. báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového učení, PFL054).

kaia
Download Presentation

Všechno, co jste chtěli vědět z teori e pravděpodobnost i , z teorie informace a …

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Všechno, co jste chtěli vědět zteoriepravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového učení, PFL054) Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech.(G. W. Snedecor)

  2. Statistika se těší pochybnému vyznamenání tím, že je nejvícenepochopeným vědním oborem. Neznamená to však, že je nejméně známá. Nepochopení nějaké věci totiž předpokládá, že se o ní něco ví,nebo přinejmenším se myslí, že se ví. O statistice všakpanujevšeobecné mínění, že z každého, kdo se naučil ve škole trochu počítat,lze bez obtíží udělat statistika prostě tím, že se mu tak říká.(H. Levinson)

  3. Náhodný pokus Nastal jev A Pravděpodobnost má modelovat relativní četnost Výsledek není předem znám Pravdivost tvrzení o výsledku pokusu

  4. ZÁKLADNÍ POJMY • universum(diskrétní, spojité) • jevjistý , jev nemožný  • sjednocení jevůi=1..nAi • průnikjevůi=1..nAi • jevopačnýAc=  - A • elementárníjev   • algebraA: systémpodmnožinuzavřenýnasjednocení, průnik, doplněk;  ,  A • náhodnýjev A A

  5. ZÁKLADNÍ POJMY (POKRAČOVÁNÍ) • pravděpodobnost P reálná fce df na A • A A 1  P(A) A • A,B vzájemně disjunktní P(AB)=P(A) + P(B) • P(P  0)

  6. Klasický pravděpodobnostní prostor • konečnýprostor elementárních jevů,  • algebraA •  AA AAc  A • A, B AAB A • A, B A AB A • pravděpodobnost P • P(A) = A (na konečné množině zavedena pravděpodobnost)

  7. Jaká je pravděpodobnost, že při házení třemi mincemi najednou padnou právě 2 panny?  = ?, A = ?, P(A) = ? •  = {OOO, OOP, OPO, OPP, POO, POP, PPO, PPP} • A={PPO, POP, OPP} • P(A) = 38

  8. přechod od konečného prostoru elementárních jevů k prostoru spočetnému

  9. Kolgomorova definice pravděpodobnosti pravěpodobnostníprostor • prostorelementárníchjevů,  • algebra, A • AAAAcA • Ai Ai=1.. Ai A • (AiA  i=1.. Ai  A)

  10. Kolgomorova df psti (pokračování) • P: A • P (A) A • P(P  0) • A1, A2,... vz. disjunktní množiny A, • P(i=1.. Ai ) = i=1.. P(Ai) • P = ?

  11. Složenápravděpodobnost,nezávislostjevů, • Jevy A, B jsou nezávislé  P(A,B)=P(A)*P(B)

  12. Složená pravděpodobnostP(A,B) • Podmíněná pravděpodobnost P(A|B) • úplně závislé jevy P(A|B) = 1 • závislé P(A|B) = ? • nezávislé P(A|B) = P(A) • Bayesův vzorec • P(A|B) = P(A,B)/ P(B)

  13. Bayesův inverzní vzorec • P(A|B) = P(A)*P(B|A)/P(B)

  14. Náhodná veličina •   ; X :   R • P[X = x] = P({ ; X() = x} • P[X = x] rozdělení náhodné veličiny X • diskrétní, spojitá • střední hodnota náhodné veličiny E[]= 1/   X()=xx P[X = x]

  15. Statistik je ten, kdo s hlavou v rozpálené troubě asnohama v nádobě s ledem na dotaz, jak se cítí,odpoví: "V průměru se cítím dobře.„(anonym)

  16. Teorie informace

  17. TEORIE KÓDOVÁNÍ: 0 - žádné auto, 1 - domácí, 2 - zahraniční 3 - domácí a zahraniční • vysílání signálů na křižovatce podle dané situace • při binárním kódování 0(00), 1(01), 2(10), 3(11) • situace stejně pravděpodobné např. (0.25) nestejně pravděpodobné např.0 (0.5), 1 (0.125), 2 (0.125), 3 (0.25) EFEKTIVNÍ KÓDOVÁNÍ: častější zprávy kratší kód tedy: 0(0), 1(110), 2(111), 3(10)

  18. jednoznačně rozpoznat začátek a konec kódu 0 - žádné auto 10 - domácí i zahraniční 110 - domácí 111 - zahraniční

  19. „Kolik“ informace získáme, známe-li výsledek pokusu? • „Jak velkou“ nejistotu přináší neznalost výsledku pokusu?

  20. Axiomatická definice entropie entropie - míra stupně neurčitosti pokusu X H(X) =ozn. n(p1, p2,...,pn) 1.Hodnota fce  n(p1, p2,...,pn) se nezmění při libovolné permutaci čísel p1, p2,...,pn 2. Fce  2(p1, p2) je spojitá 3.  n(p1, p2,...,pn) =  n-1(p1+p2,...,pn) + (p1+p2) 2(p1/p1+p2, p2/p1+p2) 4.  n(1/n,1/n,...,1/n) = f(n) srostoucímnroste

  21. ad vlastnost č. 3 • n=3, H(X) =(p1,p2,p3) • I. X1, X2 • II. X3 • X Y, • n=2, p(Y1) = p1+ p2 , p(X3) = p3 • H(Y) = (p1+p2,p3) • Y Y´, • n=2, p(X1) = p1/(p1+ p2), • p(X2) = p2/(p1+ p2) H(X)  H(Y)

  22. ad vlastnost č.3 H(Y´) = (p1/(p1+ p2), p2/(p1+ p2)) H(X) = H(Y) + (p1+ p2) H(Y´) (p1,p2,p3) = (p1+p2,p3) + (p1+ p2)(p1/(p1+ p2), p2/(p1+ p2))

  23. Axiomatická definice entropie(pokračování) Jediná funkce, která splňuje podmínky 1.- 4., má tvar: (bez důkazu)  n(p1, p2,...,pn) = c(-p1logp1-p2logp2-...-pnlogpn) (c logap = logbp, kde bc = a)

  24. Entropie • X - diskrétní náhodná veličina • H(X) = - xF p(x)log2 p(x) (H(X)  H(p)) • entropie vs kódování • entropie je dolní mez průměrného počtu bitů potřebných k zakódování zprávy • entropie jako míra nejistoty obsahu zprávy (s délkou kódu nejistota roste)

  25. Vlastnosti entropie • H(X)  0 • Hb(X) = (logba)H(X) • p,q • - xF p(x)log2 p(x)  - xF p(x)log2q(x) (Jensenova nerovnost)

  26. H(p) vs p • X = 1 s pravděpodobností p, • X = 0 s pravděpodobností 1-p

  27. Shannonova hra “nápodoba českého textu” česká abeceda - 42 písmen(bez rozlišení ú a ů, plus mezera) A. urna 1 se 42 lístečky - vybírání a vkládání zpět “ďj mrgučxýďyaýweaožá” B. urna 2 - lístečky podle četností písmen “žia ep atndi zéuořmp” C. urny 1-42 - 42 uren s dvojicemi písmen (ci,cj), počty dle p(ci/cj) “lí di oneprá sguluvicechupsv”

  28. Shannonova hra - výsledky

  29. H(X,Y)– množství informace pro předpovídání výsledků obou pokusů zároveň H(X, Y) = - xF yG p(x,y)log p(x,y) H(Y/X) = xF p(x)H(Y/X = x) = - xF p(x) YG p(y/x)log p(y/x) = - xF yG p(x)p(x/y)log p(y/x) = - xF yG p(x,y) log p(y/x) H(X)  H(X/Y) , H(X) + H(Y)  H(X,Y) Složená a podmíněná entropie

  30. Chain rule • H(X,Y)= - xF yG p(x,y) log p(x,y) • = - xF yG p(x,y) log p(x)p(y/x) • = - xF yG p(x,y) log p(x) - xF yG p(x,y)log p(y/x) • = - xF p(x)log p(x) - xF yG p(x,y)log p(y/x) • = H(X) + H(Y/X) • H(X,Y/Z) = H(X/Z) + H(Y/X,Z) • H(Y/X)  H(X/Y) ačkoli • H(X) - H(X/Y) = H(Y) - H(Y/X)

  31. Křížová entropie • “správný” model známe/neznáme???? • aproximace - jak kvalitní?  • Křížová entropie • H(p,q) =def- xF p(x)log q(x) • Křížová entropie na slovo • (1/n)H(X) =def- (1/n)xF p(x)log q(x) • Křížová entropie jazyka • H(L, q) = lim n(1/n)xF p(x)log q(x)

  32. Relativní entropie (Kullback-Leibler vzdálenost) 0  xF p(x) log2p(x) - xF p(x) log2q(x) = H(p,q) - H(p) xF p(x) log(p(x)/q(x)) =defD(p||q) Vzájemná informace I(X;Y) = xF yG p(x,y)log(p(x,y)/p(x)p(y)) = = D(p(x,y) || p(x)p(y)) Perplexita Perp(X) = 2H(X) Relativní entropie, vzájemná informace, perplexita

  33. Relativní entropie(pokračování) m(X,Y) 1.m(X,Y)  0, m(X,Y) = 0  X = Y 2.m(X,Y) = m(Y,X) 3.m(X,Y) m(X,Z) + m(Z,Y) D(p||q) ... splňuje 1., ale nesplňuje 2. a 3. např. p(1) = 1/4, p(2) = 3/4, r(1) = r(2) = 1/2, q(1) = 3/4, q(2) = 1/4 Proto lépe: d(p,q) = (x(p(x) - q(x))2)1/2

  34. Perplexita - příklad Předpověď dalšího slova wtna základě t-1 předchozích slovw1w2…wt-1 H(wti/w1w2…wt-1) = = -i=1.NP(wti/ w1w2…wt-1)log2P(wti/ w1w2…wt-1) předpoklad: P(wti/ w1w2…wt-1) = 1/N H(wti/w1w2…wt-1) = -i=1.N1/N log21/N = log2 N Perp(wti/w1w2…wt-1) = N

  35. Vzájemná informace vs entropie • I(X;Y) =x,y p(x,y) log (p(x,y)/p(x)p(y)) • = x,y p(x,y) log (p(x/y)/p(x)) • = - x,y p(x,y) log p(x) + x,y p(x,y) log p(x/y) • = - x p(x) log p(x) - (- x,y p(x,y) log p(x/y)) • = H(X) - H(Y/X) • I(X;Y) = H(Y) - H(X/Y) • I(X;Y) = H(X) + H(Y) - H(Y/X) • I(X;X) = H(X) - H(X/X) = H(X)

  36. Diagram vzájemná informace vs entropie H(X,Y) I(Y;X) H(Y/X) H(X/Y) H(Y) H(X)

  37. Chain rule(pokračování) • H(X1, X2,…,Xn) =  i=1..n H(Xi/Xi-1, …,X1) • I(X1, X2,…,Xn;Y)=  i=1..n I(Xi;Y/Xi-1, …,X1) • I(X1, X2,…,Xn;Y) = H(X1, X2,…,Xn ) - H(X1, X2,…,Xn /Y) • =  i=1..n H(Xi/Xi-1, …,X1) -  i=1..n H(Xi/Xi-1, …,X1,Y) • =  i=1..n I(Xi;Y/Xi-1, …,X1) • D(p(x,y) q(x,y)) = D(p(x) q(x)) + D(p(y/x)  q(y/x))

  38. Všechno, co jste chtěli vědět zteoriepravděpodobnosti, z teorie informace a … báli jste se zeptat (2. část) (pro potřeby přednášky Úvod do strojového učení, PFL054) Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech.(G. W. Snedecor)

  39. Náhodná veličina • náhodný jev  chceme popsat prostřednictvím některé jeho číselné charakteristiky X(), kterou nazveme náhodná veličina; X :   R • diskrétní (nabývá konečného nebo spočetného počtu hodnot), spojitá (nabývá všech hodnot z daného intervalu) • základní charakteristiky: průměr, rozptyl

  40. Diskrétní pravděpodobnostní rozdělení • (i=1 …)P[X=xi] = 1 • seznam hodnot, kterých nabývá diskrétní náhodná veličina, a seznam pravděpodobností, s nimiž těchto hodnot náhodná veličina nabývá, udává diskrétní pravděpodobnostní rozdělení

  41. Střední hodnota (průměr) diskrétní náhodné veličiny • E[X]  i=1…nxi P(X=xi)() • E[X]  i=1…xi P(X=xi)

  42. Rozptyl (variance) • popisuje velikost kolísání náhodné veličiny kolem střední hodnoty • var [X] = E (X-E[X])2 (2)

  43. Směrodatná odchylka • =var[X]

  44. Spojitá náhodná veličina • pravděpodobnostní rozdělení je popsáno hustotou (frekvenční fcí) f(x)

  45. Binomické rozdělení - motivace • hod mincí: panna? orel? • Jaká je pravděpodobnost p, že padne panna? • Házejme n-krát, z toho r-krát padla panna • p = r/n • opakujme n hodů mincí; r´  r, p´  p

  46. Binomické rozdělení – motivace (pokračování) • binomické rozdělení popisuje, pro libovolnou hodnotu r, pravděpodobnost jevu, že při n nezávislých hodech mincí právě r-krát padne panna za předpokladu, že pravděpodobnost panny v jednotlivých hodech je p

  47. Kdy binomické rozdělení? • výsledky pokusu se dají popsat náhodnou veličinou X, která má dvě možné hodnoty {0,1} • P(X=1) je dáno konstantou p, nezávislou na výsledku jakéhokoli pokusu; většinou je p neznámé – JAK ODHADNOUT?

  48. Binomické rozdělení Bin(n,p) • n nezávislých pokusů, zdar/nezdar - prostor elementárních jevů  = {0,1}n • náhodná veličina X() = (i=1 …n)i vyjadřuje počet (0,1,…n) úspěchů v n nezávislých pokusech, kdy v každém z jednotlivých pokusů je pravděpodobnost úspěchu rovna p •   , =(1,2,…,n), i je počet zdarů v i-tém pokusu, p(i) = pi (1-p)(1-i) • nezávislost pokusů: p() = (i=1..n)p(i) = p i(1-p)(n-  i) • pro k=(i=1 …n)i, je počet elem. jevů = n!/k!(n-k)! • P(X=k)= n!/k!(n-k)!pk(1-p)(n-k)

  49. Binomické rozdělení: střední hodnota, rozptyl, směrodatná odchylka • E[X] = np • var[X] = np(1-p) •  = np(1-p)

  50. Normální rozdělení (spojité) N(, 2) • f(x) = 1/( 22)e–1/2((x-)/)2 • normální rozdělení je určeno parametry  (střední hodnotou) a  (sm. odchylkou) •  a  jsou konstanty, které určují polohu křivky na ose x () a její roztažení podél osy x ()

More Related