210 likes | 307 Views
No ţiuni de statistică. fie E un experiment statistic al cărui rezultat îl notăm cu variabila X care ia valori într-o mulţime finită pe care o notăm cu V(X)= Ω .
E N D
Noţiuni de statistică • fie E un experimentstatistic al cărui rezultat îl notăm cu variabila X care ia valori într-o mulţime finită pe care o notăm cu V(X)=Ω. • Orice submultime a lui Ω se numeşte eveniment, notat cu E (o submulţime cu o singură valoare se numeşte eveniment atomic sau elementar) De ex. aruncarea unui zar este un experiment statistic (E), pentru care rezultatul (X) este dat de faţa superioară a zarului, iar mulţimea valorilor posibile ale rezultatului (Ω) este un număr de puncte 1, 2, 3, 4, 5, 6. • X se numeşte variabilă aleatoare (conceptul e mai general) • Prin asignarea unei probabilităţi pentru fiecare valoare posibilă a unei variabile aleatoare se defineşte funcţia de distribuţie a variabilei aleatoare X ex: distribuţia uniformă xii=1,N, p(xi) =1/N
Frecvenţe, stabilitatea frecvenţei relative (proporţia numărului de apariţii a unui anumit eveniment urmărit în cadrul unui experiment) fn=#cap/#aruncări empiric, se observă că fn tinde să se stabilizeze în jurul unui număr: probabilitatea eveniment, Pn • Dacă xΩ, • probabilitatea apariţiei lui x se notează cu P(X=x). • Informal, dar foarte frecvent, acelaşi lucru se notează cu P(x). • P(X=x)0 xΩ • P(Ω)=1 • dacă x1, x2, …xn sunt evenimente independente, atunci P( xi)= P(xi) • Probabilitatea unui eveniment este greu de calculat. • Mult mai uşor se calculează o “estimaţie” al probabilităţii. De regulă, • estimatul unei probabilităţi se notează cu ^p.
Cu |X=x| se notează numărul de apariţii ale evenimentului x într-un experiment caracterizat de rezultatele X. Ex: Se notează cu X rezultatele a 100 de aruncări cu banul. Presupunem că a ieşit “stema” de 51 de ori. Acest lucru se notează astfel x= |“stema”| = 51, Prin extensie |X| = 100 şi respectiv |x| = 51 p(X=x)def=|x|/|X| definiţie “formală” pt. o noţiune “informală” Când |X| , ^p(x) p(x) Diferenţa dintre probabilitatea unui eveniment şi estimaţia sa, se numeşte eroare de estimare. În continuare, p va denota estimări, dar le vom zice probabilităţi.
Informaţie şi incertitudine • Spunem în mod curent că dacă avem mai multă informaţie despre un anumit fenomen, incertitudinile noastre despre acel fenomen sunt mai mici • Cele două noţiuni pot fi definite în raport cu un proces de alegere a unui sau mai multor obiecte dintr-o mulţime. • O măsură a incertitudinii (H, entropia): -p(X=x)*log2p(X=x) - Shannon fie un eveniment sigur =>p(X=x)=1; log2p(X=x)=0 => -p(X=x)*log2p(X=x)=0 (incertitudinea este zero) fie un eveniment imposibil =>p(x)=0; log2p(x)=- => (regula lui l’Hôspital) -p(X=x)*log2p(X=x)=0 (incertitudinea este zero) fie un eveniment in care toate rezultatele sale sunt echiprobabile (aruncarea banului, aruncarea unui zar, etc.). Dacă sunt posibile M rezultate distincte, incertitudinea rezultatului acestui eveniment este: H = -i=1,Mp(X=xi)*log2p(X=xi)=logM
Informaţia • Scăderea incertitudinii într-un eveniment la două momente ale observării rezultatelor sale: Inf=Ht – Ht+Δt Exemplu: să presupunem o linie de transmisie pe care la fiecare milisecundă este emis, echiprobabil, un simbol 0 sau 1. Probabilitatea de recepţie eronată este 0.01. Să calculăm informaţia transmisă intr-o milisecundă, la recepţia unui anumit simbol Ht=-p(0)log2p(0)-p(1)log2p(1)=1 Ht+Δt = Hcorect+Heroare =-0.99*log20.99- 0.01*log20.01 = 0.081 Inf=1-0.081=0.919 Dacă probabilitatea de eroare este 0, atunci Inf=Ht adică incertitudinea a fost eliminată complet prin informaţia receptată
Unităţi de măsură (informaţie şi incertitudine) Baza 2 (log2M=k) – biţi atenţie: bit –unitate de măsură (un număr real!) bit –cifră binară (un întreg) Codificarea unei cantităţi de informaţie de 1.7 biţi (UM) necesită 2 biţi (cifre binare) Baza 10 (log10M=k)– digiţi Baza naturală e (logeM=k)– naţi
Generalizăm p(x,y) de pildă, alegem arbitrar două cuvinte (nu unul) oriaruncăm simultan două zaruri (ca la table) ori ne prezentăm la examen şi luăm examenul avem de a face cu două evenimente. p(x,y) def= probabilitatea de apariţie simultană a evenimentului X=x şi respectiv a evenimentului Y=y Evenimente independente şi evenimente condiţionate! Două evenimente se numesc independente dacă: p(a,b)=p(a)*p(b) Cu alte cuvinte, probabilitatea de apariţie simultană a celor două evenimente (a respectiv b) se poate calcula direct din probabilităţile lor de apariţie.
Evenimentele care nu sunt independente se numesc condiţionate, probabilitatea de apariţie a unuia depinde de apariţia celuilalt. Se notează cu p(X|Y) şi se citeşte: “probabilitatea de apariţie a evenimentului X atunci când evenimentul Y a avut loc”. p(X|Y)=p(X,Y) /p(Y) p(X) se numeşte de obicei probabilitatea apriori (prior prb) a lui X p(X|Y) se numeşte de obicei probabilitatea posterioară (posterior prb) a lui X p(X|X)=1, p(X|X)=0 Dacă X şi Y sunt independente, p(X,Y)=p(X)*p(Y) şi deci, p(X|Y)=p(X,Y) /p(Y) = p(X) *p(Y) /p(Y)= p(X) Probabilitatea condiţionată (foarte utilizată in SNLP) stabileşte o relaţie între ce am văzut şi ce am putea vedea
Exemple Fie un zar netrucat. Intuitiv, fiecare faţă (1, 2, 3, 4, 5 şi 6) are şansa de apariţie =1/6. Fie evenimentul X “iese un număr par”, şi evenimentul Y “iese un număr divizibil cu 3” X={2, 4, 6}, Y={3, 6} p(X)=p(2)+p(4)+p(6)=1/6+1/6+1/6=3/6=1/2 p(Y)=p(3)+p(6)=1/3 X şi Y? p(X)=1/2, p(Y)=1/3, p(X,Y)=p(6)=1/6 p(X)*p(Y)= p(X,Y) ==> X şi Y sunt independente deci: p(X |Y) = p(X) p(X |Y) = p(X,Y)/p(Y)=1/6 / 1/3 = 1/2 = p(X)
Dintr-un pachet de cărţi de joc alegem la întâmplare o carte. Fie X evenimentul “cartea extrasă este un A” şi fie Y evenimentul “cartea extrasă este o treflă” Care este probabilitatea ca să extragem Asul de treflă? P(X,Y)=1/52; Sunt X şi Y evenimente independente? P(X)= 4/52, P(Y)= 13/52, P(X)*P(Y)=1/52 DA!
Regula de multiplicare P(X1, X2, …Xn) = P(X1)*P(X2|X1)*P(X3|X1X2)*…P(Xn|X1X2… Xn-1) prior bigramă, trigramă, …, n-gramă Demonstraţie:
Aproximarea regulei de multiplicare P(X1, X2, …Xn) = P(X1)*P(X2|X1)*P(X3|X1X2)*…P(Xn|X1X2… Xn-1) Ipoteza bayesiană (de ordin k): un eveniment depinde doar de cel mult k evenimente precedente. Pentru k=1, avem: P(X1, X2, …Xn) =P(X1)*P(X2|X1)*P(X3|X2)*…P(Xn|Xn-1) Dacă X1, X2, …Xn sunt cuvintele unei propoziţii, P(X1,…Xn) reprezintă probabilitatea de a întâlni o astfel de propoziţie iar ipoteza bayesiană de ordin 1 spune că putem calcula această probabilitate, bazându-ne doar investigând, pentru fiecare cuvânt, doar vecinătatea sa imediată. În practică se folosesc aproximări de ordin 2
Legea lui Bayes (inversiunea bayesiană) p(X|Y)=p(X)*p(Y|X)/p(Y) deoarece p(Y|X)=p(X,Y) /p(X) prin definiţie, ==> p(X|Y)=p(X)*(p(X,Y) /p(X)) /p(Y)= p(X,Y) /p(Y) adicăchiar definiţia p(X|Y) dacă X= x1,x2,…xn iar Y= y1,y2,…yn legea lui Bayes generalizată: p(x1,x2,…xn |y1,y2,…yn)= p(x1,x2,…xn)*p(y1,y2,…yn | x1,x2,…xn)/p(y1,y2,…yn)
Foarte utile sunt următoarele relaţii: (1) p(x)=p(x|y) *p(y) sau (1’) p(x)=p(x,y) yY yY Exemplu (mai dificil) în care utilizăm relaţia de mai sus:Un laborator de analiză are acurateţea de 95% in detectarea unei boli (în 5% din cazuri, deşi boala este prezentă, ea nu este detectată). Mai mult, în 1% din cazuri pentru persoane sănătoase, rezultatul testului a fost greşit, indicând prezenţa bolii. Ştiind că 0.5% din populaţia investigată suferă de boala respectivă, care este probabilitatea ca o persoană să fie bolnavă, atunci când analiza a ieşit pozitivă (indicând boala)? Fie B evenimentul că persoana testată este bolnavă, şi T evenimentul că testul a ieşit pozitiv; probabilitatea care ne interesează este p(B|T)
Soluţie p(T) = p(T|B)*p(B)+p(T|B)*p(B) (ec.1)
Probabilităţi si LN • Probabilitatea se referă la predicţie: • ce cuvânt urmează după acest cuvânt? • care dintre interpretările unui cuvânt sau a unei propoziţii este mai plauzibilă? • ce înţeles este mai probabil? • Orice decizie raţională poate fi modelată probabilistic • Probabilităţile sunt folosite (în NLP) pentru a modela deciziile lingvistice • Cum se construieşte un model probabilistic? Se defineşte distribuţia de probabilităţi pentru evenimentele de interes • Aceste probabilităţi se estimează (învaţă) folosind datele de antrenare D • Problema construcţiei unui model de limbă revine la a găsi cea mai bună distribuţie a probabilităţilor astfel încât ea să explice datele D
Probabilităţi condiţionate în NLP • p(grammar | sentences). • p(parse | sentence). • p(ml-tag | word) • p(sem-tag|word) • p(tag1 tag2…tagn | word1 word2 …wordn) • p(syn-rel | word1, tag1, word2, tag2) • …
In forma pură, o abordare statistică a problemei învăţării limbii române: primeşte un corpus de limbă română şi învaţă limba ţinând cont de toate regularităţile în corpusul respectiv. NU! Prea multe regularităţi nerelevante, dacă nu chiar înşelătoare Ideea este să furnizăm programului de învăţare o serie de cunoştinţe iniţiale, pentru ca ceea ce învaţă să fie regularităţile statistice corecte. Fie c1,c2,…cn o secvenţă aleatoare de n cuvinte ale limbii române, altfel spus, n evenimente aleatoare C1,C2,…Cn în care fiecare eveniment Ci poate lua ca valoare orice cuvânt al limbii române. Ar fi f.util, dacă am putea să calculăm p(c1,c2,…cn) pentru orice secvenţă de cuvinte.
Obiecţii faţă de o astfel de încercare: 1) oamenii nu pot calcula probabilităţi când prelucrează propoziţii, deci de ce le-ar calcula maşina? Nu este clar deloc că lucrurile stau chiar aşa! p(c1,c2,…cn) p(c1)*p(c2| c1 )*p(c3|c2)*... p(cn|cn-1) De pildă: Ion a plecat la … piaţă merge roşu dacă număr O serie de experimente psiho-lingvistice arată că oamenii au intuiţii ce pot fi uşor modelate probabilistic
2. Probabilitatea unui cuvânt nu depinde doar de cuvintele din faţa lui Aceasta este o confuzie frecventă. Nimic nu împiedică considerarea ordinei inverse, de la sfârşit la începutul frazei. Ba mai mult, nimic în ecuaţia: p(c1,c2,…cn) p(c1)*p(c2| c1 )*p(c3|c2)*... p(cn|cn-1) nu impune ca decizia asupra unui cuvânt să nu fie influenţată de un cuvânt ce îl urmează. Fie secvenţa următoare, asupra căruia trebuie să decidă un sistem automat: duceN spuse . . . . . . tânărul duceV greutatea. . . p(tânărulduceN spuse…) >>> p(tânărulduceV spuse…) p(tânărulduceV greutatea …)>>> p(tânărulduceN greutatea …)
3. Modelarea statistică a limbajului este doar o chestiune de numărare a cuvintelor şi a co-ocurenţelor Problema este că există două noţiuni complet distincte: model statistic şi metodă statistică Prima noţiune nu are nevoie de cea de a doua. De exemplu, o persoană care apelează la intuiţia sa pentru a face un raţionament probabil, este un exemplu de utilizare a unui model statistic fără a folosi metode statistice. Realitatea este că obiecţiunile asupra modelelor statistice se referă de fapt la acurateţea lor, la gradul lor de sofisticare. Limbajul NU este modelat de un model statistic. Modelul statistic modelează incompletitudinea sau incertitudinea informaţiei noastre.