240 likes | 342 Views
Discriminadores de Texto. Ruy Luiz Milidiú. Resumo. Objetivo Apresentar modelos Discriminadores de Texto e seus algoritmos de aprendizado e predição Sumário Discriminadores C onditional R andom F ields Entropia M odelos de E ntropia M áxima. FORMUL A T I ON. USE.
E N D
Discriminadores de Texto Ruy Luiz Milidiú
Resumo • Objetivo Apresentar modelos Discriminadores de Texto e seus algoritmos de aprendizado e predição • Sumário • Discriminadores • Conditional Random Fields • Entropia • Modelos de Entropia Máxima
FORMULA T I ON USE Formulation Use SYMBOLS EMISSIONS observables hidden INFORMATIONS STATES
Gabaritos de Traços do texto • Regras ou padrões • Co-ocorrência de palavras e etiquetas • Contadores de Freqüência • Interdependência seqüencial tpos_-1=N tpos_0=N-> tpos=ADJ tpos_0=ART tpos_[1;2]=ART-> tpos=PREP tpos_0=ART word_0=a tpos_1=VTD -> tpos=PREP word_-1=que tpos_0=N -> tpos=VTD
Com gerador… gerador P(y|x1,…,xn) P(x1,…,xn|y) . P(y) P(y|x) = P(y,x) / P(x) = P(x|y).P(y) / P(x) • Classificador P(y|x1,…,xn) = ?
Sem gerador… P(y1,…,yn|x1,…,xn) P(y1,…,yn,x1,…,xn) P(y|x) = P(y,x) / P(x) • Classificador P(y1,…,yn|x1,…,xn) = ?
Sem gerador & com memória P(y|x,1,…,m) P(y,x,1,…,m) P(y|x,1,…,m) = P(y,x,1,…,m) / P(x,1,…,m) • Classificador P(y1,…,yn|x1,…,xn,1,…,m) = ?
Gabaritos de Traços P(y,x,1,…,m) = P(z1(y,x),…,zm(y,x),1,…,m) • zk(y,x) k= 1,…,m • contador frequencia • número total de ocorrências do k-ésimo gabarito • Contagem total ponderada P(y,x,1,…,m) e……… k.zk(y,x)
Classificador P(y|x,1,…,m) = e…….……….. / we…………. k k.zk(y,x) k k.zk(w,x)
Informação e surpresa p = Pr[E] p1 = Pr[E1] p2 = Pr[E2] I(E) = f(p) = ? • I(p) quando p • Pr[E1E2] =p1.p2E1 independente de E2 • I(p1.p2) = I(p1) + I(p2) I(p) = - lg(p)
Entropia • pi = Pr[ X=i ] i = 1,…,n H(X) E[I(X)] = - lg(pi).pi • H(cste) = 0 • H(uniforme) = lg(n) • 0 H(X) lg(n)
Entropia Máxima = 1 H(x) = - (ln2)-1.[ x.ln(x) + (1-x).ln(1-x) ] • H’(x) = -(ln2)-1.[ln(x) + x/x - ln(1-x) - (1-x)/(1-x)] H’(x) = - (ln2 )-1.[ ln( x/(1-x) ) ] H’(x) = 0 então x = 1-x = 1/2 • H’’(x) = -(ln2)-1 .[ 1/x + 1/(1-x) ] • H(1/2) = 1 , H’(1/2) = 0 e H’’(1/2) = -4.ln2
Entropia Máxima = lg n H(p) = - (ln2)-1.pi.ln(pi) • L(p, ) = H(p) + .( pi - 1) • Di L(p) = -(ln2)-1.[ ln(pi) + pi/pi - .(ln2)] Di L(p) = -(ln2)-1.[ ln(pi) + 1- .(ln2)] Di L(p) = 0 então pi = e1-.(ln2)= cste = 1/n
Modelos de Máxima Entropia • Maximizar a entropia equivale a não incluir informação adicional • X e’ um contador 0,1,2,… • X = arg max { H(Y) | E[Y] = m } ENTÃO X geo(1/m)
Entropia Máxima H(p) = - (ln2)-1.pi.ln(pi) • L(p, , ) = H(p) + .( pi - 1) + .( i.pi - m) • Di L(p) = -(ln2)-1.[ ln(pi) + pi/pi - - .i ] Di L(p) = -(ln2)-1.[ ln(pi) + 1- - .i ] Di L(p) = 0 então pi e-.i = qiq = e- pi = p.qi i=0,1,2,… • m= p +q(1+m) logo p = 1/m
Modelos de Máxima Entropia • max - pij . lg(pij) • sujeito a pij = 1 i i.pij = m1 contador 1 j j. pij = m2 contador 2 ENTÃO • pij = e-(a.i+b.j)/ e-(a.x+b.y)
Entropia Máxima H(p) = - (ln2)-1. pij.ln(pij) • L(p, , a, b) = H(p) + .(pij - 1) + a.( i.pij – m1) + b.( j.pij – m2) • Dij L(p) = -(ln2)-1.[ ln(pij) + pij/pij - - a.i - b.j ] Dij L(p) = -(ln2)-1.[ ln(pij) + 1- - a.i - b.j ] Dij L(p) = 0 pij e-a.i-b.ji=0,1,2,… j=0,1,2,…
Classificador P(y|x,1,…,m) = e…….……….. / we…………. k k.zk(y,x) k k.zk(w,x)
Aprendizado Exemplos • (xi , yi) i = 1, … ,n • xiatributos • yiclassificações • zk(y,x) k= 1,…,m traços • total de ocorrências do k-ésimo traço frequencia Classificador • f: (x1,x2, … , xn) y funcional • P(Y|X) probabilístico
Aprendizado i P(yi|xi,1,…,m) = i e…….……….. / we…………. k k.zk(yi,xi) k k.zk(w,xi)
Máxima verossimilhança ln i P(yi|xi,1,…,m) = i [k k.zk(yi,xi) – ln( we………… ) ] k k.zk(w,xi) quadro !
Quadro ! • Desenvolver o resultado com apenas dois contadores de traços …