FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL13305 – Lingüística - UPF nuria.bel@upf.edu Classe 9

Programa • Anàlisi sintàctica probabilística amb gramàtiques lliures de context. • Anàlisi probabilística lexicalitzada.

Recapitulem

Processament del Llenguatge Natural • Processar es reconèixer elements i assignar-los una representació per tal de poder manipular-los i prendre decisions. • Representació és informació explícita sobre l’ítem lingüístic • I és necessària perquè: • els ítems lingüístics no tenen una única interpretació. El sistema lingüístic està fonamentat en un principi d’economia: pocs elements poden fer diferents funcions i es produeix ambigüitat • el sistema lingüístic és productiu: mai no podríem tenir un inventari de tots els ítems lingüístics

Gramàtiques i analitzadors Problemes pràctics • Les CFG i les gramàtiques d’unificació estan pensades per donar totes les representacions possibles, totes les interpretacions. • És indispensable? • És una bona estratègia pràctica? • No totes les aplicacions demanen una representació detallada: Traducció automàtica i Extracció d’Informació

Un cas pràcticExtracció d’informació • Els sistemes d’extracció d’informació “Analitzen text no restringit per extreure tipus específics d’informació. No pretenen més que identificar aquelles parts de cada document que contenen informació rellevant. La rellevància ve definida per l’aplicació i el domini, i s’han d’especificar a priori per desenvolupar el sistema”

Productes comercials d’extracció • El producte: http://www.netowl.com/products/extractor.htm • Aplicacions: http://www.netowl.com/solutions/litigation.html Este producto fue uno de los pioneros en la aplicación de la tecnología de extracción de información. SRA empezó a comercializar la gama de productos de minería de textos en 1996, pero ya había estado trabajando con contratos para el Gobierno de los Estados Unidos desde principios de los noventa del siglo XX. Ha sido el mejor sistema en las evaluaciones realizadas por el NIST, en extracción de entidades con nombres, con una puntuación no igualada después por ningún otro sistema, y está también a la cabeza en la tecnología de extracción de relaciones y sucesos. Su principal cliente sigue siendo el Gobierno de los Estados Unidos, aunque también consta en su página web que tiene clientes en otros sectores, principalmente en el de servicios de valor añadido, por ejemplo Edgar Online People, servicios relacionados con una base de datos de personas y cargos que ocupan, o Thomson Gale™ empresa que comercializa información especializada.

Plataformes de gestió de documentació • http://www.xrce.xerox.com/competencies/cross-language/home.html • http://www.spss.com/lexiquest/lexiquest_mine.htm

Topic detection and Tracking • Otra de las herramientas que ha suscitado gran interés en el mundo de la extracción de información ha sido la identificación y seguimiento de asuntos (en inglés, Topic Detection and Tracking, abreviado TDT) en flujos de datos no segmentados, típicamente prensa hablada o escrita. El objetivo es identificar y hacer el seguimiento de historias o sucesos a lo largo de diferentes textos. Esto es, son herramientas con técnicas de extracción de información pero en las que la identificación de sucesos se extiende a lo largo de una serie de documentos, con lo que hay que identificar sucesos enlazados. La investigación más reciente está llevando las técnicas de TDT a aplicaciones concretas: seguimiento de noticias sobre descubrimientos científicos, asignación de autoría a ideas científicas, realizar análisis de grabaciones de Call Centers, etc.

MUMIS-DFKIwww.lt-demo.org Lübeck (dpa) - Die Lübecker Possehl-Gruppe, ein im Produktions-, Handel- und Dienstleistungsbereich tätiger Mischkonzern, hat 1994 den Umsatz kräftig um 17 Prozent auf rund 2,8 Milliarden DM gesteigert. In das neue Geschäftsjahr sei man ebenfalls „mitSchwung“ gestartet. Im 1. Halbjahr 1995 hätten sich die Umsätzedes Konzerns im Vergleich zur Vorjahresperiode um fast 23 Prozent auf rund 1,3 Milliarden erhöht. type = turnover c-name = Possehl1 year = 1994 amount = 2.8e+9DM tendency= + diff = +17% type = turnover c-name = Possehl1 year = 1995/1 amount = 1.3e+9DM tendency= + diff = +23%

SRI-FASTUS Appelt & Israel (1997): Building information extraction systems.www.ai.sri.com/~appelt/ie-tutorial “San Salvador, 19 Apr 89 (ACAN-EFE) -- [TEXT] Salvadoran President-elect Alfredo Cristiani condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti National Liberation Front (FMLN) of the crime. Garcia Alvarado, 56, was killed when a bomb placed by urban guerrillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. Vice President-elect Francisco Merino said that when the attorney general's car stopped at a light on a street in downtown San Salvador, an individual placed a bomb on the roof of the armored vehicle. According to the police and Garcia Alvarado's driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured. Incident: Date - 19 Apr 89 Incident: Location El Salvador: San Salvador (CITY) Incident: Type Bombing Perpetrator: Individual ID "urban guerrillas“ Perpetrator: Organization ID "FMLN“ Perpetrator: Organization Suspected or Accused by Authorities: "FMLN" ConfidencePhysical Target: Description "vehicle“ Physical Target: Effect Some Damage: "vehicle" Human Target: Name "Roberto Garcia Alvarado" Human Target: Description "attorney general": "Roberto Garcia Alvarado"

Tècniques pràctiques d’anàlisiShallow-Partial Parsing (Anàlisi parcial) • FASTUS, Appelt & Israel (1997) usen autòmats “en cascada” per reconèixer “grups”. Per exemple, un grup nominal està format pel nucli (N) i els modificadors a la esquerra. • “En cascada” es refereix a la tècnica d’aplicar autòmats que reconeixen diferents seqüències en forma de paquets que es passen un darrera de l’altre, i de forma iterativa.

Tècniques pràctiques d’anàlisiChunking (a pedaços) • També es parla de “Chunking” quan volem reconèixer porcions de text i agrupar-los per donar-li ja no tant una representació de la estructura, com una etiqueta. • S’usen formalismes basats amb expressions regulars que defineixen patrons de cerca. • El chunking també està relacionat amb el que se’n diu: Named Entity Recognition: podem reconèixer: dates, noms propis (de persones, empreses o de lloc), xifres, etc.

Exemples de patronsCandidats per apedaçar seis de junio de 1990 6-06-1990 Del 1 de agosto al diez de septiembre. 6º de temperatura. 6ºC de temperatura. 6º C de temperatura; un 40% de 40,000 personas. 40.000 personas 300 millones de euros 300.000.000 de euros 300 M€ CC.OO. Mayor Oreja

Anàlisi probabilística per resoldre ambigüitat • És aplicar probabilitat per assignar una (i no més una) representació d’una expressió. • Una gramàtica probabilística assigna solament l’anàlisi més probable (que serà la correcta en la major part dels casos). Redueix el problema d’eficiència • Una gramàtica probabilística es construeix calculant les anàlisis més freqüents d’un corpus ja analitzat. Redueix el problema de desenvolupament.

Mètodes d’anàlisi probabilística (1) • Augmentar una CFG amb informació probabilística (PCFG) (o també Stochastic Context Free Grammar (Booth 1969)). • En aquest model cada regla de la gramàtica s’augmenta amb informació de probabilitat condicionada. A → β [p] • La probabilitat p de que donat un no-terminal A, aquest s’expandeixi en la seqüència β: P(A→ β) o P(A → β|A)

Mètodes d’anàlisi probabilística (2) • La probabilitat d’una anàlisi determinada (una representació) es defineix com el producte de les probabilitats de totes les regles r que s’han aplicat per expandir cada nus n en l’arbre d’anàlisis. P(Arbre,Oració) = Πp(r(n)) n εT La probabilitat resultant P(Arbre,Oració) es tant la probabilitat conjunta de l’anàlisi i de la oració, com també la probabilitat de l’anàlisi P(Arbre).

Mètodes d’anàlisi probabilística (3) • Per desambiguar podem usar un algorisme que seleccioni el millor arbre per a una oració a partir del conjunt d’arbres.

Mètodes d’anàlisi probabilística (4) • La manera més senzilla de calcular l’anàlisi més probable és observar un corpus ja analitzat. • “Treebank” són bancs d’anàlisis. http://linc.cis.upenn.edu/~treebank/home.html http://treebank.linguist.jussieu.fr/toc.html TOTA la informació sobre Treebanks i maneres d’explotar-los, també amb informació sobre diferents llengües. • Sobre el Treebank en castellà, hi ha la informació del de Antonio Moreno Spanish UAM Treebank (corpus anotado sintácticamente del español). http://www.lllf.uam.es/~sandoval/UAMTreebank.html http://www.bultreebank.org/Proceedings.html http://www.compapp.dcu.ie/~away/Treebank/treebank.html

Problemes de l’anàlisi probabilística • fan una assumpció d’independència entre les regles, però podem dir que l’expansió d’un nus depén del seu lloc a l’arbre: • exemple: el SN pre-verbal (subjecte) i post-verbal (objecte) • SN  N • SN  Det N • en anglès, (Francis, 1999), la probabilitat de que un SN  pron, quan és subjecte és del 91%.

Problemes de l’anàlisi probabilística (2) • No podem esbiaixar les regles segons els nusos terminals, i voldríem donar compte de relacions de dependència lèxica • Hi ha solucions parcials: • Probabilistic Lexicalized CFG’s, que inclouen la informació del nucli com a atribut del nus • Expanded lexicalized Grammar, que emmagatzemen una probabilitat per a cada combinació regle/nucli SV(llevar) --> V(llevar) SN(comida) PP(a) [0.1] SV(llevar) --> V(llevar) SN(olla) PP(a) [0.0001]

Resum • Les gramàtiques i analitzadors declaratius tenen les seves limitacions pràctiques: desenvolupament, cobertura i eficiència • Tècniques pràctiques per aconseguir una representació, la profunditat de la qual depèn de l’aplicació: • shallow parsing (autòmats en cascada, entre d’altres). • chunking (amb expressions regulars de definició de patrons) • Gramàtiques probabilístiques: resolen els problemes de les gramàtiques declaratives, fent prediccions basades en la probabilitat, pel que fa a l’eficiència i el desenvolupament, però perden capacitats.

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF