1 / 27

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF. nuria.bel@upf.edu Classe 4. El programa. 2. Les paraules Identificació d’unitats, els mots. Autòmats i expressions regulars

neorah
Download Presentation

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL13305 – Lingüística - UPF nuria.bel@upf.edu Classe 4

  2. El programa 2. Les paraules • Identificació d’unitats, els mots. Autòmats i expressions regulars • Categories lèxiques i categories funcionals. Propietats estadístiques, morfològiques i semàntica lèxica • Compostos i col·locacions. Mesures d’associació lèxica • Morfemes i analitzadors morfològics. Transductors d’estats finits i morfologia de doble nivell

  3. Morfemes, morfologia

  4. Processament Morfològic: • Objectiu: desenvolupar una funció que reconegui les formes/paraula, les associï a un lema i els assigni la informació morfosintàctica associada al sufix. • Tècniques possibles: • Generació i ‘look-up’ de formes(paraules) cantaba cantar Vmii[13]s-- (format Multext) • Anàlisi/parsing morfològica: cada paraula es processa d’acord amb regles d’anàlisi

  5. Analitzadors i autòmats: el primer pas • Anàlisi (parsing) en la seva accepció més amplia significa que pren un input i genera un output • L’output és una representació de l’input amb informació afegida. • Donada una descripció en el llenguatge dels autòmats d’estats finits: • L’autòmat reconeix l’input i produeix una confirmació si pertany al conjunt de mots definits. • L’autòmat genera totes les cadenes definides

  6. Definició formal • Q és un conjunt finit de N estats q0, q1, ...., qN • Σ es un alfabet finit de símbols d’entrada • q0 és l’estat inicial • F es el conjunt d’estats finals, FQ (és un subconjunt) • (q,i) és la funció de transició (o la matriu de transició) entre estats. Donat un estat qQ i un símbol de l’ínput iΣ, la función (q,i) dóna com a resultat (retorna) un nou estat q’Q.

  7. c a s a s c q0 a q1 q2 s q3 a q4 q5 o Autòmat que reconeix formes transicio(0,1,c). transicio(1,2,a). transicio(2,3,s). transicio(3,4,a). transicio(3,4,o). transicio(4,5,s). inicial(0). final(4). final(5). automat(E,[]):- final(E). automat(E_i,[P|R]):- transicio(E_i,E_f,P), automat(E_f,R).

  8. Representació en taula d’un autòmat c a s o 0 1 Ø Ø Ø 1 Ø 2 Ø Ø 2 Ø Ø 3 Ø 3 Ø 4 Ø 4 4: Ø Ø 5 Ø 5: Ø Ø Ø Ø c s o a 0 1 Ø Ø Ø 1 Ø Ø Ø 2 2 Ø 3 Ø Ø 3 Ø Ø 4 4 4: Ø 5 Ø Ø 5: Ø Ø Ø Ø

  9. Reconeixedor / Generador • Un autòmat és un analitzador si donada una paraula ens diu si la reconeix com una de les del conjunt que té definides: ->> recognize/test(casos) ->> yes • Un autòmat és un generador si donada l’ordre pot generar totes i solament aquelles paraules (o ...) d’una llengua. ->> generate / synthesize ->> casa, casas, caso, casos

  10. Generador c s o a 0 1 Ø Ø Ø 1 Ø Ø Ø 2 2 Ø 3 Ø Ø 3 Ø Ø 4 4 4: Ø 5 Ø Ø 5: Ø Ø Ø Ø ->> generate/synthesize ->>??

  11. Reconeixedor c s o a 0 1 Ø Ø Ø 1 Ø Ø Ø 2 2 Ø 3 Ø Ø 3 Ø Ø 4 4 4: Ø 5 Ø Ø 5: Ø Ø Ø Ø ->> test(casos) ->> yes ->> test(cosas) ->> no L’afegim? Atenció amb la sobregeneració!!!

  12. Analitzadors i autòmats (2) • Ara que ja hem reconegut, ara hem de generar una representació? casa +fem +plu • Afegim ‘trets’ (features) transicio(6,7,a,'fem'). transicio(6,7,o,'masc'). transicio(7,8,s,'plu'). • fem que l’autòmat quan reconegui una forma, imprimeixi en una altra llista el tret ?- test([c,a,s,a,s],T). [0, c, 1, a, 2, s, 6, a, 7, s, 8] T = [c, a, s, fem, plu|_G372] Yes

  13. Transductors d’Estats Finits • El que farà l'anàlisi morfològica es aplicar les regles de projecció entre aquests dos nivells: entre les lletres o seqüències de la paraula i els morfemes i trets. • L'autòmat que usem per dur a terme aquesta projecció es un transductor d'estats finits o 'FST, Finite State Transducer'. • Un transductor és un tipus d'autòmat que reconeix o genera parells de cadenes.

  14. c:c a:a s:s a:fem s:plu 1 2 3 4 5 6 L’autòmat que imprimia era un transductor • Hem de generar una representació? casa +fem +plu • Fem que l’autòmat quan reconegui una forma, generi en una altra llista el tret

  15. c:c a:a s:s a:fem s:plu 1 2 3 4 5 6 L’autòmat que imprimia era un transductor • Hem de generar una representació? casa +fem +plu • Afegim ‘trets’ (features) transicio(6,7,a,'fem'). transicio(6,7,o,'masc'). transicio(7,8,s,'plu'). • fem que l’autòmat quan reconegui una forma, generi en una altra llista el tret

  16. Definició formal d’un Transductor - Q: un conjunt finit de N estats qØ, q1, ... qn - Σ: un alfabet finit de símbols complexos. Cada símbol complex està compost d’un parell input/output i : o ; un símbol i d’un alfabet d’input I, i un símbol o de un alfabet d’output O, de tal forma que Σ ⊆ I x O, on I i O poden també incloure cadascun el símbol epsilon ε. - qØ, l’estat inicial - F: el conjunt d’estats finals, tal que F ⊆ Q - δ(q,i:o) la funció de transició o matriu de transicions entre estats. Donat un estat q ∈ Q i un símbol complex i:o ∈ Σ, δ(q,i:o) retorna un nou estat q’ ∈ Q. δ és una relació de QxΣ a Q

  17. I els casos que no solament són una concatenació? • en català • llop – lloba ... • ànec – aneguet • poder – puc - podia • en castellà • durmió – duerme – dormía • en anglès • mouse – mice Poden ser fenòmens regulars (sonorització) o purament ortografèmics

  18. Morfologia de doble nivellKimo Koskenniemi (1983) • La morfologia de doble nivell representa una paraula com una correspondència entre: • un nivell lèxic, que tracta la paraula com una senzilla concatenació de morfemes, i • un nivell superficial, que representa com realment es diu aquella paraula (o s'escriu, al menys).

  19. Morfologia de doble nivell i transductors • a MDN modelem un mot com la projecció d’una forma lèxica FL i una forma superficial FS • La FL serà el símbol de l’esquerra (i) i la FS serà el símbol de la dreta (o): Σ : {a:a, b:b, p:b} • Així cada símbol de l’alfabet del transductor expressa la projecció entre el símbol de la FL i el símbol de la FS. Parells per defecte són a:a, b:b, c:c, etc. • “a : ε” significa que a a la forma lèxica pot correspondre a res en la forma superficial • es marca també el llindar dels morfemes amb el símbol ^ i el llindar de paraula amb ‘#’

  20. Relació entre formes irregulars • Aquesta doble visió de la paraula ens permet expressar la relació entre formes regulars i irregulars • arc(0,1,d:d). • arc(1,2,o:u). • arc(2,3,ε:e). • arc(3,4,r:r). • arc(4,5,m:m). • arc(5,6,i:ε). • arc(6,7,r:ε). • arc(7,8,pi1s:o). dormir pi1s - duermo

  21. En forma de taula d:d o:u ε :e r:r m:m i: ε r:ε pi1s:o 0 1 Ø Ø Ø 1 Ø Ø Ø 1 Ø 2 Ø Ø Ø Ø Ø Ø 2 Ø Ø 3 Ø Ø Ø Ø Ø 3 Ø Ø Ø 4 Ø Ø Ø Ø 4 Ø Ø Ø Ø 5 Ø Ø Ø 5 Ø Ø Ø Ø Ø 6 Ø Ø 6 Ø Ø Ø Ø Ø Ø 7 Ø 7 Ø Ø Ø Ø Ø Ø Ø 8 8: Ø Ø Ø Ø Ø Ø Ø Ø

  22. Morfemes i analitzadors: problemes • gos +fem => gossa • llop +fem => lloba • El plural català: • noi +plu => nois • noi +fem => noia • ????noies • Com representem el problema? o millor, com representem la solució???

  23. ll ll ll o o o p b p N ^ Ø F a a # F L Intermedi F S Aproximació: • input és: arrel + sufix • creem una representació intermèdia: concatenació de sufixos • produïm com a output una versió lleugerament diferent, la versió correcta

  24. ll ll ll o o o p b p ^ Ø N F Ø a es es Pl F L Intermedi F S regles de concatenació (2) • llop +a + es => llobes • regles contextuals: p  b / ^____a # a  ε / ^____es #

  25. Regles contextuals • S’han d’aplicar en tots els casos (totes les paraules) que compleixen aquestes condicions. • Hem de tenir cura amb les definicions i poder-les deixar poc específiques. El símbol @ es llegeix com ‘other’, i significarà en cada transductor símbols que no hi siguin específicament

  26. Transductor i implementació procedural PC-KIMMO RULE "p:b <=> ___ +:Ø a" 4 4 p + a @ b Ø a @ 1: 2: 3. 4: RULE "p:b <=> ___ +:Ø a" 4 4 p + a @ b Ø a @ 1: 2 1 1 1 2: Ø 3 1 1 3. Ø Ø 4 Ø 4: Ø Ø 1 1

  27. PC-KIMMOComponents d’un analitzador morfològic 1. Un lèxic: una llista d'arrels i afixos amb informació sobre la categoria i característiques morfològiques de les arrels. 2. Un model de la morfotàctica de la llengua que volem descriure. El model ens explica com s'ordenen els morfemes dintre d'una paraula, per exemple, que en català el morfema de plural va darrera de l'arrel d'un nom i no al revés. 3. regles: on expressem formalment el coneixement dels canvis que es produeixen quan es concatenen/combinen dos morfemes, per exemple: a+es -> es (per als plurals femenins en català). Ara en direm 'regles ortogràfiques' perquè bàsicament tindrem en compte fenòmens que es poden descriure en termes de caràcter que canvien, s'afegeixen, desapareixen, etc.

More Related