300 likes | 454 Views
FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL Lingüística - UPF. nuria.bel@upf.edu Sessió 3. Processament del Llenguatge Natural. Processament = reconeixement i identificació (anotació) dels ítems lingüístics.
E N D
FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL Lingüística - UPF nuria.bel@upf.edu Sessió 3
Processament del Llenguatge Natural • Processament = reconeixement i identificació (anotació) dels ítems lingüístics. • Com podem reconèixer les paraules? Coneixement de la solució i instruccions = màquina • Per construir una màquina (programa) que les reconegui? Autòmats d’Estats Finits i ER’s
Solució de problemes • Coneixementexhaustiu: tots els casos • Generalització: identificació del fet/s comuns. Quin és el tret que ens permet descriure i resoldre el major nombre de casos • Poder descriptiu: • cobrir tots i solament els casos que volem • les proves són positives i negatives
El problema del ‘1.000’ • Descripció: estudi exhaustiu del problema • quan apareix el punt (signe de puntuació) • Vindré. Deia ella. • núm. 34 • no sé ... Però ... • 1.000 • 15.20 • s/([.,;:]+)\s/\n$1\n/g;
El programa 2. Les paraules • Identificació d’unitats, els mots. Autòmats i expressions regulars • Categories lèxiques i categories funcionals. Propietats estadístiques, morfològiques i semàntica lèxica • Compostos i col·locacions. Mesures d’associació lèxica • Morfemes i analitzadors morfològics. Transductors d’estats finits i morfologia de doble nivell
Les paraules • Ha llegado un plinguén • dos plinguenes • cada plinguén • las plinguenes que han llegado • los plinguenes que han llegado • ella plinguenaba profundamente • ella plinguenó tres libros • ? la niña duerme plinguén la cama
Categories lèxiques i categories funcionals • Llista de paraules oberta/tancada • N/V/Adjectiu vs. Art/Det./Prep. • Poques paraules que surten molt i moltes paraules que surten poc: les categories funcionals són les que surten molt i són una llista tancada • Freqüències: http://pdl.iec.es/entrada/diec.asp
Freqüència • Freqüència absoluta: nombre de vegades que una paraula surt en un text/corpus • Freqüència relativa: nombre de vegades que una paraula surt en un corpus dividit entre el nombre de paraules que té el corpus n m on: n és el nombre d’ocurrències d’una paraula determinada i m el nombre de paraules del corpus (tokens o ítems)
Corpus Textual Informatitzat de la Llengua Catalana (IEC)Composició del corpus no literari
El corpus té 52.375.044 mots • 56% = 29.266.353 a llengua no literària • 44% = 23.108.691 a llengua literària
És el mateix la freqüència de: • any • anys • canto • cantes • canta, ... etc.
Representant lèxic: abstracció sobre un paradigma • amaba – amabas – amaba – amábamos – amabais – amaban • niño – niña – niños – niñas • en • Paradigma • Sintagma lema-categoria • Significat
Categories lèxiques vs. Categories funcionals • Lèxiques: Nom, Verb, Adjectiu, Adverbi, Preposició • Funcionals: Determinant (article, demostratius, etc.), Verbs auxiliars, Pronoms, Conjuncions. • Llista tancada de mots • Significat més difícil de definir: ‘aquells’, ‘que’.
on està la categoria?on està el significat? • Arrel grab- (writ-) • Sufix o-as-able-ando-ado (-ing, -able, -s) • Prefix re- • Lema grabar write
Cant- Am- Salt- -o -as -a Optimització del diccionari
Processament Morfològic: • objectiu: associar una forma/paraula a un lema i a la informació associada a un sufix. • tècniques possibles: • Generació i ‘look-up’ de formes (paraules) cantaba cantar Vmii[13]s-- (format Multext) • Anàlisi/ parsing morfològica: cada paraula es processa d’acord amb regles d’anàlisi
El problema (propera sessió) • la concatenació d’arrel + sufix dóna lloc a canvis ortogràfics com ara: • feliz – felic-es • examen – exámen-es • Des del nostre punt de vista no es solament concatenació
Semàntica lèxica • Què és el significat? És una bona pregunta! • Nosaltres ens concentrarem en: “book” en anglès significa el mateix que “llibre” en català o “libro” en castellà • El significat és una cosa en el món, denotada (a la qual es refereixen) per diferents mots en diferents llengües • Però sempre? “I want to book a room” Parlarem del sentit de les paraules en un context
Compostos i col·locacions Mesures d’associació lèxica • motocarro / mesa camilla / luna de miel • boyfriend / honeymoon • composicionalitat i compostos: • guerra / guerra fría *guerra caliente *guerra congelada • libro / libro blanco / libro verde • silla / silla de ruedas / silla de despacho
Calculant l’associació • La freqüència no serveix: • Poques paraules apareixen molt • Moltes paraules apareixen poc
Informació mutua: Church & Hanks 1989. Calcula una ratio de asociación para medir la asociación de palabras basándose en el concepto de la teoría de la información de Información mutua. La medida en sí ya estaba inventada (Fano, 1961) y establecía que si dos puntos (palabras) m1 y m2 tienen las probabilidades P(m1) y P(m2), su información mutua MI(m1,m2 ) se ha de definir: MI(m1,m2 ) = log2 P(m1,m2 ) / P(m1) P(m2 ) Intuitivamente lo que compara es la probabilidad de observar m1 e m2 juntas (la probabilidad conjunta) con las probabilidades de observar x e y separadas. Si hay una asociación genuina la probabilidad conjunta P(m1,m2) será mucho mayor que la casualidad de encontrarlas juntas porque sean dos palabras muy frecuentes, con lo que la información mutua tenderá a ser mayor que cero.
a b MI #a #b #ab 8 frutas cítricas 19.554399 6 6 6 10 dentaduras postizas 19.554399 6 6 6 31 per diem 19.332007 7 6 6 43 somier elástico 19.139362 5 8 5 40 cáñamo frutas 19.139362 8 6 6 48 eslabones giratorios 18.969437 9 5 5 55 ejecuciones extrajudiciales 18.846580 7 7 5 65 escalada inflacionaria 18.706402 6 9 5 79 piedra angular 18.554399 12 8 8 95 emisiones sonoras 18.438922 13 5 5 93 artes gráficas 18.438922 13 10 10 • herméticamente cerrados 18.232471 5 15 5 =========================================================================================== 81624 derecho nacional 0.383086 7250 4886 10 81704 trabajo puedan 0.374380 20765 1373 8 81907 nacional deberían 0.348094 4886 3714 5 82173 memoria artículo 0.313226 2652 14020 10 82392 trabajo establece 0.285743 20765 1095 6 82489 edad artículo 0.272728 2182 14020 8 82580 personas deberían 0.262404 5185 3714 5 82911 presente situación 0.222111 5088 3892 5 82932 empleo igualdad 0.219222 12664 3447 11 82941 huelga artículo 0.218049 1983 14020 7 83018 sociales artículo 0.207177 1998 14020 7 83605 sindicatos párrafo 0.121315 3630 5850 5 83858 trabajo general 0.085399 20765 3355 16 83870 social párrafo 0.083722 4471 5850 6 83875 trabajo punto 0.083250 20765 1470 7 83918 trabajo núm 0.077522 20765 16656 79 83944 empleo deberán 0.074205 12664 2079 6 84009 convenio núm 0.066440 2119 16656 8