340 likes | 484 Views
LINCOR – Descrierea informa ţiilor lingvistice. * SOFTWIN. Sec ţ iuni implicate. Morfologie Lexic Sintax ă Coresponden ţe. Configuratorul morfologic. Configuratorul morfologic. Descrie structura morfologică a unei limbi Organizat sub forma unui arbore atribut - valoare ( AVT )
E N D
Secţiuni implicate Morfologie Lexic Sintaxă Corespondenţe
Configuratorul morfologic... Configuratorul morfologic • Descrie structura morfologică a unei limbi • Organizat sub forma unui arbore atribut-valoare (AVT) • nodurile “atribut”: categorii morfologice • nodurile “valoare”: valori ale categoriilor morfologice • Alte tipuri de informaţii ataşate fiecărui nod: • abrevierea • categoria – flexionabilă sau nu • forma este lemă sau nu • forma este supliment sau nu
Arbore atribut-valoare (AVT) ...Configuratorul morfologic... masculin gen feminin atribut neflexionabil neutru substantiv singular număr flexionabil clasa plural neflexionabil singular verb număr plural flexionabil valoare
Configuratorul Morfologic [RO]… Statistici Configurator Morfologic pentru limbaromână:
Configuratorul Morfologic [EN]… Statistici Configurator Morfologic pentru limba engleză:
Sintaxa NTPAR - N (neterminal) - simboluri care nu apar în enunţuri şi se expandează conform regulilor - T (terminal) - reprezintă un şir de caractere. - P (pseudoterminal) - reprezintă o clasă lexicală - A (acţiuni procedurale) - R (relaţie) – reprezintă relaţiile de coordonare sau regenţă-subordonare descrise în arborele de dependenţe.
Sintaxa – reguli sintactice Membrul drept Membrul stâng Alternant Neterminal Secţiune sintactică AVT Nume NTPA AVT Liste de relaţionare Secţiune de dependenţe Nume + tip (RS/RC) Regulă sintactică Relaţie AVT Liste de relaţionare Secţiune de acord Condiţie de acord Acţiuni
Simboluri folosite în regulile sintactice, care se vor regăsi în arborele de dependenţe: Sintaxa - Arbori de dependenţe (conventii grafice) <...> Neterminal (N) @...@ Relaţie de Coordonare (RC) “...” Terminal (T) 1 2 @...@ Relaţie de Subordonare (RS) %...% Pseudoterminal (P) #...# Acţiune procedurală (A)
Sintaxa - Arbori de dependenţe (reprezentare grafică) % verb % @compl - regent verb@ @coordonare logica@ 2 1 % substantiv % % substantiv % @subordonare particula logica@ "şi"
Lexiconul Un LEXICON GRAALAN este o structură de date ce conţine trei tipuri de intrări: • a) Intrări de tip lexical; • b) Intrări de tip morfologic; • c) Intrări de tip procedural. • În acest proiect ne-am ocupat de un subtip al intrărilor de tip lexical - intrările de tip expresiimulticuvânt (MWE - Multi Word Expression).
Intrările de tip multicuvânt (MWE)- similare cu intrările de tip “lemma” + o secţiune morfo-sintactică. Tipuri de intrări MWE: - locuţiuni - expresii - cuvintecompuse(alăturare – cu sau fără cratimă) - alteîmbinări fixede cuvinte. => cuvântul “expresie” are o accepţiune mai largă decât cea tradiţională. MWE...
...MWE... Multiword entry (MWE) Text (normal şi fonetic) Semantică (sensuri, relaţii semantice, exemple...) Arbore de dependenţe Secţiune sintactică Neterminal AVT + Listă de relaţionare + Secţiune de dependenţe Relaţie RS/RC AVT + Listă de relaţionare +
...MWE – Text GRAALAN... • Entry_001: Entry multiword • Text “a avea pâinea şi cuţitul" • Phonetic "ˈˈa ave̯ˈa pˈɨjne̯a ʃˈi kuʦˈitul" • Meaning “A avea la îndemână toată puterea, toate mijlocele.” • Syntax • T1:"a avea" partial variable • [clasa = verb] • [conjugarea = II] • [tranzitivitate = tranzitiv] • [diateza = activa] • Governor R1 • T2:“pâine" invariable • [clasa = substantiv] • [numar = singular] • [caz = acuzativ] • [articulare = articol hotarat] • Coordinate R2 (1) • T3:“şi”invariable • [clasa = conjuncţie] • Subordinate R3 • T4:“cuţit" invariable • [clasa = substantiv] • [numar = singular] [caz = acuzativ] • [articulare = articol hotarat] • Coordinate R2 (2) • Dependency • R1:@complement– regent verb@() • R2:@coordonare logica@ (2) Subordinatte R1, Governor R3 • R3:@subordonare particula logica@()
Text expresie Cuvânt de sortare Sens expresie ...MWE –Editare prin aplicaţia LKT...
...MWE - Structură... Proprietăţile terminalilor - infomaţii lexicale, semantice şi morfologice a) Text/lema b) Meaning c) Variability - invariable - un cuvânt la o singură formă de flexiune - partialvariable -acelaşi cuvânt, având diverse forme de flexiune. - total variable-orice cuvânt care corespunde clase lexicale din AVT d) AVT
Arborele de dependenţe- schema sintactică a expresiei + informaţii suplimentare de natură lexicală şi morfologică. “a avea pâinea şi cuţitul” ... MWE - Arbore de dependenţe (reprezentare grafică)...
Corespondenţe bilingve... Lexicon limba 1 Aplicaţie creare corespondenţe bilingve Expresie ... Text ... Cuvânt de sortare ... Arbore de dependenţe Legătura terminalilor cu tokenii Caracterizare morfologică terminali Desen arbore sintactic Lema ... Text ... Structură ... Corespondenţe Bilingve Lexicon limba 2 Expresie ... Text ... Cuvânt de sortare ... Arbore de dependenţe Legătura terminalilor cu tokenii Caracterizare morfologică terminali Desen arbore sintactic Lema ... Text ... Structură ...
Corespondenţele bilingve se stabilesc între intrările lexicoanelor a două limbi şi pot fi: a) Corespondenţe lexicale; b) Corespondenţemorfologice; c) Corespondenţeîntre acţiuni procedurale. Aplicaţia utilizată în proiect tratează corespondenţele lexicale. ...Corespondenţe bilingve
Tipuri de corespondenţe lexicale - expresie – expresie: Ex:a ducecu zăhărelul - to hand somebody a lemon - expresie – lemă: Ex: idee fixă - obsession - expresie – traducere: Ex: aieşi în relief - to be prominent Corespondenţe lexicale...
În descrierea unei corespondeţe se pot folosi clauze de: a)mapare b)transfer c)combinare ...Corespondenţe lexicale...
Mapare: - TPA sunt relativ echivalenţi în cele două expresii, şi - TPA dinexpresie din limba ţintăva prelua toate legăturile (cu descendenţele respective) din extensia expresiei corespunzătoare TPA dinexpresie din limba sursă. ...Corespondente lexicale - mapare
a înduioşa to move @complement - regent verb@ @verb – adverbial@ @verb – complement@ @complement - regent verb@ pe până somebody to @prep-nominal@ @prep-grup prepozitional@ @prep phrase – complement@ la tears cineva @prep-nominal@ lacrimi Exemplu -Mapare “a înduioşa pe cineva până la lacrimi” “to move somebody to tears”
Transfer: - TPA nu sunt echivalenţi în cele două expresii, iar.. - Legăturile din extensia expresieicorespunzătoare nodului dinexpresie din limba sursă, cu toate descendenţele lor, vor fi preluate de noduldinexpresie din limba ţintă . ...Corespondente lexicale - transfer
Exemplu -Transfer “a da relaţii” “to give information” a da to give @complement- regent verb@ @verb – complement@ relaţii information
Combinare: - Prin combinarese indică modul prin care echivalenţii în limba ţintă, ai eventualilor subordonaţi din extensia expresiei sursă se vor coordona cu subordonaţii deja existenţi în expresia ţintă. ! Se poate defini ocombinaredoar pentru acei terminali din ţintă care au deja definită o clauză demaparesautransfer. ...Corespondente lexicale - combinare
Combinare – Exemplu “a face cuiva o figură urâtă” “to play a dirty trick on somebody” E1: to play E1: a face @verb - complement@ @verb - complement@ @compl - regent verb@ @compl - regent verb@ E2: cuiva E4: on E2: trick E3: o figură @atribut - regent@ @premodifier – noun phrase@ @prep phrase – complement@ E5:somebody E4: urâtă E3: dirty combination E2 @coordinate relation@
Combinare – Exemplu “a face cuiva o neaşteptatăfigură urâtă” +“to play a dirty trick on somebody” Expresia ţintă Expresia sursă a face to play @verb - complement@ @verb - complement@ @compl - regent verb@ @compl - regent verb@ cuiva a trick on o figură @atribut - regent@ @atribut - regent@ @premodifier – noun phrase@ @prep phrase – complement@ neaşteptată urâtă somebody dirty Extensie expresia sursă
Combinare – Exemplu “to play a dirtyand unexpected trick on somebody” Expresia ţintă rezultantă to play @compl - regent verb@ @compl - regent verb@ a trick on @premodifier – noun phrase@ @prep phrase – complement@ @logical coordination@ somebody 1 2 unexpected dirty
...Corespondenţe lexicale – Statistici peste 1000 expresii din RO