1 / 40

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER. Rappresentazioni vettoriali del significato Teorie computazionali dell’acquisizione lessicale. METODI COMPUTAZIONALI PER LA SCOPERTA DI SIGNIFICATI.

gusty
Download Presentation

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dell’acquisizione lessicale

  2. METODI COMPUTAZIONALI PER LA SCOPERTA DI SIGNIFICATI • La prossima frontiera nell’uso degli strumenti informatici per la lessicografia e’ il loro uso per • produrre definizioni • scoprire accezioni • Annotare corpora automaticamente con il significato delle parole

  3. ACQUISIZIONE LESSICALE • I modelli informatici di acquisizione lessicale si basano su due idee: • Che il significato delle parole e’ un vettore multidimensionale • Che il significato delle parole viene dato dal contesto in cui appaiono

  4. CONCETTI COME ‘CLUSTER’ CHICKEN GOOSE ORIOLE ROBIN OSTRICH

  5. LESSICOGRAFIA: SIGNIFICATI COME CONTESTI “Thy shall know a word by the company it keeps” (Firth)

  6. SIGNIFICATI COME CONTESTI The breezes are soft, the waves lap gently and the fronds of the PALM trees sway lazily. Cycads, the most popular of which is the Sago PALM, are doll-sized versions of California's famous long-necked PALMS, with stubby trunks and fern-like fronds. whack, whack, whack his hand made vigorous spanking gestures on his left PALM. The PALMs of his hands are sweaty

  7. RAPPRESENTAZIONI VETTORIALI DEL SIGNIFICATO GATTO animato CANE pelliccia SGOMBRO acquatico

  8. CLUSTERING DI CONCETTI Year Month Day Joy Car Van Love Fear Airplane

  9. COSTRUZIONE DI VETTORI LESSICALI A PARTIRE DA CONTESTI • Per costruire il vettore C(w) per la parola w, • Scandire ogni testo del corpus • Ogni volta che si incontra w, incrementare tutte le celle di C(w) che corrispondono a parole che si trovano in prossimita’ di w, entro una finestra di dimensioni prestabilite

  10. COSTRUZIONE DI VETTORI DI PAROLE DA CONTESTI • Dato il corpus: • John ate a banana. • John ate an apple. • John drove a lorry.

  11. ESEMPIO DI INFORMAZIONI CHE SI POSSONO ESTRARRE DA CONTESTI

  12. VARIAZIONI • I metodi proposti nella letteratura differiscono per quel che riguarda • Le dimensioni della finestra • Se gli elementi del vettore sono ‘pesati’ o meno • Se ogni parola viene considerata come dimensione • Se viene applicata riduzione di dimensionalita’

  13. VARIANTE: USO DI MODIFICATORI • …. The Soviet cosmonaut …. The American astronaut …. The red American car …. The old red truck … the spacewalking cosmonaut … the full Moon …

  14. MISURE GEOMETRICHE DI SOMIGLIANZA • Euclidean distance: • Cosine: • Manhattan Metric:

  15. PLAUSIBILITA’ COGNITIVA DI QUESTI MODELLI • I modelli basati sugli spazi vettoriali sono stati utilizzati per predirre il comportamento in tasks che includono • Identificazione di sinonimi (Landauer & Dumais 1997) • Categorizzazione (Burgess & Lund 1997) • Semantic priming (Lowe 2000, Vigliocco et al 2004) • Errori nella sostituzione di parole (Vigliocco et al 2004)

  16. IDENTIFICAZIONE DI SINONIMI: IL TASK TOEFL

  17. IDENTIFICAZIONE DI SINONIMI: IL TASK TOEFL

  18. UMANI E MACCHINE AL TOEFL

  19. MODELLI PIU’ COMPLESSI • I modelli proposti piu’ di recente vanno oltre i modelli appena visti nel senso di • Cercare di utilizzare una versione piu’ complessa di ‘contesto’ che tiene conto della struttura sintattica degli enunciati • Cercare di estrarre da testi relazioni SEMANTICHE ed utilizzare quelle per la caratterizzazione delle parole

  20. MODELLI VETTORIALI BASATI SULLA SINTASSI attacked subj obj fox dog det mod det mod the red the lazy E.g., Grefenstette, 1994; Lin, 1998; Curran and Moens, 2002

  21. VETTORI SINTATTICI GREFENSTETTE, LIN, LAPATA & PADO: LE RELAZIONI GRAMMATICALI FUNZIONANO MEGLIO DELLE PAROLE PER CARATTERIZZARE I CONCETTI

  22. SEXTANT (Grefenstette, 1992, 1994) It was concluded that the carcinoembryonic antigens represent cellular constituents which are repressed during the course of differentiation the normal digestive system epithelium and reappear in the corresponding malignant cells by a process of derepressive dedifferentiation antigen carcinoembryonic-ADJantigen repress-DOBJantigen represent-SUBJconstituent cellular-ADJconstituent represent-DOBJcourse repress-IOBJ……..

  23. DOG CAT dog pet-DOBJdog eat-SUBJ dog shaggy-ADJdog brown-ADJdog leash-NN cat pet-DOBJcat pet-DOBJcat hairy-ADJcat leash-NN Jaccard: SEXTANT: MISURA DI SOMIGLIANZA

  24. MODELLI VETTORIALI BASATI SULLA SEMANTICA • Questi modelli cercano di identificare nel testo relazioni semantiche e di usarle per caratterizzare i significati dei concetti

  25. HEARST 1992, 1998: USING PATTERNS TO EXTRACT ISA LINKS • Intuition: certain constructions typically used to express certain types of semantic relations • E.g., for ISA: • The seabass IS A fish • Swimming, running AND OTHER activities • Vehicles such as cars, trucks and bikes

  26. TEXT PATTERNS FOR HYPONYMY EXTRACTION HEARST 1998: NP {, NP}* {,} or other NPbruises …… broken bones, and other INJURIESHYPONYM (bruise, injury) EVALUATION: 55.46% precision wrt WordNet

  27. Cimiano and Wenderoth 2005 • Extract from text the information about concepts specified by Pustejovsky’s Generative Lexicon theory • Evaluation: human judgments

  28. PUSTEJOVSKY’S GENERATIVE LEXICON • Pustejovsky (1991, 1995): lexical entries have a QUALIA STRUCTURE consisting of four ‘roles’ • FORMAL role: what type of object it is (shape, color, ….) • CONSTITUTIVE role: what it consists of (parts, stuff, etc.) • E.g., for books, chapters, index, paper …. • TELIC role: what is the purpose of the object (e.g., for books, READING) • AGENTIVE role: how the object was created (e.g., for books, WRITING)

  29. EXAMPLE: QS FOR “KNIFE”

  30. CIMIANO AND WENDEROTH’S APPROACH

  31. PATTERNS FOR THE CONSTITUTIVE ROLE

  32. GOOD EXAMPLES

  33. PROBLEMS

  34. PATTERNS FOR THE FORMAL ROLE

  35. PATTERNS FOR THE AGENTIVE ROLE

  36. PATTERNS FOR THE TELIC ROLE

  37. SCOPERTA DI ACCEZIONI The breezes are soft, the waves lap gently and the fronds of the PALM trees sway lazily. <breeze, frond,gently,lap,lazy,soft, sway,tree,wave> Cycads, the most popular of which is the Sago PALM, are doll-sized versions of California's famous long-necked PALMS, with stubby trunks and fern-like fronds. <California,cycad,doll-sized,famous,frond,popular,Sago,…> whack, whack, whack his hand made vigorous spanking gestures on his left PALM. The PALMs of his hands are sweaty

  38. Sense 1: horse, Equus caballus -- (solid-hoofed herbivorous quadruped domesticated since prehistoric times) Sense 2: horse -- (a padded gymnastic apparatus on legs) Sense 3: cavalry, horse cavalry, horse -- (troops trained to fight on horseback: "500 horse led the attack") Sense 4: sawhorse, horse, sawbuck, buck -- (a framework for holding wood that is being sawed) Sense 5: knight, horse -- (a chessman in the shape of a horse's head; can move two squares horizontally and one vertically (or vice versa)) Sense 6: heroin, diacetyl morphine, H, horse, junk, scag, shit, smack -- (a morphine derivative) Corton has been involved in the design, manufacture and installation of horse stalls and horse-related equipment like external doors, shutters and accessories. DISAMBIGUAZIONE DEI SIGNIFICATI

  39. DISAMBIGUAZIONE DEI SIGNIFICATI <contextfile concordance="brown"><context filename="br-h15" paras="yes">…..<wf cmd="ignore" pos="IN">in</wf> <wf cmd="done" pos="NN" lemma="fig" wnsn="1" lexsn="1:10:00::">fig.</wf> <wf cmd="done" pos="NN" lemma="6" wnsn="1“ lexsn="1:23:00::">6</wf> <punc>)</punc> <wf cmd="done" pos="VBP" ot="notag">are</wf> <wf cmd="done" pos="VB" lemma="slip" wnsn="3" lexsn="2:38:00::">slipped</wf> <wf cmd="ignore" pos="IN">into</wf> <wf cmd="done" pos="NN" lemma="place" wnsn="9" lexsn="1:15:05::">place</wf> <wf cmd="ignore" pos="IN">across</wf> <wf cmd="ignore" pos="DT">the</wf> <wf cmd="done" pos="NN" lemma="roof" wnsn="1" lexsn="1:06:00::">roof</wf> <wf cmd="done" pos="NN" lemma="beam" wnsn="2" lexsn="1:06:00::">beams</wf> <punc>,</punc>

  40. ANNUNCI DI FINE CORSO • Appelli sessione estiva: • 9 Giugno • 2 Luglio • TIROCINI PRESSO IL CENTRO MENTE / CERVELLO DISPONIBILI!! • clic.cimec.unitn.it • Chiedere a me o Marco Baroni

More Related