180 likes | 366 Views
Text Processing WordNet. Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: ernandes@dii.unisi.it. Fonti di riferimento: “Introduction to WordNet: an on-line lexical database” – George A. Miller “WordNet: a lexical database” – Marco Degemmis. Cos’è WordNet.
E N D
Text ProcessingWordNet Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: ernandes@dii.unisi.it Fonti di riferimento: “Introduction to WordNet: an on-line lexical database” – George A. Miller “WordNet: a lexical database” – Marco Degemmis
Cos’è WordNet • E’ nato a Princeton (1985) dal gruppo di linguistica e psicolinguistica. • WordNet è un vero e proprio DataBase Relazionale Lessicale. • E’ un ontologia linguistica che rappresenta in modo esplicito la conoscenza linguistica umana. • La conoscenza linguistica formalizzata: • è di senso comune • è domain-independent
A cosa serve • Nella comunità di Text Processing WordNet si usa per aggiungere semantica. • “Semantizzare” un testo vuol dire collegarlo in modo appropriato con il resto della base di conoscenza posseduta: la lingua è un reticolo di collegamenti! • Esempi di utilizzo: • Riadattamento delle tecniche di indicizzazione • Word-sense disambiguation (es: scotch whiskey o nastro adesivo? interpretare cercare di capire o recitare ?)
La filosofia di WordNet • Il concetto di parola viene definito come associazione tra due elementi: • Word-form (forma-parola): stringa di caratteri (lettere) che definiscono l’espressione “fisica” di una parola • Word-meaning (significato-parola): concetto lessicale espresso dalla parola (ogni parola veicola, anche in modo sottinteso, un senso). • Le associazioni tra forme e significati possono essere descritti nella matrice lessicale. • Le word-form mappate su più word-meaning sono definite: polysemous. • Word-form diverse associate alla stessa word-meaning sono definite: synonym.
WordNet: i synset • Una word-meaning viene rappresentata dall’insieme di tutte le word-form che possono essere usate per esprimerla. • Questo insieme di word-form si chiama: synset. (E’ lo strumento che permette di rappresentare una word-meaning) • Le word-form sono mappate tra loro grazie ai synset (e ad altri “puntatori”). • Le word-meaning sono mappate tra loro grazie a relazioni tra synset.
Categorie lessicali e relazioni • Ci sono 4 categorie lessicali (giustificate dalla psicolinguistica): nomi, verbi, aggettivi, avverbi • I nomi sono legati da 2 tipologie di relazioni: • Relazioni lessicali: si instaurano tra word-forms (sia tra forme contenute nello stesso synset sia esterne). • synomymy vs. antonymy (per l’inglese ci sono anche le relazioni morfologiche) • Relazioni semantiche: si instaurano tra word-meaning. • hyponymy vs. hyperonymy • meronymy vs. holonymy • Alcuni aggettivi possono essere in relazione synonimy vs. antonymy • I verbi possiedono la relazione di entailment.
Relazioni Lessicali • Synonymy: due word-form sono sinonime se sostituendo l’una con l’altra non si cambia il valore di verità di una frase. • Le word-form sinonime appaiono nello stesso synset • Antonymy “!”: due word-form sono antonime se il loro significato è opposto. • A opposto di B non implica che A = not(B) !!! • es: alto e basso. • Per l’antonimia esiste un vero puntatore da una word_form a un’altra. Non vale tra synset!
Relazioni semantiche 1 • Hyponymy “~”: relazione “is a” (sottoinsieme). • Un synset A è hyponym di un synset B se A “è del tipo di” B. • Es: associazione hypo organizzazione, carpa hypo pesce, abete hypo albero. • La relazione deve valere per ogni forma all’interno dei synset (CHE SUCCEDE ALTRIMENTI?) • Hyperonymy “@”: relazione inversa dell’hyponymy (famiglia di appartenenza) • Un synset A è hyponym di un synset B se B “è del tipo di” A. • Es: felino hyper gatto, laureato hyper ingegnere
Relazioni semantiche 2 • Meronymy “%”: relazione “part of” (componente di). • Un synset A è meronym di un synset B se A “è un componente di” B. • Es: volante mero auto, argento mero specchio. • Attenzione: i meronym non sono tutti “part of”! (es: argento e specchio) • Holonymy “#”: relazione inversa di meronymy • Un synset A è holonym di un synset B se B “è componente di” A. • Es: aeroplano holo carlinga, computer holo CPU
Relazioni semantiche 3 • La relazione di “part-of” non rappresenta tutte le possibili meronimie! • Tipi di meronimia: • componente-oggetto: ramo / albero, motore / auto, ala / aereo • membro-insieme: albero / foresta, pecora / gregge • parte-massa: fetta / torta • materia-oggetto: sabbia / specchio • caratteristica-attività: pagamento / acquisto • posto-zona: provincia / regione / nazione / continente • fase-processo: adolescenza / crescita
Relazioni semantiche 4 • WordNet costituisce una foresta di alberi tramite la relazione di iperonimia e iponimia. • Ci sono 25 radici: organismi, sostanza, etc… • queste radici stabiliscono 25 diversi campi semantici strutturati ad albero. • vale il principio di ereditarietà • I nomi non sono collegati ad altre categorie lessicali (es: nomi-verbi, nessuna relazione inter-category): • NO: relazioni di attributo (es: canarino giallo) • NO: relazioni di funzionalità (es: canarino volare) • Sì: relazioni di componente (es: canarino ala).
{oggetto} {computer, data_processor, electronic_computer, Information_processing_system} {strumentazione} {apparecchio, arnese, congegno, dispositivo} | = corresponds_to {macchina} ~ ~ ~ ~ ~ @ @ @ @ @ % % # # {monitor, schermo, video} {cpu, unità centrale di elaborazione} Esempio MultiWordNet {artefatto} {elaboratore, computer, cervello_elettronico, calcolatore}
Gli aggettivi • Gli aggettivi attribuiscono una proprietà ad un nome. • Aggettivi descrittivi: associano un valore ad un certo attributo del nome. ES: “sedia grande” stabilisce il valore dell’attributo dimensione(sedia) = grande. • Possiedono la relazione di sinonimia/antonimia (diretta e indiretta). • Aggettivi relazionali: derivano da un nome. Es: “igienico”, “dentale”, “familiare”, etc… • Possiedono un puntatore al nome dal quale derivano. • Non possiedono antonimi!
I verbi • I verbi sono il nucleo semantico di una frase: stabi-liscono una relazione tra i diversi elementi della frase. • Il verbo A “entails” il verbo B, se lo svolgimento del primo implica lo svolgimento del secondo. • ES: russare entails dormire / parlare entails comunicare • Le relazioni tra verbi sono di 2 tipologie: • Entailment “*” • Troponymy • Co-extensiveness • Proper-Inclusion • Backward-Presupposition • Cause “>”
Verbi: le relazioni • L’entailment troponymy è simile all’hyponymy nei nomi: • Il verbo A è troponimo del verbo B se l’attività indicata da A è “del tipo” dell’attività di B. • La troponymy si verifica tra verbi legati da: • “co-extensiveness”, cioè avvengono in modo assolutamente sincrono. • Es: scivolare / muoversi – correre / muoversi – zoppicare / camminare / riposarsi – dormire • La relazione inversa è l’hyperonym • proper-inclusion: il verbo A è incluso nel verbo B se A avviene mentre avviene B (ma non è detto il contrario) • Es: russare / dormire – virare / navigare
Verbi: le relazioni • Backward-presupposition: • Il verbo A presuppone il verbo B se il verificarsi (temporalmente anteriore) di B è necessario affinchè si verifichi di A. • Es: vincere / partecipare – colpire / mirare • Cause “>”: • il verbo A è in relazione di causa con il verbo B se il verificarsi di A (verbo causative) produce come conseguenza B (verbo resultative). • Es: lasciare_in_eredità / possedere – bere / dissetarsi • Cause è trattato come una relazione a parte (non è un entailment).
Un po’ di numeri • Inglese: • # synsets • # word forms • # relazioni • # verbi, nomi, aggettivi, avverbi
Un po’ di numeri • Statistiche sui nomi (nel 2004) • Inglese: • # synsets = ca. 102.000 • # word forms = ca. 125.000 • # relazioni = ca. 125.000 • Italiano: • # synsets: ca. 34000 (collegati all’inglese) • # word forms: ca. 41000