1 / 41

Risorse Computazionali per il Web Semantico

Risorse Computazionali per il Web Semantico. Roberto Navigli. Alcune slide provengono dalla scuola estiva EUROLAN 2003. 19/09/2003. Agenda. Il Web Semantico Lessici computazionali Classificazioni Focus on: SIMPLE FrameNet. Documenti. Agenti Intelligenti. Web Semantico. Ontologie.

linus
Download Presentation

Risorse Computazionali per il Web Semantico

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola estiva EUROLAN 2003 19/09/2003

  2. Agenda • Il Web Semantico • Lessici computazionali • Classificazioni • Focus on: • SIMPLE • FrameNet

  3. Documenti Agenti Intelligenti Web Semantico Ontologie Database Applicazioni Knowledge Markup Il Web Semantico • Obiettivo: Trasformare il WWW in una KB comprensibile alla macchina

  4. L’Onda Semantica

  5. Human Language Technology (HLT) 6 sfide per il WS(Benjamins et al. 2002) • Disponibilità del contenuto • Disponibilità di ontologie • Multilingualità • Scalabilità (organizzazione, memorizzazione, ricerca della conoscenza) • Visualizzazione (≠ ipertesto) • Stabilità dei linguaggi del WS (standardizzazione)

  6. Lessici computazioniali e Human Language Technologies • I lessici computazionali forniscono una conoscenza delle parole comprensibile alla macchina • La rappresentazione è esplicita • Il significato è collegato alla morfologia e alla sintassi della parola • E’ possibile creare collegamenti lessicali multilingua

  7. Lessici computazionali e HLT (2) • Risorse critiche per i sistemi di NLP: • Frame di sottocategorizzazione sintattica per il parsing • Semantic selectional preferences per la riduzione dell’ambiguità • Classi semantiche per WSD, semantic tagging ecc. • Componenti chiave delle HLT: • Lessici monolingua – IE, QA, ecc. • Lessici multilingua – MT, CLIR, ecc.

  8. Ontologie e lessici computazionali Access to Content HLT Semantic Web Ontologies Computational Lexicons ?

  9. Ontologie • “la specifica esplicita di una concettualizzazione” (Gruber, 1993) • “includono il vocabolario, le interconnessioni semantiche e alcune semplici regole di inferenza e logica” (Hendler, 2001)

  10. car, van, truck VEHICLE ARTIFACT OBJECT dog, cat, horse MAMMAL ANIMAL beach BEACH LOCATION ENTITY spiaggia piano concert, rock concert CONCERT EVENT Ontologie “linguistiche” • Sistemi di simboli che rappresentano i concetti codificati da espressioni in linguaggio naturale (unità lessicali, termini, ecc.) • Specificano le classi semantiche raggruppando termini simili a livello semantico • Usano un linguaggio di rappresentazione semantica

  11. Tipologie di lessici computazionali • Monolingua vs multilingua • General purpose vs domain specific • Tipo di contenuto • (Morfo)sintattico • Semantico • Misto • Terminologico

  12. Lessici computazionali sintattici • Le informazioni lessicali sono contenute in frame di sottocategorizzazione (ComLex, PAROLE ecc.) • I frame sintattici includono: • Un certo numero di argomenti • Le rispettive categorie sintattiche (PP, NP, ecc.) • Vincoli lessicali sugli argomenti (es. PP deve avere in testa una preposizione) • Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.) hit [V: (Subj: NP) (Objd: NP)] answer [N: (Obji: PP_to)]

  13. Lessici computazionali semantici • Rappresentano il significato di una parola • Distinguono differenti sensi di una parola • Catturano le inferenze (essere umano  essere animato) • Rappresentano similarità, relatedness ecc. (es. banca, conto, denaro sono concetti relativi alla finanza)

  14. Lessici computazionali semantici • Basati su reti concettuali • WordNet (Miller, Fellbaum et al.) • hierarchy/taxonomy • EuroWordNet (Vossen et al.) • heterarchy • Basati su frame • Mikrokosmos (Nirenburg, Mahesh et al.) • FrameNet (Fillmore et al.) • Ibridi • SIMPLE (Calzolari, Lenci et al.)

  15. PAROLE-SIMPLE(ILC CNR Pisa – Calzolari, Lenci et al.) • 12 lessici di base monolingua costruiti secondo un modello armonizzato • Estesi a livello nazionale • Combinazione di informazioni sintattiche e semantiche • Frame di sottocategorizzazione sintattica • Tipo semantico (“ontology”) • Frame semantici collegati alla sintassi • Ruoli semantici • Selectional preferences • Ecc. • Relazioni semantiche • Pustejovsky’s “quali roles” • Polisemia regolare • Eventi

  16. SemU basic unit to describe the semantic properties of the MU semanticlayer basic unit to describe the syntactic behavior of the MU SynU syntactic layer basic unit to describe the inflectional and derivational morphological properties of the word MU morphological layer Elementi base del lessico monolingua • Ciascun layer individua un’unità base di descrizione lessicale

  17. Greek lexicon Italian lexicon Lexical Templates Ontology Catalan lexicon Language Independent Module Architettura di SIMPLE Italian lexicon PAROLE Syntax SemU Semantic Frame (semantic roles, etc.) Semantic Relations Event Structure Polysemy etc.

  18. SIMPLErelazioni semantiche Top Telic Formal Constitutive Agentive Is_a Is_a_part_of Property Created_by Agentive_cause Indirect_telic Activity ... Contains ... Instrumental Is_the_habit_of Used_for Used_as

  19. SIMPLEuna rete semantica <fabbricare> make Ala(wing) Agentive SemU: 3232 Type: [Part] Part of an airplane Agentive <volare> fly Used_for Is_a_part_of <aeroplano> airplane Isa SemU: 3268 Type: [Part] Part of a building Isa <parte> part Used_for Isa SemU: D358 Type: [Body_part] Organ of birds for flying <edificio> building Is_a_part_of Is_a_part_of <giocatore> player SemU: 3467 Type: [Role] Role in football <uccello> bird Isa

  20. SIMPLEFrame semantici il difensore di Berlusconi (Berlusconi's defender) il difensore del Milan (the Milan fullback) Difensore N agent nominalization SemU: 4125 Type: [Role] Defender PREDDifendere#1 <Arg1>, <Arg2> SemU: 3526 Type: [Role] Fullback <squadra> team Is_a_member_of

  21. Frame disambiguation • L’identificazione del contributo semantico di un NP richiede l’accesso alla rappresentazione del contenuto semantico delle teste nominali • La “struttura semantica” della testa nominale determina la relazione semantica espressa da un PP che modifica l’NP: • La pagina del libro (part-of) • Il difensore del Milan (member-of) • Il suonatore di liuto (telic) • Il tavolo di legno (made-of)

  22. SIMPLEesempi semantic relations ontology semantic frame

  23. Lexical acquisition bottleneck • Il lessico italiano di SIMPLE codifica circa 6000 concetti • Disomogeneo • Incompleto • Non è disponibile • L’utilizzo non è consigliato dagli stessi autori (ILC – CNR di Pisa) • Acquisizione automatica della conoscenza lessicale • FrameNet GOSSIP! GOSSIP! GOSSIP!

  24. FrameNet(ICSI, U-Colorado – Fillmore, Narayanan, Jurafsky et al.) • Fase I (1997-2000) • Basi concettuali, impiego di strumenti preesistenti, Perl • Fase II (2000-2003) • Scalabilità, utilizzo di DB SQL, strumenti scritti in Java • Applicazioni pilota

  25. I frame e la comprensione umana • Ipotesi: la gente comprende nuovi fatti effettuando operazioni mentali sulla base di ciò che già conosce. Tale conoscenza è descrivibile in termini di pacchetti di informazione chiamati frame • FrameNet può fornire tale conoscenza • Le rappresentazioni di FrameNet fanno da complemento a ontologie e lessici

  26. In cosa consiste FrameNet • Caratterizzazione dei frame • Individuazione delle parole che riguardano un frame • Sviluppo di una terminologia descrittiva • Estrazione di frasi di esempio • Annotazione (manuale) degli esempi selezionati • Descrizione del frame

  27. Il processo • Le frasi contenenti una certa parola sono estratte dal corpus in esame e rese disponibili per l’annotazione • Gli studenti (!) selezionano le espressioni che identificano i ruoli semantici delle frasi e li etichettano con il nome dei ruoli del frame • Informazioni grammaticali sulle frasi etichettate sono estratte automaticamente

  28. Alcune annotazioni(to appoint – nominare)

  29. Lista parziale di parole per un frame • Verbi: pay, spend, cost, buy, sell, charge • Nomi: cost, price, payment • Adjectives: expensive, cheap

  30. Significato e sintassi • I vari verbi che evocano un frame introducono gli elementi del frame in modi differenti • Informazioni analoghe possono essere espresse in posti diversi della frase secondo il verbo utilizzato

  31. Sheboughtsome carrotsfrom the greengrocerfor a dollar. Customer Vendor from BUY for Goods Money

  32. Shepaida dollarto the greengrocerfor some carrots. Customer Vendor to PAY for Goods Money

  33. Shepaidthe greengrocera dollarfor the carrots. Customer Vendor PAY for Goods Money

  34. Shespenta dollaron the carrots. Customer Vendor SPEND on Goods Money

  35. The greengrocer sold some carrotsto herfor a dollar. Customer Vendor to SELL for Goods Money

  36. The greengrocersoldhersome carrotsfor a dollar. Customer Vendor SELL for Goods Money

  37. The greengrocerchargeda dollarfor a bunch of carrots. Customer Vendor CHARGE for Goods Money

  38. The greengrocerchargedhera dollarfor the carrots. Customer Vendor CHARGE for Goods Money

  39. A bunch of carrotscostsa dollar. Customer Vendor COST Goods Money

  40. A bunch of carrotscosthera dollar. Customer Vendor COST Goods Money

  41. FrameNet Fact Sheet • 500 frame • 7700 unità lessicali • 130.000 frasi annotate • Interconnessioni tra i frame (ereditarietà, sottoframe, “using”) • Potrebbero essere mappate su relazioni ontologiche • Multilingual FrameNets (spagnolo, tedesco, giapponese) • Disponibile!

More Related