480 likes | 712 Views
En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning. Bolette Sandford Pedersen Center for Sprogteknologi Rosendal 6. september 2002. Indhold. 1. lektion Introduktion til SIMPLE SIMPLE-øvelse 2. lektion Indholdsbaseret søgning (OntoQuery).
E N D
En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning Bolette Sandford Pedersen Center for Sprogteknologi Rosendal 6. september 2002
Indhold 1. lektion • Introduktion til SIMPLE • SIMPLE-øvelse 2. lektion • Indholdsbaseret søgning (OntoQuery)
Hvorfor skal der være semantik i en sprogteknologisk ordbog ? Niveau 1: f.eks. maskinoversættelse kræver at maskinen kan entydiggøre ord som kan betyde flere ting: Kosten var velsmagende tiden går
Semantik Niveau 2: F.eks. avanceret informationssøgning kræver at maskinen i en vis forstand kan fortolke ord: Søgeudtryk: støtte til solvarme Finde tekster med: tilskud til energibesparende foranstaltning støtte og tilskud er synonymer solvarme erunderbegreb til energibesparende foranstaltning
Semantik Niveau 3: ’Fuld’ maskinel fortolkning til programmer som skal ’forstå’ naturligt sprog: Hans dansede med sin borddame For at maskinen skal kunne ’identificere’ hvem der refereres til med ordet borddame - skal den vide at det er den kvinde han sad ved siden af under middagen.
Hvor står semantikken i almindelige ordbøger? NUDANSK ORDBOG: Puslespil ORDKLASSE: subst.BØJNING: puslespillet, plur. puslespil, puslespilleneBETYDNING: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et heleEKSEMPEL: lægge puslespil på 2.000 brikkerSAMMENSÆTNING: puslespilsbrik
Om SIMPLE • SIMPLE-projektet var et EU-projekt som blev afsluttet i 2000 • Formål: at udarbejde harmoniserede semantiske ordbøger for 12 EU sprog (Semantic Information for Multifunctional, Plurilingual Lexica) • 10.000 betydninger for hvert sprog • på basis af en fælles ontologi, SIMPLE-ontologien (Lenci et al. 2001)
SIMPLE-Ontologien SIMPLE-ontologien udgør det semantiske typesystem som er det begrebsmæssige udgangspunkt for alle de 12 ordbøger • Qualia Structure (cf. Pustejovsky, 1995) • WordNets klassifikation (cf. Miller and Fellbaum, 1991) http://www.cogsci.princeton.edu/cgi-bin/webwn1.7.1 • EuroWordNets klassifikation (cf. Vossen et al, 1998) • Levins verbalklassifikation (1993)
Ords interne kompleksitet Grundlæggende antagelse i SIMPLE: ord varierer mht. intern kompleksitet. Dette kan forstås på to måder: • hvor mange betydningsdimensioner associerer vi til et ord ? (en lækker kage, en blommekage, en nem kage) • hvor mange betydninger har ordet ? universitet_1 (building), universitet_2 (human group)
Mange betydningsdimensioner kan udtrykkes vha. Qualia Structure • Qualia Structure udgør en repræsentationsmodel for den kompositionelle del af ords betydning idet den kan udtrykke • forskellige kompleksitetsgrader i ord • og danne basis for inferensregler (e.g. en nem kage => nem at tilberede/bage en lækker kage => lækker at spise)
De fire qualia-roller • formal role: typisk ‘is_a’-relation • agentive role: oprindelse, typisk ‘created_by’-relation • telic role: formål, typisk ‘used_for’-relation • constitutive role: intern struktur, typisk ‘part_of’-relation
Simple typer • basiskategorier som er monodimensionelle • som kan beskrives alene ved hjælp af en flad taksonomi • organiseret alene ud fra hyponymirelationer eksempler: himmel, bakke, blomst, søster (typisk natural kinds, Cruse ‘93)
Flerdimensionelle typer • flerdimensionelle typer har mere end en overtype • MEN unified types bygger på en simpel type og får tilføjet en agentiv eller telisk dimension (f.eks. cykel, læge, pandekage) • ortogonal nedarvning beriger den traditionelle nedarvning ved hjælp af semantiske relationer (indarbejdet i Qualia Structure)
Komplekse typer • i Pustejovsky 1995 anvendes såkaldte ‘complex types’ - komplekse typer - til at angive underspecificerede betydninger med systematisk polysemi (også kaldet dotted types eg. universitet som building.humangroup) • i SIMPLE angives komplekse typer ved at tillade at to semantiske typer er forbundne via trækket complex
Systematisk polysemi klasser af systematisk polysemi: • beholder/kvantitet ‘kop’ • dyr/mad ‘lam’ • genstand/åbning ‘dør’ • handling/resultat ‘bygning’ • sted/folk ‘Danmark’
puslespil som flerdimensionel type et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et heleoverbegrebdele formåloprindelse spil træbrikkersamles til et heleudskære papbrikker puslespil
En ordbogsindgang med semantik Semantic Unit puslespil Definition: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele (NDO) Corpus example:nu var hun næsten ved at være færdig med det puslespil, hun var begyndt på lige efter påske Ontological type:Artifact Unification Path Concrete_Entity|Agentive|Telic Domain: General Formal quale: is_a = spil Agentive quale: created_by = udskære Telic quale: used_for = samle til et hele Constitutive quale:has_as_parts=træbrikker OR papbrikker
Semantisk verbalbeskrivelse i SIMPLE-modellen De 59 semantiske verbalklasser i SIMPLE er et kompromis imellem: • Beth Levins 234 verbalklasser • Wordnets 15 klasser 3 kriterier er blevet anvendt: • event type (tilstand, proces, transition) • argumentstruktur (aritet og type) • kausativitet vs. dekausativitet (bolden ruller/jeg ruller bolden)
Verbalontologien Phenomenon (regnvejr, influenza) Aspectual (begynde, afslutte) State (udgøre, være) Event Act (handle, tale, løbe) Psychological Event (tænke, vide) Change (tiltage, dø) Cause Change (dræbe, flytte)
Dilemmaer mht. verbernes kodnning Problematiske konstruktionstyper i dansk: • partikelverber (gå ud, vaske op, slå op, stå af (bussen)) • ægte refleksive verber (undre sig, brokke sig, korse dig) • inkorporering(gå til bageren, gå til klaver, spise fisk)
Problemer ved informationssøgning - kort fortalt for mange informationer: • ord kan betyde flere ting; de er flertydige • ca. 23 % af alle ord der søges på er flertydige; • ca. 10% af alle navne der søges på er flertydige) Torkildsen, Holen og Johannessen 2000 for få informationer: • vi har flere ord for de samme begreber, synonymer og synonyme udtryk
Problemer ved informationssøgning • vi får for mange informationer som ikke er prioriteret godt nok og som derfor er vanskelige at holde rede på idet meget af det er irrelevant • vi får for få informationer i forhold til hvad der rent faktisk er tilgængeligt på nettet fordi vi ikke har ’ramt’ den rigtige formulering i forespørgslen begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden
Sproglig viden til informationssøgning sproglige problemer på basisniveau • vi har mere eller mindre den sproglige viden - også for dansk og i en formaliseret version - men den er ikke indarbejdet i alle søgesystemer sproglige problemer der kræver mere indholdsmæssig viden • de sproglige ressourcer skal udvikles problem: nye tekster - nyt indhold
Sproglige problemer på basisniveau • ordene kan antage flere former orlovsordninger, orlovsordningen, orlovsordningerne reduktion til grundformer (lemmatisering) kan afhjælpe dette problem • simpel flertydighed: ordene kan tilhøre forskellige ordklasser klager/N;U over/PRÆP; ADV læger/N;U syntaktisk tagger kan afhjælpe problemet efter tagging: klager/N over/PRÆP læger/N
Sproglige problemer der kræver mere indholdsmæssig viden flertydighed inden for samme ordklasse vitaminrig kost/ fejekost - mad flere indholdsmæssige forhold kan afhjælpe flertydighedsproblemet: • domæneviden hvis vi kender domænet, kan vi vælge • viden om ordenes interne struktur hvis vi ved noget om kosts nærende funktioner, kan vi vælge • kost og sygdomme • klager/N;U over/PRÆP; ADV læger/N;U • syntaktisk tagger kan afhjælpe problemet • efter tagging: klager/N over/PRÆP læger/N • begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden • sproglige problemer på basisniveau • sproglige problemer der kræver indholdsmæssig viden
Sproglige problemer der kræver mere indholdsmæssig viden synonymi - flere betegnelser for det samme kan betyde at vi får for få søgeresultater forældreorlov - børnepasningsorlov støtte - tilskud / computer - datamat / diabetes - sukkersyge anvendelse af synonymiordbog kan afhjælpe problemet
Ontologisk viden • underbegreber kan være relevante vitaminer har_som_underbegreber k-vitamin, c-vitamin, d-vitamin,thiamin • overbegreber kan være relevante solvarme har_som_overbegreb energibevarende foranstaltning
Ontologisk viden er central ontologisk viden kan danne baggrund for en semantisk beregning sådan at søgeresultater prioriteres på basis af sprogligt indhold den semantiske afstand mellem søgeudtryk og søgeresultat beregnes f.eks. ud fra hvor mange ’niveauer’ man skal ned i en given ontologi for at finde resultatet: søgeudtryk: sygdom tekst1: sygdom tekst2: kræft tekst3: lungekræft
Forskningsområde: hvor vigtig er relationerne ml. ordene? Traditionelle søgemaskiner ser på nærhed ml. søgeordene men ikke på relationerne forespørgsel: hvilke sygdomme har at gøre med mangel på vitamin i kosten ? googlesvar: alkoholforbrug og mangel på fysisk aktivitet ... hvordan kosten er sammensat kilde: Paggio, Pedersen & Haltrup (forthcoming)
SIMPLEs anvendelse i indholdsbaseret søgning OntoQuery: Ontology-based Querying Et dansk samarbejdsprojekt 1999-2004 Partnere: Roskilde Universitet Danmarks Tekniske Universitet Handelshøjskolen i København Syddansk Universitet Center for Sprogteknologi
Formålet med OntoQuery- projektet At udvikle en metode til indholdsbaseret søgning • at gå videre end mønstergenkendelse ved at lave en ‘rå’ lingvistisk analyse på baggrund af en ontologi • der produceres en ‘rå’ semantisk analyse af tekst og af forespørgsel • søgning foregår ved at sammenligne beskrivelser of finde det bedste ‘match’ mellem forespørgsel og tekst på basis af ontologien dels på begreberne alene, dels på relationerne mellem begreberne
SystemOverview Text fragment Query Description Generator Lexicons Ontology Linguistic Analysis Mapping to description Text database OntoLog descriptions Query Engine
Eksempel fra SIMPLE-ontologien kanin - 3 betydninger: 1. animal, 2. meat, 3. material kanin kød mad Substance Food Food Telic Top Concrete entity Entity Top
Ernæringsontologien • lavet på baggrund af Den Store Danske Encyklopædi • enkelte knuder er etableret for at strukturere ontologien,f.eks. stof-i-krop • ernæringsontologien er organiseret under 2 forskellige knuder i SIMPLE-ontologien
Eksempel fra ernæringsontologien A-vitamin fedtopløseligt vitamin vitamin mikronæringsstof næringsstof Natural Substance Substance Concrete entity Entity Top
Anvendelse af ontologien:analyse af tekst og forespørgsler Tekster og forespørgsler (NP’er) analyseres mangel på vitaminer i kosten (mangel x (WRT: vitamin) x (LOC: diet))
De lingvistiske analysekomponenter Der bygges begrebsrepræsentationer på basis af: • POS-tagging • NP-genkendelse • semantisk parsing
Lingvistiske komponenter Hvilke sygdomme har at gøre med mangel på vitaminer i kosten? POS-Tagger hvilke/PRON sygdomme/N har/V_PRES at /UNIK gøre/V_INF med/PRÆP mangel/N på/PRÆP vitaminer/N i/PRÆP kosten/N ?/TEGN NP recogniser [NP hvilke sygdomme]har at gøre med [NP mangel på vitaminer i kosten]. NP parser ... NP Sem: CONCEPTmangel RELwrtRELloc ARGvitamin ARG kost N PP P NP Mapping to Descriptions N PP (mangel x (WRT: vitamin) x (LOC: kost))
OntoQuerys hypotese: Hvis vi kan identificere den semantiske relation der holder mellem 2 begreber kan vi prioritere gode hits bedre og vi kan genkende det samme eller lignende begreber i forskellig forklædning, f.eks. overvægtige børn, børn med overvægt, fede børn børn med fedmeproblemer, børn der har fedmeproblemer
Videre brug af SIMPLE til beregning af relationer en temporær relation TMP tager ofte SIMPLE-typen TIME (og så fremdeles): behandling udover 6 måneder børn i 1-2-årsalderen mangelfuld ernæring gennem længere tid
Videre brug af SIMPLE til beregning af relationer Anvendelse af selektionsrestriktioner behandling af børn med overvægt • ønsket beskrivelse: (behandling x (PTN:(børn) x (CHR: overvægt))) • uønsket beskrivelse (behandling x (PTN:(børn)) x (BMO: overvægt))
Anvendelse af Qualia Structure depoter af vitaminer (depots of vitamins) • ønsket beskrivelse: (depot x(CON: vitaminer)) telisk role for depot er at det kan indeholde noget
Entydiggørelse: Qualia Structure • kanin_SUBSTANCE_FOOD formal kød (meat) telic føde (food) agentive tilberedning (cooking)
Agentive role i ‘mad’-læsning Luk maven med kødnåle og steg <kaninen> i ovnen ca. 11/2 time 2 timer Bag <kaninen> i ovnen og hæld lagen over kødet med jævne mellemrum Hak indmaden af <kaninen> og bland det med det hakkede kalvekød