170 likes | 364 Views
Namn- och termigenkänning i specialiserade texter. Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik. Namn- och termigenkänning. Automatisk sammanfattning plocka ut det väsentliga ur en text Informationsextrahering (IE)
E N D
Namn- och termigenkänning i specialiserade texter Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik
Namn- och termigenkänning • Automatisk sammanfattning • plocka ut det väsentliga ur en text • Informationsextrahering (IE) • hitta och presentera relevant information • Informationsåtkomst (IR) • hitta och presentera relevanta dokument • Frågebesvarande system • Maskinöversättning GU-Språkteknologidagen, 22 april 2005.
Namn och översättning Jag mötte Usama slänga i soptunnan Laden I met Usama bin Laden GU-Språkteknologidagen, 22 april 2005.
Ett eller flera ord som betecknar person, organisation, plats, datum, tid, valuta, procentuttryck. Inte specifikt för en viss domän Vad är ett namn? GU-Språkteknologidagen, 22 april 2005.
Namnigenkänning • Hitta datum-/tid-/måttsuttryck, telefon/e-post,… • Identifiera namn och dela in i relevanta kategorier • Namn på personer, organisationer, platser, … • Hitta domänspecifika termer • namn på biologiska objekt (gener, proteiner,…) • namn på tekniska objekt (maskiner, maskindelar, …) GU-Språkteknologidagen, 22 april 2005.
Problem • Metonymi: mer än bara egentlig betydelse • Polysemi • Maj – person eller månad (maj)? • Namn eller vanligt ord? • Stig Flod • Interpunktion, stavning, mellanrum, formatering • Olika i olika språk och typer av text • “Högskolan i Skövde”, “541 45” Skövde , släpp av mig på Volvo , Volvo satsar i Polen • han har en Volvo produkt plats organisation GU-Språkteknologidagen, 22 april 2005.
Hur kan namn hittas? • Namndatabaser och namnlistor • enkelt, snabbt, språkoberoende, anpassningsbart • samla/underhålla, hanterar inte ambiguitet/varianter • Även titta på ords inre struktur • Förnamn + Ord -> person (Ola Person) • Ord + AB, HB, KB, … -> organisation (Bala AB) GU-Språkteknologidagen, 22 april 2005.
Databaser/namnlistor + ytparsning (forts.) • Dessutom titta på kontexten • Ord + “är {en|ett}” + Adj* + [Plats] Göteborg är en trevlig stad. • Problem med ytparsning • Charles de Gaulle[namn],[flygplats]? • Svenska Britt Ekland gör ny film. • Högskolan i Skövde – Föräldrarna i Bullerbyn GU-Språkteknologidagen, 22 april 2005.
Namnigenkänning (engelsk nyhetstext) English-language The Arab News reported on Monday that Prince refused to answer Nayef reporters questions on the arrest of Hani Abdel-Rahim Hussein al-Sayegh Prince Hani English-language Abdel-Rahim Nayef Arab Hussein News al-Sayegh
Termer • “lexikal enhet huvudsakligen använd inom specifik domän” [Kageura 2002] • Ofta sammansättningar • Ett eller flera ord • Ofta okända (inte i termdatabaser/-listor) GU-Språkteknologidagen, 22 april 2005.
Termer och översättning oil management foothold oljeledningsfäste GU-Språkteknologidagen, 22 april 2005.
Olika benämningar/kortversioner för samma sak Interleukin-1 beta interleukin NF-IL6-beta NF IL Samma benämning på flera olika saker Ingen enhetlig standard på hur termer byggs upp TR2 interferon alpha-D hur termer skrivs namn, term eller vanlig nominalffras? Enkla termer, minst 6 olika skrivsätt EGR-1, EGR 1, Egr-1, Egr 1, egr-1, egr 1 Problem med termer – exempel från biomedicinska texter GU-Språkteknologidagen, 22 april 2005.
Komplexa termer • -- NF Kappa B – alltid stor inledande bokstav och mellanslag • -- NF kappa B -- ingående ord skrivs med liten bokstav • -- NF kappaB -- vissa delar av namnet skrivs ihop • -- NFkappaB -- alla delar skrivs ihop GU-Språkteknologidagen, 22 april 2005.
Länka akronymer till namn på biologiska objekt From previous procedure Is the acronym Mark the words inside Place pointer at the first followed by ’(’ and a Find next acronym No Yes the (…) as Named Entity word in the sentence word beginning whith and link to the acronym L1 No Find the N:th word beginning L1:= First Letter in the in L1 to the left of the acronym Within parentheses and mark that Found? Yes Yes N := Number of Yes parentheses word and the rest of the left occurrences of L1 in the side context as Named Entity acronym and link to the acronym No To next procedure (Named Entity Recognition shown in Figure 4) p16INK4a ( ) There are aslo tumorrelated genes like NF2 neurofibromatose of type 2 . ( ) belongs to a cell cycle regulator group called cyclin dependent kinase inhibitors CDKI .
Tack för mig! GU-Språkteknologidagen, 22 april 2005.
Syntaktiska termbildningsmönster • Språkspecifika bildningsmönster • svenska noun+noun -> franska noun prep noun/verb • Swedish noun-2+noun-1 (modifierare+huvud) -> French noun-1 prep noun-2(huvud + prep + modifierare) • oljekanal # canalisation à huile • bränsleledning # conduite de carburant GU-Språkteknologidagen, 22 april 2005.
Semantiska koncept • Term: lingvistisk representation för ett domänspecifikt koncept • Viktiga semantiska koncept för en domän relevanta termer för domänen • För att kunna översätta en sammansatt term krävs korrekt semantisk tolkning • t.ex. val av preposition • “de” om modifierande substantiv uttrycker vad ngt är avsett för GU-Språkteknologidagen, 22 april 2005.