120 likes | 263 Views
Università degli Studi di Modena e Reggio Emilia. Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento. Information Extraction: il rapporto GATE – Named Entity Recognition. Relatore: Candidato: Prof. Sonia Bergamaschi Simone Ferrari.
E N D
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Information Extraction: il rapporto GATE – Named Entity Recognition Relatore: Candidato: Prof. Sonia Bergamaschi Simone Ferrari Anno Accademico 2005 – 2006
Iter seguito • Differenziazione Information Retrievial – Information Extraction • Discussione Information Extraction • Named Entity Recognition • Descrizione GATE • ANNIE • Applicazione a siti web di GATE per NER • Valutazione prestazioni • Conclusioni e sviluppi futuri
Information Retrievial vs Information Extraction Sistema IR Input: insieme di documenti (corpus) + query (key words) Output: documenti rilevanti + score Sistema IE Input: insieme di documenti (corpus) + query (key words) Output: frammenti dei documenti con informazioni poco ambigue in formato prestabilito • Vantaggi IE: • minor tempo d’analisi • formato dell’output • Svantaggi IE: • difficoltà d’implementazione • in alcuni casi meno accurato rispetto alla lettura umana
Information Extraction Jim bought 300 shares of Acme Corp. in 2006 • Concetto nato all’interno delle MUCs • In MUC (1998) • - Named Entity recognition (NE) • - Coreference resolution (CO) • - Template Element construction (TE) • - Template Relation construction (TR) • - Scenario Template production (ST) • Successore di MUC : ACE (1999) <ENAMEX TYPE="PERSON">Jim</ENAMEX> bought <NUMEX TYPE="QUANTITY">300</NUMEX> shares of <ENAMEX TYPE="ORGANIZATION">Acme Corp.</ENAMEX> in <TIMEX TYPE="DATE">2006</TIMEX>
GATE • a General Architecture for Text Engineering • Hamish Cunningham (University of Sheffield) • versione 1 nel 1996; versione 3.1 su http://gate.ac.uk/download/ • algoritmi + dati + GUI = applicazioni • Language Resources (LRs) • Processing Resources (PRs) • Visual Resources (VRs) = CREOLE a Collection of REusable Objects for Language Engineering
ANNIE • A Nearly New IE system • contiene al suo interno le PRs • Tokeniser • Gazetteer • Sentence Splitter • POS Tagger • Semantic Tagger • OrthoMatcher (NameMatcher)
Attività sperimentale • NER utilizzando GATE applicato a siti WISDOM • (http://dbgroup.unimo.it/wisdom/) • output • codice • prestazioni • modifiche e prestazioni2
Booking.com Input Output
XML Booking.com • Attività preliminare del Tokeniser • Creazione dell’annotation set di default da parte del Tokeniser − <Annotation Id="2567" Type="Location" StartNode="450" EndNode="456"> − <Feature> <Name className="java.lang.String">rule1</Name> <Value className="java.lang.String">Location1</Value> </Feature> − <Feature> <Name className="java.lang.String">rule2</Name> <Value className="java.lang.String">LocFinal</Value> </Feature> − <Feature> <Name className="java.lang.String">locType</Name> <Value className="java.lang.String">city</Value> </Feature> − <Feature> <Name className="java.lang.String">matches</Name> <Value className="java.util.ArrayList" itemClassName="java.lang.Integer">2567;2568;2686</Value> </Feature> </Annotation> − <TextWithNodes> <Node id="0"/> BOOKING <Node id="7"/> . <Node id="8"/> COM <Node id="11"/> <Node id="12"/> online <Node id="18"/> <Node id="19"/> hotel <Node id="24"/> <Node id="25"/> reservations <Node id="37"/> (…) </TextWithNodes> − <Annotation Id="2317" Type="Lookup" StartNode="450" EndNode="456"> − <Feature> <Name className="java.lang.String">majorType</Name> <Value className="java.lang.String">location</Value> </Feature> − <Feature> <Name className="java.lang.String">minorType</Name> <Value className="java.lang.String">city</Value> </Feature> </Annotation> <Node id="450"/> Berlin <Node id="456"/> Serialized Nodes Berlin→city.lst:location:city
Valutazione delle prestazioni Tramite l’AnnotationDiff Tool di GATE • consente di confrontare due set di annotazioni • Confronto prestazioni di GATE nell’IE: • inglese vs italiano • inglese referenziato vs inglese • italiano referenziato vs italiano
Inglese referenziato vs Inglese Default Dopo Modifiche: Norwalk, Loulè→city.lst; Tuscany→region.lst; PT →country_cap.lst 48,84% 58,14% Miss rimanenti: mancanza di regole adeguate
Conclusioni e sviluppi futuri • Sistema GATE fornito in modalità “primitiva”: • necessità di un raffinamento (Gazetteer, POS e Semantic Tagger) • Training pesante (centinaia di testi, mesi) • Sviluppo multilingua recente (molto da implementare) • PRs sempre più intelligenti • → background working