1 / 11

Dorte Haltrup Hansen: Sprogteknologiske værktøjer til tekst- og informationshåndtering

Dorte Haltrup Hansen: Sprogteknologiske værktøjer til tekst- og informationshåndtering. Værktøjer. Tokeniser POS-tagger Navnegenkender Lemmatiser NP-genkender. Tokenisering. Problem: Hvordan afgrænser man et ord/leksem? hest fx 47 i forbindelse med som at kaste vand på en gås

berget
Download Presentation

Dorte Haltrup Hansen: Sprogteknologiske værktøjer til tekst- og informationshåndtering

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dorte Haltrup Hansen:Sprogteknologiske værktøjer til tekst- og informationshåndtering

  2. Værktøjer • Tokeniser • POS-tagger • Navnegenkender • Lemmatiser • NP-genkender

  3. Tokenisering Problem: Hvordan afgrænser man et ord/leksem? • hest • fx • 47 • i forbindelse med • som at kaste vand på en gås • røntgen billede

  4. Delimitors: H.C. Andersen-fejring Formatering: røntgen billede

  5. POS-tagging Opgaver: • For kendte ord: slå ordet op i ordlister og tilskrive ordklassen • For tvetydige ord: disambiguere/entydiggøre homografer fx skade (sb.) og skade (vb.) • For ukendte ord: beregne ordklassen fx kursusdeltageroplæg

  6. Træningskorpus • Træning under supervision • Træning på rå tekst • 250.000 til 1.000.000 ord Nøjagtigheden afhænger af typer af tags. Den danske version af Brill-taggeren har 49 forskellige tags. Trænede værktøjer er aldrig bedre end det materiale, der er brugt som træningkorpus.

  7. Navnegenkendelse • Personer • Organisationer • Steder Kriterier: ord med stort? Anonymisering

  8. Lemmatisering Lemmatisering: finder grundformen af ordet udfordring: homografer fx for (præp.) og for (vb.) vs. Stemming: skærer frekvente endelser væk, men tager ikke højde for allomorfer fx gafl-er

  9. Eksempler: • festgudstjenestene/N_DEF_PLU 1 festgudstjenest • sejrshymne/N_DEF_PLU 1 sejrshym • i_det_hele_taget/ADV 10 i_det_hele_taget • udlandskirke/ADJ 1 udlandskirk • manges/ADJ_GEN 1 manges • sabbatshvile/ADJ 1 sabbatshvil • livsrytme/ADJ 1 livsrytm • indsættelsestale/ADJ 1 indsættelsestal • mærlelige/ADJ 1 mærlelig • ikke.Dine/ADJ 1 ikke.din

  10. NP-genkendelse • Essentiel for grammatisk analyse fx Vi hørte [meteorologens præsentation af [vejret], vi kan vente os de næste dage]]]. • Varianter fx [femdøgnsudsigt]

  11. Projekter • OntoQuery • MOSES • VID

More Related