1 / 14

Katrien Depuydt

Track 3: Historische lexicondata. Katrien Depuydt. Doel van track 3. Groot historisch computationeel lexicon, gekoppeld aan de historische woordenboeken Trainingmateriaal voor PoS-taggen en lemmatiseren historisch Nederlands. Het historisch lexicon. Opbouw :

zola
Download Presentation

Katrien Depuydt

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Track 3: Historische lexicondata Katrien Depuydt

  2. Doel van track 3 • Groot historischcomputationeel lexicon, gekoppeldaan de historischewoordenboeken • TrainingmateriaalvoorPoS-taggen en lemmatiserenhistorischNederlands

  3. Het historisch lexicon Opbouw: • Toekenning “modern lemma” en woordsoortaanallewoordvormen • Attestatie-informatiebij de woordvormen • Koppeling met de historischewoordenboeken

  4. Toepassingen van het historisch lexicon • Gebruikbijautomatischetaalkundigeverrijking • Referentiebijinterpretatieteksten • Query-expansie: erkan met modern lemma alszoeksleutelgezochtworden

  5. Toepassingen van het historisch lexicon

  6. Toepassingen van het historisch lexicon

  7. Hoe bouwen we het • WNT-gebaseerd IMPACT lexicon wordt basis • Uitbreiding met gegevensuit ONW, VMNW, MNW • Onderlingekoppeling van de woordenboekenzodat we daadwerkelijkeen lexicon krijgen • Uitbreidinggebaseerd op corpusmateriaal (historisch en modern)

  8. Ingrediëntenbasislexicon • ONW : 9268 ingangen, 12619 definities, 30025 citaten • VMNW: 25946 ingangen, 102202 definities, 194366 citaten • MNW: 74773 ingangen, 144367 definities, 392244 citaten • WNT: 467217 ingangen, 915637 definities, 1665537 citaten • ingangentotaal: 577.204 • betekenissentotaal: 1.174.825 • citatentotaal: 2.282.172

  9. Werkwijze: lexiconinhouduitwoordenboekcitaten

  10. Uitgangspunt: WNT-module GiGaNT

  11. Onderlingekoppelingwoordenboeklemmata

  12. Werkwijze: Corpusgebaseerdeuitbreiding lexicon

  13. Trainingmateriaalvoortaggen en lemmatiseren • Omvang per periode en type materiaal: te bepalen! • Werkwijze: automatischevoorbewerking en correctie in CoBaLT (vgl. Kenter, Erjavec, ŽorgaDulmin & Fiše 2012) • Integratie met basislexicon

  14. Deliverables • D. 1.1 Uitbreiding van het GiGaNT-lexicon met de MNW-basismodule • D. 1.2 Uitbreding van het GiGaNT-lexicon met de VMNW-basismodule • D. 1.3 Uitbreiding van het GiGaNT-lexicon met de ONW-basismodule • D. 1.4 Eventueel uitbreiding van het GiGaNT-lexicon met modern materiaal • D. 1.5 Periodespecifieke sets van spellingvariatieregels die in combinatie met het lexicon als webservice gebruikt moeten worden bij de verrijking. Tool ontwikkeld binnen IMPACT. Onderzoek nodig naar grootte van de periode. • D. 1.6 Gold Standard corpusmateriaal voor het trainen van taggers en lemmatiseerders voor nog nader te definiëren periodes, en ter aanvulling van het lexiconmateriaal van de verschillende periodes.

More Related