140 likes | 305 Views
Track 3: Historische lexicondata. Katrien Depuydt. Doel van track 3. Groot historisch computationeel lexicon, gekoppeld aan de historische woordenboeken Trainingmateriaal voor PoS-taggen en lemmatiseren historisch Nederlands. Het historisch lexicon. Opbouw :
E N D
Track 3: Historische lexicondata Katrien Depuydt
Doel van track 3 • Groot historischcomputationeel lexicon, gekoppeldaan de historischewoordenboeken • TrainingmateriaalvoorPoS-taggen en lemmatiserenhistorischNederlands
Het historisch lexicon Opbouw: • Toekenning “modern lemma” en woordsoortaanallewoordvormen • Attestatie-informatiebij de woordvormen • Koppeling met de historischewoordenboeken
Toepassingen van het historisch lexicon • Gebruikbijautomatischetaalkundigeverrijking • Referentiebijinterpretatieteksten • Query-expansie: erkan met modern lemma alszoeksleutelgezochtworden
Hoe bouwen we het • WNT-gebaseerd IMPACT lexicon wordt basis • Uitbreiding met gegevensuit ONW, VMNW, MNW • Onderlingekoppeling van de woordenboekenzodat we daadwerkelijkeen lexicon krijgen • Uitbreidinggebaseerd op corpusmateriaal (historisch en modern)
Ingrediëntenbasislexicon • ONW : 9268 ingangen, 12619 definities, 30025 citaten • VMNW: 25946 ingangen, 102202 definities, 194366 citaten • MNW: 74773 ingangen, 144367 definities, 392244 citaten • WNT: 467217 ingangen, 915637 definities, 1665537 citaten • ingangentotaal: 577.204 • betekenissentotaal: 1.174.825 • citatentotaal: 2.282.172
Trainingmateriaalvoortaggen en lemmatiseren • Omvang per periode en type materiaal: te bepalen! • Werkwijze: automatischevoorbewerking en correctie in CoBaLT (vgl. Kenter, Erjavec, ŽorgaDulmin & Fiše 2012) • Integratie met basislexicon
Deliverables • D. 1.1 Uitbreiding van het GiGaNT-lexicon met de MNW-basismodule • D. 1.2 Uitbreding van het GiGaNT-lexicon met de VMNW-basismodule • D. 1.3 Uitbreiding van het GiGaNT-lexicon met de ONW-basismodule • D. 1.4 Eventueel uitbreiding van het GiGaNT-lexicon met modern materiaal • D. 1.5 Periodespecifieke sets van spellingvariatieregels die in combinatie met het lexicon als webservice gebruikt moeten worden bij de verrijking. Tool ontwikkeld binnen IMPACT. Onderzoek nodig naar grootte van de periode. • D. 1.6 Gold Standard corpusmateriaal voor het trainen van taggers en lemmatiseerders voor nog nader te definiëren periodes, en ter aanvulling van het lexiconmateriaal van de verschillende periodes.