240 likes | 410 Views
Klaar? In!. Kant-en-klare bouwstenen voor de CLARIN-infrastructuur. Remco van Veenendaal, 26 mei 2009, kick-off CLARIN-NL. Infrastructuur Data Tools Spelregels. Infrastructuur. Infrastructuur. Bouwblokken uit DAM-LR Metadata (IMDI) Unieke ids (Handle) Authenticatie (LDAP)
E N D
Klaar? In! Kant-en-klare bouwstenen voor de CLARIN-infrastructuur Remco van Veenendaal, 26 mei 2009, kick-off CLARIN-NL
Infrastructuur Data Tools Spelregels
Infrastructuur • Bouwblokken uit DAM-LR • Metadata (IMDI) • Unieke ids (Handle) • Authenticatie (LDAP) • Autorisatie (Shibboleth) • Vertrouwd (PKI-certificaat) • IMDI-portal imdi.inl.nl • Uitbreiding/aanpassing naar CLARIN • Bijv. OAI-PMH (workshop vanochtend)
Infrastructuur • Verbeterde technische infrastructuur (2008) • Bare metal virtualisatie met behulp van VMware ESX • Servers • Red Hat Enterprise Linux • Windows Server 2003, Exchange en ISA Server • MySQL en Microsoft SQL server. • Telewerken via Windows Terminal Server 2008 en RSA tokens • Cisco switches, HP NAS en NetApp SAN • Onsite en offsite backup • Procedures volgens ITIL
Data • Woordenboeken (online via GTB) • Oudnederlands woordenboek (500-1200) • Vroegmiddelnederlands woordenboek (13e eeuw) • Middelnederlands woordenboek (1200-1500; te verschijnen) • Woordenboek der Nederlandsche Taal (1500-1976) • Algemeen Nederlands Woordenboek (eigentijds Nederlands; te verschijnen)
Data • Corpora • Corpus Gesproken Nederlands (900u spraak) • STEVIN • JASMIN-CGN (115u spraak) • AUTONOMATA-namencorpus (5k uitgesproken namen) • D-Coi (54m woorden) • COREA-coreferentiecorpus (150k woorden) • ANW-corpus (100m woorden; te verschijnen) • PAROLE distributable corpus (3m woorden) • CHOREC-spraakcorpus (130u spraak) • …
Data • Lexica • e-Lex (200k lemma’s, 640k woordvormen) • Bilinguale bestanden (Ar, Dn, Ind) • RBN (45k trefwoorden; 90k verbindingen) • RBBN (4k woorden) • Woordenlijst Nederlandse Taal ’05 (100k lemma's volgens spelling ’05) • STEVIN • DuELME (5k mwe)
Data • En… • Sofeer woordenboek • STEVIN • Cornetto (lex-sem database met 92k lemma’s; 118k woordbetekenissen) • Gedigitaliseerde Bijbelteksten • Statenvertaling, Leuvense Bijbel, Lutherse Bijbel, Delftse Bijbel, … • Modern Grammar of Dutch • Incl. tools voor conversie en internetschil
Tools • Tagger-lemmatiser (online i.s.m. UvT) • Sofeer spellingcontrole • STEVIN • COREA-coreferentiewebservice • DuELME-webapplicatie • AUTONOMATA-g2p-toolkit • IMPACT • OCR & technologie t.b.v. digitalisering gedrukt cult. erfgoed • GTB-software, ANW-software, etc. • Corex (voor CGN en D-Coi; offline en online) • …
Spelregels • Kennisdeling IPR en licenties • Ook met Work Package 7 CLARIN (IPR and Business Models)
Bijna klaar • STEVIN • DAESO (corpus en software voor semantiek) • DPC (parallelle corpora Nl-En en Nl-Fr) • Lassy (syntactisch geannoteerd tekstcorpus) • Midas (software voor robuuste spraakherkenning) • N-best (benchmark voor Nederlandstalige spraakherkenning) • Autonomata Too (demo POI spraakherkenningservice) • DAISY (software voor samenvattingen) • DISCO (spraakherkenning in CALL voor tweedetaalleerders) • DuOMAn (media analyse - opinie) • PaCo-MT (hybride machinevertaling Nl-En-Nl, Nl-Fr-Nl) • SoNaR (tekstcorpus 500m woorden) • …
Uitdaging • Binnen CLARIN en CLARIN-NL zoveel mogelijk resources en tools integreren in de CLARIN-infrastructuur • Toegankelijk via single sign-on • Data zo uniform mogelijk raadpleegbaar en doorzoekbaar • Data uploadbaar en bewerkbaar • Tools zoveel mogelijk modulair en koppelbaar • Workflows zoveel mogelijk herhaalbaar • Afschriften van bewerkingen • Gebruikersvriendelijkheid (!)
Vraag: onderzoek het Poldernederlands Zoek in metadata naar Nederlandse spraakcorpora met orthografische en fonologische transcriptie Zoek binnen de resultaten voorkomens van Poldernederlands (einde = aainde) Voorkomens van Poldernederlands in spraakcorpora
Spraakcorpus Uploaden Metadata Unieke ids Validatie Corpus beschikbaar binnen CLARIN
Teksten Uploaden Metadata Unieke ids Tagger-lemmatiser Frequentietool Tekstcorpus voorzien van diverse automatische annotaties en frequentielijst beschikbaar binnen CLARIN Parser Samenvatter Corefwebservice Validatie
Conclusie • Veel mooie bouwstenen beschikbaar • Resources, tools, infrastructuur, kennis • Juist ook voor het Nederlands • Uitdaging is deze bruikbaar te integreren in de CLARIN-infrastructuur