1 / 24

Klaar? In!

Klaar? In!. Kant-en-klare bouwstenen voor de CLARIN-infrastructuur. Remco van Veenendaal, 26 mei 2009, kick-off CLARIN-NL. Infrastructuur Data Tools Spelregels. Infrastructuur. Infrastructuur. Bouwblokken uit DAM-LR Metadata (IMDI) Unieke ids (Handle) Authenticatie (LDAP)

kolina
Download Presentation

Klaar? In!

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Klaar? In! Kant-en-klare bouwstenen voor de CLARIN-infrastructuur Remco van Veenendaal, 26 mei 2009, kick-off CLARIN-NL

  2. Infrastructuur Data Tools Spelregels

  3. Infrastructuur

  4. Infrastructuur • Bouwblokken uit DAM-LR • Metadata (IMDI) • Unieke ids (Handle) • Authenticatie (LDAP) • Autorisatie (Shibboleth) • Vertrouwd (PKI-certificaat) • IMDI-portal imdi.inl.nl • Uitbreiding/aanpassing naar CLARIN • Bijv. OAI-PMH (workshop vanochtend)

  5. Infrastructuur • Verbeterde technische infrastructuur (2008) • Bare metal virtualisatie met behulp van VMware ESX • Servers • Red Hat Enterprise Linux • Windows Server 2003, Exchange en ISA Server • MySQL en Microsoft SQL server. • Telewerken via Windows Terminal Server 2008 en RSA tokens • Cisco switches, HP NAS en NetApp SAN • Onsite en offsite backup • Procedures volgens ITIL

  6. Data

  7. Data • Woordenboeken (online via GTB) • Oudnederlands woordenboek (500-1200) • Vroegmiddelnederlands woordenboek (13e eeuw) • Middelnederlands woordenboek (1200-1500; te verschijnen) • Woordenboek der Nederlandsche Taal (1500-1976) • Algemeen Nederlands Woordenboek (eigentijds Nederlands; te verschijnen)

  8. Data • Corpora • Corpus Gesproken Nederlands (900u spraak) • STEVIN • JASMIN-CGN (115u spraak) • AUTONOMATA-namencorpus (5k uitgesproken namen) • D-Coi (54m woorden) • COREA-coreferentiecorpus (150k woorden) • ANW-corpus (100m woorden; te verschijnen) • PAROLE distributable corpus (3m woorden) • CHOREC-spraakcorpus (130u spraak) • …

  9. Data • Lexica • e-Lex (200k lemma’s, 640k woordvormen) • Bilinguale bestanden (Ar, Dn, Ind) • RBN (45k trefwoorden; 90k verbindingen) • RBBN (4k woorden) • Woordenlijst Nederlandse Taal ’05 (100k lemma's volgens spelling ’05) • STEVIN • DuELME (5k mwe)

  10. Data • En… • Sofeer woordenboek • STEVIN • Cornetto (lex-sem database met 92k lemma’s; 118k woordbetekenissen) • Gedigitaliseerde Bijbelteksten • Statenvertaling, Leuvense Bijbel, Lutherse Bijbel, Delftse Bijbel, … • Modern Grammar of Dutch • Incl. tools voor conversie en internetschil

  11. Tools

  12. Tools • Tagger-lemmatiser (online i.s.m. UvT) • Sofeer spellingcontrole • STEVIN • COREA-coreferentiewebservice • DuELME-webapplicatie • AUTONOMATA-g2p-toolkit • IMPACT • OCR & technologie t.b.v. digitalisering gedrukt cult. erfgoed • GTB-software, ANW-software, etc. • Corex (voor CGN en D-Coi; offline en online) • …

  13. Spelregels

  14. Spelregels • Kennisdeling IPR en licenties • Ook met Work Package 7 CLARIN (IPR and Business Models)

  15. Wat is er bijna klaar?

  16. Bijna klaar • STEVIN • DAESO (corpus en software voor semantiek) • DPC (parallelle corpora Nl-En en Nl-Fr) • Lassy (syntactisch geannoteerd tekstcorpus) • Midas (software voor robuuste spraakherkenning) • N-best (benchmark voor Nederlandstalige spraakherkenning) • Autonomata Too (demo POI spraakherkenningservice) • DAISY (software voor samenvattingen) • DISCO (spraakherkenning in CALL voor tweedetaalleerders) • DuOMAn (media analyse - opinie) • PaCo-MT (hybride machinevertaling Nl-En-Nl, Nl-Fr-Nl) • SoNaR (tekstcorpus 500m woorden) • …

  17. Maar …

  18. Uitdaging • Binnen CLARIN en CLARIN-NL zoveel mogelijk resources en tools integreren in de CLARIN-infrastructuur • Toegankelijk via single sign-on • Data zo uniform mogelijk raadpleegbaar en doorzoekbaar • Data uploadbaar en bewerkbaar • Tools zoveel mogelijk modulair en koppelbaar • Workflows zoveel mogelijk herhaalbaar • Afschriften van bewerkingen • Gebruikersvriendelijkheid (!)

  19. Vraag: onderzoek het Poldernederlands Zoek in metadata naar Nederlandse spraakcorpora met orthografische en fonologische transcriptie Zoek binnen de resultaten voorkomens van Poldernederlands (einde = aainde) Voorkomens van Poldernederlands in spraakcorpora

  20. Spraakcorpus Uploaden Metadata Unieke ids Validatie Corpus beschikbaar binnen CLARIN

  21. Teksten Uploaden Metadata Unieke ids Tagger-lemmatiser Frequentietool Tekstcorpus voorzien van diverse automatische annotaties en frequentielijst beschikbaar binnen CLARIN Parser Samenvatter Corefwebservice Validatie

  22. Waar droomt u van?

  23. Conclusie • Veel mooie bouwstenen beschikbaar • Resources, tools, infrastructuur, kennis • Juist ook voor het Nederlands • Uitdaging is deze bruikbaar te integreren in de CLARIN-infrastructuur

  24. Vragen?

More Related