180 likes | 281 Views
CLARIN/D-SPIN Technische Infrastruktur. Peter Wittenburg. Wer bin ich ?. komme vom MPI für Psycholinguistik dort 30 Jahre verantwortlich für Methoden , Technologie , Infrastruktur , Archivierung , etc seit 2000 involviert in DOBES was ein tolles Projekt war und ist
E N D
CLARIN/D-SPIN TechnischeInfrastruktur Peter Wittenburg
Wer bin ich? • kommevom MPI fürPsycholinguistik • dort 30 JahreverantwortlichfürMethoden, Technologie, Infrastruktur, Archivierung, etc • seit 2000 involviert in DOBES was eintollesProjekt war und ist • Mitglied des MPG IT Ausschusses - kenne die Welt der Physiker, Chemiker etc • seit 2000 Teilnahme an EU Standardisierungs- und Infrastruktur-Projekten • seit 2008 aktivein CLARIN
Was sollicherzählen? • MeineAufgabeistes, IhneneinenkurzenÜberblicküber die technischeInfrastrukturzugeben, an der CLARIN arbeitet und die Ihnen (wahrscheinlichnur den etwasJüngeren) bei der wissenschaftlichenArbeithelfenkönnte. • NatürlichwerdensiemitArgwohnaufpassen, was ich sage, dennwirwissenalle: esgibtnichtsumsonst. Was ist also der Preis, was ist der Gewinn und wannistereinlösbar? • IchbitteSieinsofern um Nachsicht, alsdassicheinigesnursehrverkürztoder gar nichterwähnenkann. N Minuten verlustbehaftete Kompression CLARIN/D-SPIN Infrastruktur
Die Aufgabe • Die entscheidendeFrageist, ob esWegegibt, die enormeFragmentierung in unsererDisziplinzuüberwinden - die Verschiedenartigkeit der Formate, der BeschreibunglinguistischerPhänomene, der unterschiedlichenSichtbarkeit und Zugriffsgestaltung etc. • und daalleinteressiertenWissenschaftler - vorallem in den Humanities - europaweit die gleichenProblemehaben, machtes Sinn, grenzenübergreifendzudenken und zuhandeln • CLARIN isteuropäisch und D-SPIN ist die deutsche Gruppe. • EinpaarBeispielesindbesseralsabstrakteErklärungen.
Schon mal versucht? • HabenSieschon mal versucht, einen Text miteiner Audio-Aufnahmeautomatischabzugleichen? Es geht! Aber ... and you follow then the sign Kleef that’s the Oranje Single yeah then you follow the sign Kleef
Schon mal gemacht? • HabenSieschon mal versucht, einLexikonderartaufzubereiten, dasssiees in einemProgrammeinsetzen und mitanderenDatenzusammenbringenkönnen? • Am MPI und imDOBESProgramm hat jede(r) einanderesLexikon (Struktur und Attribute, oftmalsist die Strukturauchnurim Kopf). • EinFallbeispieleinesrespektablenLinguisten: • Strukturbeschreibungistvorhanden, abernichtumgesetzt. • ca. einhalbesJahrDiskussionen per Email etc • letztlichHistogrammmit ca. 200 verschiedenenStrukturen • davon 12 ungewollte und nichtkorrekteStrukturen • dannnatürlich script-basierte und manuelleKorrekturen • 3 teurePersonen und 1 Stud.Ass. wareninvolviert Es geht! Aber ...
Schon mal durchlebt? • HabenSieschon mal ca. 5000 Ressourcen (verschiedeneDatentypen, verschiedeneVersionen, Ausschnitte, etc) auf Ihrem Notebook managenmüssen? • ImDOBESProjekt (DokumentationBedrohterSprachen) zumindesteinKollege, der dieseSchallmauerdurchbrochen hat, anderesinddichtdran. • WieandersalsmittelsMetadatenBeschreibungenwerdenSie den Überblickbehalten? • WennschonMetadatendanndochsolche, die andereauchdirektverwendenkönnen. • Ichweiss: Metadatenerzeugen und verwaltenistnichts, was man liebt, aberwieanderswollensie die Wiederverwendbarkeit der Datengarantieren - sogarmanchmalIhrereigenen. Es geht! Aber ...
Sind das überhauptThemen? • Sind Sichtbarkeit, AustauschbarkeitüberhauptThemen? • in vielenFällen (noch) nicht • Beispieleaus der SichteinesNicht-Linguisten: • in DOBESprogrammatisch: die Dokumentationistnichtnurfür den Linguistenselbst - sondernfürandere und mehrereGenerationen, derenWünschewirnichteinmalkennen. • Lexika, Wordnets etc speichernWissenfürviele und werdenimmerSchlüsselfür die Bedeutungserschließungsein. • Programme sindteuer und solltendaherfürvieleeinfachverwendbarsein. • etc etc
Zeit des Umdenkens • scheinen in der LRTGemeinde in einemProzess des Umdenkenszusein • einTeil der Linguistenagierenals “Service Anbieter” fürandere • alleWissenschafts-DisziplinenverwendenSprachressourceninsbesondere die Geisteswissenschaften • wirsolltensie in die Lageversetzen, Ressourcen und Tools selbsttätigzuverwenden und miteinanderzukombinieren • die meistenhabenkeinen Stab von Mitarbeitern, die clevereKonversionen etc ausführenkönnen • eine CLARIN/D-SPIN Infrastruktur muss hieransetzen: Schaffeneinerintegrierten und interoperablenDomäne von Sprachressourcen (Daten und Tools)
Pfeiler der Integration • TypischesZiel: SchaffeneinervirtuellenKollektion und das SuchennacheinfachenMustern • Ingredienten: • persistente “Repositorien” mitstabilenDiensten und ein “offener” Archivierungs Service • persistente und eindeutigeIdentifikatorenfüralleRessourcen und Services damitalleVerweisestabilbleiben • gemeinsameMetadaten-Domänebasierend auf einem (flexiblen) Standard und Standards für den Austausch • Single Identity / Single Sign-On Prinzipbasierend auf Vertrauen • und natürlicheineclevereSuchmaschinebzw. Statistik-Tools, wobeinatürlichimmer die Frageist, ob Datenoder Code transferiertwerdendürfen
Pfeiler der Integration • Ingredienten: • persistente “Repositorien/Archive” CLARIN hat Kriterienfürsolche “neuen Service-Zentren” etabliert in D habensichDFKI, IDS, U Tüb, BBAW, U Lei, MPI gemeldet eswirdeinQualitätscheckgeben (Data Seal of Approval) eswird Geld kosten • persistente und eindeutigeIdentifikatorenfüralleRessourcen und Services CLARIN bieteteinen Service an (basierend auf einer MPG Entscheidung und RedundanzdurchandereeuropäischeZentren) fürjedes Object und jede Version etc kanneine URL und verschiedeneInformationenerzeugtwerden, und zurückkommteine PID, die man in die Metadateneinträgt die kanndannjederverwenden und siewerdenaufgelöst was heißt persistent: MPG stehtdahinter - reicht das?
Pfeiler der Integration • Ingredienten: • gemeinsameMetadaten-Domäne • gegenwärtigeSichtbarkeitnichtausreichend - gibtkeinenechtenKatalog, keineSystematik und jedeMenge “Gemecker” • Erfahrungen von 10 Jahren in der Community mit IMDI, OLAC und TEI • weg von fixed Schema hinzuflexiblemComponenten Model • semantischeInteroperabilitätdurch die Verwendung von registrierten “Konzepten” ISOcat (ISO 12620), TEI, DC • dh. jederkannseineigenes Schema zusammenstellen • momentanarbeiten “Experten” an den Element-Definitionen • und Entwickler die an der Infrastrukturarbeiten (MPI, DFKI, IDS) • wirsorgendafür, dassalle IMDI/OLAC Investitionengewahrtbleiben • jederkannmitmachen und prüfen, ob allesdrinist (zB. Zeichensprache) • CMDI wirdein Standard in CLARIN ! • arbeiten an einem “Virtual Language Observatory”
Pfeiler der Integration • Ingredienten: • Single Identity / Single Sign-On Prinzip • mitIhrer “Heimat” Identitätmüssensie an all das Herankommen, zudemSieZugangsberechtigunghaben • esistwiebeiSchlüsseln: man möchte am liebstennureinenhaben • wirarbeiten eng mitdemDFNVereinzusammen • wennIhreUni in der DFN AAI (so heisst das) ist, dann gilt das europaweit • IDS/MPI/BBAWnehmen nun an einemerstenPilotprojektzusammenmit NL und Finland teil
Pfeiler der Interoperabilität • typischesZiel: Zusammenstellen von Workflows • Ingredientenfüreinschweranzupackendes Problem: • Vereinbarung “standardisierter” Formatefür die wesentlichenDatentypen (Text-Korpora, annotierteMedien, Lexika, etc) • CLARIN machtInventur von Format “Standards&Best Practices” • Community Best Practices werdennatürlichweiterleben • CLARIN muss Konverterexplizit und offenmachen • man wirdnichtalles (WORD) unterstützenkönnen • offeneRegistraturlinguistischerKonzeptealsReferenz • wolleneinpragmatisches Problem lösen (gemeinsameSuche) • keinersoll seine Konzepteaufgeben!!! • abervielleichtfürvieleKonzepteReferenzenmöglich • CLARIN (zusammenmit ISO) arbeitet an ISOcat
Istesmorgenfertig? • schönwär’s • einsteiniger und nichteinfacherWeg • wennwirjetztabernichtschrittweiseanfangen, wanndenndann? • nichtalles, was icherzählthabe, werdenSieinteressantgefundenhaben, abereinesistklar: die LRT Community ist in einigenPunktenim Moment anderenvoraus
Istmorgenschonetwasfertig? • arbeiten an einerReihe von Dingen • eineReihe von AnforderungsSpezifikationensindfertig • nichteinfachbei 150 Mitgliedern, dh. ca. 500 Personen • gemeinsameMetadatenDomäne 2009 • Basis ist Language Resource and Technology Inventory • Zielist “Virtual Language Observatory” - ersterSchrittmomentan • allesindaufgefordertmitzumachen • ersteallgemeine Service Angebote in 2009 • PID Angebotsteht; erste AAI Domäne in 2009 • arbeitenmitHochdruck an typischen Workflows • hierist D-Spin zunennen • wollenmehrKonvertorenverfügbarmachen • etc
Randbemerkungen • CLARIN/D-SPIN isteineInfrastrukturinitiative - keinForschungsprojekt • esbaut auf existierendenResourcen und Tools auf und will dieseintegrieren • die InfrastrukturPfeilermüssen persistent sein, Wissenschaftlermüssen sich auf Diensteverlassenkönnen • wirsindnureinTeil der ganzenInfrastruktur- Bewegung - vieleDisziplinensindinvolviert • wirbekommenjetzteine Chance - einezweitewird es so schnellnichtgeben • wirwerden von den Hardcore Kollegen etc respektiert
Ende Falls nicht to end in Babylonish scenario nous avons still eenbeten time omschattingente improve. DankefürIhreAufmerksamkeit!