330 likes | 389 Views
Deutsche Sprachressourcen Infrastruktur (D-SPIN). Prof. Dr. Erhard Hinrichs D-SPIN Koordinator Universität Tübingen. ESFRI.
E N D
Deutsche Sprachressourcen Infrastruktur (D-SPIN) Prof. Dr. Erhard Hinrichs D-SPIN Koordinator Universität Tübingen
ESFRI „The ESFRI Roadmap identifies new Research Infrastructure (RI) of pan-European interest corresponding to the long term needs of the European research communities, covering all scientific areas, regardless of possible location.“
ESFRI Roadmap • Preparatory Phase (2008-2010) • Ko-Finanzierung durch EU und nationale Mittel • Construction and Exploitation Phase (2011-2020) • Primäre Förderung aus nationalen Mitteln • Phase I (2011-2015) • Phase 2 (2016-2020)
Arbeitsgruppen ESFRI Roadmap Projects Im Bereich der Geistes- und Sozialwissenschaften: CLARIN (Common LAnguage Resources and Technology INfrastructure); www.clarin.eu DARIAH (DigitAl Research Infrastructure for the Arts and Humanities); www.dariah.eu CESSDA (Council of European Social Science Data Archives); www.nsd.uib.no/cessda
Gliederung Clarin Total number of members: 151 Number of countries involved: 32
D-SPIN Projektpartner • Berlin-Brandenburgische Akademie der Wissenschaften • Deutsches Forschungszentrum für Künstliche Intelligenz Saarbrücken GmbH (DFKI) • Institut für Deutsche Sprache (IDS) Mannheim • Max-Planck-Institut für Psycholinguistik Nijmegen • Eberhard-Karls Universität Tübingen; Computerlinguistik • Justus-Liebig-Universität Gießen; Ang. Sprachw. und CL • Universität Frankfurt; Vergleichende Sprachwissenschaft • Universität Leipzig, Institut für Informatik • Universität Stuttgart, Inst. für masch. Sprachverarbeitung
Arbeitsgruppen D-SPIN Arbeitspakete • AP 1: Projekt Management (Uni Tübingen, MPI Nijmegen, IDS Mannheim, BBAW Berlin) • AP 2: Etablierung der technischen Infrastruktur (MPI Nijmegen, Uni Tübingen, IDS Mannheim, BBAW Berlin, Uni Leipzig, Uni Frankfurt, DFKI Saarbrücken, Uni Stuttgart) • AP 3: Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender (BBAW Berlin, Uni Frankfurt, Uni Gießen) • AP 4: Verbindung mit nationalen und europäischen Initiativen (MPI Nijmegen, Uni Tübingen)
D-SPIN Arbeitspakete • AP 5: Anpassung und Integration von Ressourcen und Tools (Uni Tübingen, MPI Nijmegen, IDS Mannheim, BBAW Berlin, Uni Leipzig, Uni Frankfurt, DFKI Saarbrücken, Uni Stuttgart) • AP 6: Training und Ausbildung (Uni Gießen, Uni Tübingen, Uni Frankfurt) • AP 7: Urheberrecht und ethische Fragen der Verwendung von Sprachressourcen, Lizenzmodelle (IDS Mannheim) • AP 8: Ausarbeitung einer organisatorischen Struktur für die Nachhaltigkeit auf nationaler Ebene (IDS Mannheim)
Arbeitsgruppen AP1 - Management • Koordination der Projektarbeiten mit Aktivitäten des CLARIN-Projekts • Durchführung der regelmäßigen Treffen des Leitungsausschusses, des Beirats, des Plenums und der Arbeitsgruppen • Ansprechpartner: • Prof. Dr. Erhard Hinrichs (wissenschaftlicher Leiter) • Kathrin Beck (Projektkoordinatorin, kbeck@sfs.uni-tuebingen.de)
Arbeitsgruppen Mitglieder des D-SPIN Beirats • Helge Kahler (BMBF) • Axel Horstmann (Volkswagen Stiftung) • Christiane Fellbaum (Princeton University) • Bernhard Neumair (GWDG, Göttingen) • Neil Freistat (Maryland Institute for Technology in the Humanities) • Paul Doorenbosch (Koninklijke Bibliotheek NL) • Bente Maegaard (University of Copenhagen; CLARIN Liaison)
Arbeitsgruppen AP 2: Technische Infrastruktur • Etablierung der technischen Infrastruktur • Infrastruktur • Service-Zentren neuen Typs • Sprach-Ressourcen-Föderation • Registraturen • Web-Services • Basis-Services und Applikationen
Arbeitsgruppen AP 3: Geisteswissenschaften • Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender • Welchen Bedarf an Sprachressourcen gibt es in den Geisteswissenschaften? • Welche Anforderungen muss eine Forschungsinfrastruktur für die Geisteswissenschaften erfüllen?
Arbeitsgruppen AP 4: Liaison • Verbindung mit nationalen und europäischen Initiativen • Koordination mit anderen europäischen und nationalen Infrastruktur-Projekten wie DARIAH, FLaReNet (EU-Projekte); eAQUA, TextGrid (BMBF-Projekte); Dobes (Volkswagen-Stiftung); • Entwicklung einer gemeinsamen Roadmap für Infrastrukturen und Standards im Bereich geisteswissenschaftlicher Ressourcen
AP 5: Integration • Anpassung und Integration von Ressourcen und Tools • Standardisierung und Integration deutscher Ressourcen der verschiedenen Ressourcentypen • Anreicherung der Ressourcen mit CLARIN-Metadaten • Festlegung der Schnittstellen zwischen Daten undWerkzeugen • Definition und Implementation von Webservices
AP 6: Training und Ausbildung • Entwicklung von Lehrmaterialien und Kurse • Forscher mit den Möglichkeiten, die Sprachressourcen für die empirische Forschung bieten, vertraut machen • die verfügbaren Typen von sprachlichen Ressourcen bekannt machen und den Zugriff auf diese vermitteln • anhand von Beispielen aus der Praxis das Potential von Sprachressourcen darstellen • Sommerschule für Nachwuchswissenschaftler und Dozentenworkshop, 2010 in Gießen
AP 7: Recht und Ethik • Urheberrecht und ethische Fragen der Verwendung von Sprachressourcen, Lizenzmodelle
AP 8: Nachhaltigkeit • Ausarbeitung einer organisatorischen Struktur für die Nachhaltigkeit auf nationaler Ebene
Webservices • Webservices zur Erschließung linguistischer Ressourcen • Verteilte Architektur (z.Z. Stuttgart, Tübingen) • Standardisierte Web 2.0 Technologien • Standardisierte Metadaten beschreiben Tools und Daten • Entwicklung eines gemeinsamen Datenformats (Stuttgart, Leipzig) • Verkettung der einzelnen Services mittels Toolchain • Webservice-Demonstrationen am Nachmittag
Webservices In D-Spin schon verfügbare Webservices
Webservices am IMS • Trainierbarer Tokenizer (Parameter für DE, EN, FR, IT) • TreeTagger (Tagger und Lemmatizer; Parameter für DE, EN, FR, IT) • Morphologiesystem SMOR • Parser BitPar (Parameter für DE, EN) • Dependenzparser FSPAR (DE) • Paketlösung zur Extraktion von signikanten Wortpaaren aus geparstem Text auf Basis FSPAR (DE) • UCS toolkit zur Berechnung von Wortpaar-Assoziationen (sprachunabhängig)
GermaNet Web Applikation GermaNet: Ein semantisches Wortnetz des Deutschen GermaNet gruppiert Wörter desselben Konzepts und zeigt Relationen zwischen diesen Konzepten auf: Auto Automobil, Kraftfahrzeug, Wagen, Kraftwagen
D-Spin Tool Chainer • Verkettung von Webservices: Der D-Spin Tool Chainer • Die einzelnen Webservices bauen aufeinander auf und können in eine logische Kette geschaltet werden • Einfacher Text wird von Webservice zu Webservice weitergereicht und mit linguistischen Informationen angereichert
Einbeziehen weiterer Partner • Einbeziehen weiterer Partner • IDS Mannheim • BBAW Berlin
Webservices • Peter Wittenburg: Metadaten und technische Infrastruktur von D-Spin
Bisherige Ergebnisse • AP 1: Management • Durchführung von Projekttreffen u.a. in Saarbrücken, Berlin, Frankfurt • Teilnahme an CLARIN-Treffen • Konstitution des wissenschaftlichen Beirats • Ausarbeiten der Verträge, insbesondere Kooperationsvertrag und FE-Verträge • Einrichtung eines Wikis für die interne Projektkoordination 06.05.09
Bisherige Ergebnisse • AP 2: technische Infrastruktur • Erstellung von Anforderungs-Spezifikations-Dokumenten und Short Guides • Aufstellung von Zentren • Föderationen und PIDs • Metadaten (siehe Vortrag Peter Wittenburg) • Entwicklung von Webservices 06.05.09
Bisherige Ergebnisse • AP 3: Ressourcen- und Anwenderplanung im Hinblick auf geisteswissenschaftliche Anwender • Uni Gießen: Fallstudie zum Einsatz von Sprachressourcen im Computer-Assisted Language Learning (CALL) • BBAW: Erstellung eines Fragebogens zur Ermittlung der Anforderungen von Geistes- und Sozialwissenschaftlern an Sprachressourcen und Services
Bisherige Ergebnisse • AP 4: Verbindung mit nationalen und europäischen Initiativen • Interaktionen mit CLARIN • Interaktionen mit TextGrid • Interaktionen mit DEISA II bzgl. Langzeitarchivierung und Auslagerung von rechenintensiven Prozessen auf universitäre Rechenzentren • Interaktionen mit dem DFN-Verein • Gespräche zum Schwerpunktprogramm zu eHumanities • Interaktionen mit FlareNet • Mitgliedschaft bei ISO TC37/SC4 (Management of Language Resources) 06.05.09
Bisherige Ergebnisse • AP 5: Anpassung und Integration der Ressourcen und Tools • Implementation von Webservices (ISOcat, LMF-basierte Lexika, Metadaten) • Erstellung von Metadaten • Formatanpassungen von Ressourcen für die Anbindung an Webservices • Integration der Webservices in einen Workflow • Entwicklung einer prototypischen Infrastruktur • Z.B. die Frankfurter TITUS-Datenbank: Umwandlung in eine standardkonforme Struktur, Konvertierung in XML, Erstellung von sprachspezifischen Teilkorpusübersichten 06.05.09
Bisherige Ergebnisse • AP 6: Training und Ausbildung • Planung eines inhaltlichen und didaktischen Konzepts der Ausbildungsmodule • Anlegen einer Testplattform und Integration der ersten Module (moodle, Uni Frankfurt) • Standardkonforme Bereitstellung existierender Lehrmaterialien • Planung erster D-SPIN-bezogener Lehrveranstaltungen • Durchführung einer lehrbezogenen D-SPIN-Umfrage • Sommerschule für Nachwuchswissenschaftler und Dozentenworkshop, 2010 in Gießen 06.05.09
Bisherige Ergebnisse • AP 7: Urheberrecht und ethische Fragen • Zusammenarbeit mit CLARIN • Erstellungen von Muster-Lizenzvereinbarungen 06.05.09
Bisherige Ergebnisse • AP 8: Ausarbeitung einer organisatorischen Struktur für die Nachhaltigkeit auf nationaler Ebene • Enge Kooperation mit CLARIN • Planung langfristige Perspektiven für eine deutsche Sprachressourceninfrastruktur 06.05.09