230 likes | 386 Views
TEXTKORPORA. IDS – Mannheim. I nstitut für D eutsche S prache. Aufgaben und Ziele. Gründung 1964 Zentrale universitäre Einrichtung Erforschung und Dokumentation der deutschen Sprache Mitgliedschaft: Wissenschaftsgemeinschaft Gottfried Wilhelm Leibniz (WGL)
E N D
TEXTKORPORA IDS – Mannheim
Aufgaben und Ziele • Gründung 1964 • Zentrale universitäre Einrichtung • Erforschung und Dokumentation der deutschen Sprache • Mitgliedschaft: Wissenschaftsgemeinschaft Gottfried Wilhelm Leibniz (WGL) • Ressourcen stehen auch externen Benutzern zur Verfügung
Abteilung Lexik • erforscht und beschreibt den Wortschatz der deutschen Sprache • Lexikologische Analysen und Wörterbücher • Korpustechnologie und Korpusentwicklung: Arbeitsgruppe für Korpustechnologie
Entwicklung von Erschließungsmethoden und Analysetechniken, z.B.: statistische Methoden zur Erfassung und Auswertung zeit- und textsortenrelevanter Parameter statistische Kollokationsanalysen Visualisierung und Erschließung von Kollokationsanalysenergebnissen thematische Erschließung von Texten und Dokumentclustering Erfassung kontextspezifischer semantischer Phänomene Zeitreihenanalysen zur Gewinnung von Neulexemen Weiterentwicklung der Lemmatisierungsverfahren Gewinnung frequenzattribuierter Lemmaregister aus den Korpora Validierung von Wörterbüchern Arbeitsgruppe für Korpustechnologie
Ausbau der gegenwartssprachlichen Korpora des IDS • Erarbeitung von Quellenbibliographien • Entwicklung von Programmen zur Erschließung aller neu anzuschließenden Korpora • Qualitätsprüfung und -sicherung der Korpora • Entwicklung von Verfahren zur Verbesserung der automatischen Dokumentation der Korpora • COSMAS I • COSMAS II
Textkorpora des IDS • Gesamtumfang • Textwörter ca.1846 Mill.Textwörter • entspr. 4614500 Buchseiten • 1539 Mill. Wortformen • Inhalt – deutsche belletristische – populärwissenschaftliche Texte – wissenschaftliche – Zeitungstexte – weitere Textarten
Größe a97 - a01 St. Galler Tagblatt 1997 - 2001 106,73 b97 -b01 Berliner Zeitung 1997 - 2001 90,86 bih Herausgebertexte zum Korpus bio 0,26 bio Biografische Literatur 1,84 bzk Bonner Zeitungskorpus 3,15 c93 - c98 Computer Zeitung 1993 - 1998 8,14 IDS - Textkorpora
hi1 HistorischesKorpus 1 2,48 hi2 HistorischesKorpus 2 0,87 i96 - i00 Tiroler Tageszeitung 1996 - 2000 55,28 iko Interview-Korpus 0,67 k96 - k00 Kleine Zeitung 1996 - 2000 68,30 l97 - l99 Berliner Morgenpost 1997 - 1999 23,31 lim LIMAS-Korpus 1,00 lim-TAG LIMAS-Korpus, morphosyntaktisch annotiert 1,00 loz-div Belletristik des 20. Jahrhunderts; diverseSchriftsteller 0,43 loz-hes Belletristik des 20. Jahrhunderts; Stefan Heym 0,33
Benutzung • nur ein Teil der oben aufgezeigten Korpora als COSMAS I öffentlich zugänglich • Gesamtumfang • Textwörter: 1181 Mill. • Buchseiten: 2952000 • Wortformen: 988 Mill.
Texte und Dokumente Korpus Dokument(e) Dokument Text(e) Text Zeitungsartikel / ganze Zeitung / Auszug aus einem Werk / ein Werk als Ganzes (Roman, Reportage, Erlass, Rede usw.)
Archive in COSMAS-I-Korpora • Archiv „Korpora geschriebener Sprache“ • Archiv „Korpora gesprochener Sprache“ • Archiv historischer Korpora • Archiv morphosyntaktisch annotierter Korpora • Archiv phasengegliederter Korpora • Archiv „Neuakquisitionen“
der 3,06519 die 2,85399 und 2,14711 in 1,60309 den 1,13488 von 0,92111 zu 0,854311 mit 0,812658 das 0,808348 sich 0,725922 für 0,686623 im 0,686249 ist 0,678626 auf 0,676511 des 0,664622 nicht 0,657609 Die 0,620502 dem 0,617344 ein 0,580091 eine 0,519158 als 0,448388 auch 0,445136 es 0,441063 an 0,436541 aus 0,37401 sie 0,363476 ... Liste der häufigsten Wortformen
Leistungsmerkmale von COSMAS I • Suchobjekte • logische Operatoren (und, oder, nicht) • Abstandsoperatoren (treffereinschließend / ; trefferausschließend %): • Wortabstand /w.. bzw. %w.. • Satzabstand /s.. bzw. %s.. • Absatzabstand /p.. bzw. %p.. • Zeilenabstand /z.. bzw. %z.. • Abstandsoperatoren für Intervallabstand: /[w,s,p,z]ZahlMAX:ZahlMIN • Suchanfragen
Lemmatisierungsprogramm • Komposita und/oder sonstige Wortbildungsformen können bei der Suche berücksichtigt werden • Im Zusammenhang mit COSMAS I sind Grundformen • unflektierte Simplizia verschiedener Wortarten, • unflektierte Ableitungen und Komposita, • Wortbildungsmorpheme.
Beispiel Suchanfrage:&Beispiel Das Suchergebnis in einem bestimmten Korpus beinhaltet unter anderem (mit der absoluten Häufigkeit des Vorkommens): Alltagsbeispiel (1) beispielsweise (3039) Anwendungsbeispiele (4) Butter-Margarine-Beispiel (1) Beispiel (7755) Codierungsbeispiele (1) Beispiele (970) Projektbeispiele (1) beispielgebend (15) US-Beispiel (1) beispielhaft (124) Zahlenbeispiels (1) beispielhaftem (1) Zwischenbeispiel (1) Beispielhaftigkeit (1)
• Morphosyntaktische Annotationen Textwort#ANA#WORTKLASSE#Merkmal_1#Merkmal_2#...#, z.B.: Tisch#ANA#NOU#com#sg#m#dat#. Beispiel-Suchanfragen in Bezug auf morphosyntaktische Annotationen: 1) #ANA#AUX#pl#*#1#* - sucht nach Hilfs-/Modalverben in der 1. Person Plural, z.B.: wir müssen / können / sollen / konnten / haben / wollen / hatten / werden / könnten / sollten / hätten #ANA#ADV*pref* /w0 auf - sucht nach dem abgetrennten Verbpräfix auf, z.B.: wies ... auf [aufweisen] / rufen ... auf [aufrufen]
• Ergebnispräsentation • Nach einer abgeschlossenen Suche stehen dem Nutzer drei Stufen der Ergebnispräsentation zur Verfügung: • erste Stufe: statistische Übersicht mit absoluten oder relativen¹ Häufigkeitsangaben (zunächst immer die Quellenstatistik, des Weiteren statistische Übersichten je nach Sortierungsoption), • zweite Stufe: KWIC-Übersicht (key word in context; KWIC-Zeilen mit den gesuchten Wortformen in fester Position), • dritte Stufe: Einzelbeleg (KWIC-Darstellung mit variabel einstellbarem Kontext einschließlich Quellennachweis).
• Sortiermöglichkeiten • Neben der quellenweisen Sortierung, die unmittelbar nach einer abgeschlossenen Suche in Form der Quellenstatistik ausgegeben wird, kann COSMAS I die Ergebnismenge außerdem wie folgt sortieren: • alphabetisch (einschließlich Wortformen vor und nach dem • Suchobjekt, auch rückläufig), • nach absoluten oder relativen Häufigkeiten, • nach Kollokationen • chronologisch