1 / 23

TEXTKORPORA

TEXTKORPORA. IDS – Mannheim. I nstitut für D eutsche S prache. Aufgaben und Ziele. Gründung 1964 Zentrale universitäre Einrichtung Erforschung und Dokumentation der deutschen Sprache Mitgliedschaft: Wissenschaftsgemeinschaft Gottfried Wilhelm Leibniz (WGL)

herve
Download Presentation

TEXTKORPORA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TEXTKORPORA IDS – Mannheim

  2. Institut für Deutsche Sprache

  3. Aufgaben und Ziele • Gründung 1964 • Zentrale universitäre Einrichtung • Erforschung und Dokumentation der deutschen Sprache • Mitgliedschaft: Wissenschaftsgemeinschaft Gottfried Wilhelm Leibniz (WGL) • Ressourcen stehen auch externen Benutzern zur Verfügung

  4. Abteilung Lexik • erforscht und beschreibt den Wortschatz der deutschen Sprache • Lexikologische Analysen und Wörterbücher • Korpustechnologie und Korpusentwicklung: Arbeitsgruppe für Korpustechnologie

  5. Entwicklung von Erschließungsmethoden und Analysetechniken, z.B.: statistische Methoden zur Erfassung und Auswertung zeit- und textsortenrelevanter Parameter statistische Kollokationsanalysen Visualisierung und Erschließung von Kollokationsanalysenergebnissen thematische Erschließung von Texten und Dokumentclustering Erfassung kontextspezifischer semantischer Phänomene Zeitreihenanalysen zur Gewinnung von Neulexemen Weiterentwicklung der Lemmatisierungsverfahren Gewinnung frequenzattribuierter Lemmaregister aus den Korpora Validierung von Wörterbüchern Arbeitsgruppe für Korpustechnologie

  6. Ausbau der gegenwartssprachlichen Korpora des IDS • Erarbeitung von Quellenbibliographien • Entwicklung von Programmen zur Erschließung aller neu anzuschließenden Korpora • Qualitätsprüfung und -sicherung der Korpora • Entwicklung von Verfahren zur Verbesserung der automatischen Dokumentation der Korpora • COSMAS I • COSMAS II

  7. Textkorpora des IDS • Gesamtumfang • Textwörter ca.1846 Mill.Textwörter • entspr. 4614500 Buchseiten • 1539 Mill. Wortformen • Inhalt – deutsche belletristische – populärwissenschaftliche Texte – wissenschaftliche – Zeitungstexte – weitere Textarten

  8. Größe a97 - a01 St. Galler Tagblatt 1997 - 2001 106,73 b97 -b01 Berliner Zeitung 1997 - 2001 90,86 bih Herausgebertexte zum Korpus bio 0,26 bio Biografische Literatur 1,84 bzk Bonner Zeitungskorpus 3,15 c93 - c98 Computer Zeitung 1993 - 1998 8,14 IDS - Textkorpora

  9. hi1 HistorischesKorpus 1 2,48 hi2 HistorischesKorpus 2 0,87 i96 - i00 Tiroler Tageszeitung 1996 - 2000 55,28 iko Interview-Korpus 0,67 k96 - k00 Kleine Zeitung 1996 - 2000 68,30 l97 - l99 Berliner Morgenpost 1997 - 1999 23,31 lim LIMAS-Korpus 1,00 lim-TAG LIMAS-Korpus, morphosyntaktisch annotiert 1,00 loz-div Belletristik des 20. Jahrhunderts; diverseSchriftsteller 0,43 loz-hes Belletristik des 20. Jahrhunderts; Stefan Heym 0,33

  10. Benutzung • nur ein Teil der oben aufgezeigten Korpora als COSMAS I öffentlich zugänglich • Gesamtumfang • Textwörter: 1181 Mill. • Buchseiten: 2952000 • Wortformen: 988 Mill.

  11. Texte und Dokumente Korpus Dokument(e) Dokument Text(e) Text Zeitungsartikel / ganze Zeitung / Auszug aus einem Werk / ein Werk als Ganzes (Roman, Reportage, Erlass, Rede usw.)

  12. Archive in COSMAS-I-Korpora • Archiv „Korpora geschriebener Sprache“ • Archiv „Korpora gesprochener Sprache“ • Archiv historischer Korpora • Archiv morphosyntaktisch annotierter Korpora • Archiv phasengegliederter Korpora • Archiv „Neuakquisitionen“

  13. Geschichte des COSMAS I und COSMAS II

  14. Anzahl der COSMAS-I-Sitzungen

  15. Anzahl der COSMAS-I-Recherchen

  16. Größe der COSMAS-I-Korpora (in Mill. Textwörter)

  17. der 3,06519 die 2,85399 und 2,14711 in 1,60309 den 1,13488 von 0,92111 zu 0,854311 mit 0,812658 das 0,808348 sich 0,725922 für 0,686623 im 0,686249 ist 0,678626 auf 0,676511 des 0,664622 nicht 0,657609 Die 0,620502 dem 0,617344 ein 0,580091 eine 0,519158 als 0,448388 auch 0,445136 es 0,441063 an 0,436541 aus 0,37401 sie 0,363476 ... Liste der häufigsten Wortformen

  18. Leistungsmerkmale von COSMAS I • Suchobjekte • logische Operatoren (und, oder, nicht) • Abstandsoperatoren (treffereinschließend / ; trefferausschließend %): • Wortabstand /w.. bzw. %w.. • Satzabstand /s.. bzw. %s.. • Absatzabstand /p.. bzw. %p.. • Zeilenabstand /z.. bzw. %z.. • Abstandsoperatoren für Intervallabstand: /[w,s,p,z]ZahlMAX:ZahlMIN • Suchanfragen

  19. Lemmatisierungsprogramm • Komposita und/oder sonstige Wortbildungsformen können bei der Suche berücksichtigt werden • Im Zusammenhang mit COSMAS I sind Grundformen • unflektierte Simplizia verschiedener Wortarten, • unflektierte Ableitungen und Komposita, • Wortbildungsmorpheme.

  20. Beispiel Suchanfrage:&Beispiel Das Suchergebnis in einem bestimmten Korpus beinhaltet unter anderem (mit der absoluten Häufigkeit des Vorkommens): Alltagsbeispiel (1) beispielsweise (3039) Anwendungsbeispiele (4) Butter-Margarine-Beispiel (1) Beispiel (7755) Codierungsbeispiele (1) Beispiele (970) Projektbeispiele (1) beispielgebend (15) US-Beispiel (1) beispielhaft (124) Zahlenbeispiels (1) beispielhaftem (1) Zwischenbeispiel (1) Beispielhaftigkeit (1)

  21. • Morphosyntaktische Annotationen Textwort#ANA#WORTKLASSE#Merkmal_1#Merkmal_2#...#, z.B.: Tisch#ANA#NOU#com#sg#m#dat#. Beispiel-Suchanfragen in Bezug auf morphosyntaktische Annotationen: 1) #ANA#AUX#pl#*#1#* - sucht nach Hilfs-/Modalverben in der 1. Person Plural, z.B.: wir müssen / können / sollen / konnten / haben / wollen / hatten / werden / könnten / sollten / hätten #ANA#ADV*pref* /w0 auf - sucht nach dem abgetrennten Verbpräfix auf, z.B.: wies ... auf [aufweisen] / rufen ... auf [aufrufen]

  22. • Ergebnispräsentation • Nach einer abgeschlossenen Suche stehen dem Nutzer drei Stufen der Ergebnispräsentation zur Verfügung: • erste Stufe: statistische Übersicht mit absoluten oder relativen¹ Häufigkeitsangaben (zunächst immer die Quellenstatistik, des Weiteren statistische Übersichten je nach Sortierungsoption), • zweite Stufe: KWIC-Übersicht (key word in context; KWIC-Zeilen mit den gesuchten Wortformen in fester Position), • dritte Stufe: Einzelbeleg (KWIC-Darstellung mit variabel einstellbarem Kontext einschließlich Quellennachweis).

  23. • Sortiermöglichkeiten • Neben der quellenweisen Sortierung, die unmittelbar nach einer abgeschlossenen Suche in Form der Quellenstatistik ausgegeben wird, kann COSMAS I die Ergebnismenge außerdem wie folgt sortieren: • alphabetisch (einschließlich Wortformen vor und nach dem • Suchobjekt, auch rückläufig), • nach absoluten oder relativen Häufigkeiten, • nach Kollokationen • chronologisch

More Related