1 / 43

Korpuslinguistik

Korpuslinguistik. Ulrich Kaiser-Kaplaner. Was ist Korpuslinguistik?. Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus KL ist ein Bindeglied zwischen klassischer Linguistik und CL. Viele CL Anwendungen basieren auf KL

vern
Download Presentation

Korpuslinguistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korpuslinguistik Ulrich Kaiser-Kaplaner

  2. Was ist Korpuslinguistik? • Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus • KL ist ein Bindeglied zwischen klassischer Linguistik und CL. • Viele CL Anwendungen basieren auf KL • KL liefert statistische Informationen für CL (z.B. für Disambiguierung)

  3. Zwei Forschertypen: 1. Der Denker • Er verbringt die meiste Zeit in seinem Sessel und denkt nach. • Seine Sprachtheorie wird durch Beispiele, die unmittelbar seiner Sprachkompetenz entspringen, bestätigt oder widerlegt.

  4. Zwei Forschertypen: 1. Der Denker • Das Urteil kompetenter Sprecher ist bedeutend (z.B. Aufbau der Grammatik) • Herzlich wenig Interesse für Äußerungen, die tagtäglich produziert werden. Sie sind wenig erleuchtend für seine Theorie. • Noam Chomsky: Scharfsinniger Theoretiker (Universalgrammatik)

  5. Kompetenz vs Performanz • Unter Sprachkompetenz versteht man die Fähigkeit eines Sprechers, wohlgeformte Sätze aufgrund von Sprachregeln zu bilden. Chomsky spricht auch von I(nternalisierter) Sprache und • versteht darunter ein Regelsystem (z. B. Phrasenstrukturregeln und Transformationen), das alle grammatischen Sätze generieren kann und alle ungrammatischen Sätze zurückweist. • Möglichkeit: eine unendliche Menge von Äußerungen hervorzubringen.

  6. Kompetenz vs Performanz • Unter Performanz versteht man die Summe der Sprachäußerungen, die ein Sprecher einer Sprache von sich gibt. • Noam Chomsky spricht auch von E(xternalisierter) Sprache, eine extrem lange Auflistung aller Sätze, die in irgendeinem Kontext je geäußert wurden. • Kompetenz wird auch als Langue, Performanz auch als Parole bezeichnet. (Ferdinand de Saussure)

  7. Zwei Forschertypen: 2. Der Beobachter • Der Beobachter ist an authentischen Sprachdaten interessiert: Je mehr Daten, desto besser. • Die Theorien, die er entwickelt, sind auf Beobachtung dieser Daten gestützt. • Großes Interesse an Phänomenen, die in unserem alltäglichen Sprachgebrauch vorkommen.

  8. Theorie und Empirie • Theoretische Linguisten: Noam Chomsky bezeichnet das Werk der Korpuslinguistik als irrelevant und nutzlos. • Empirisch arbeitende Linguisten: Wer Korpuslinguistik betreibt, dem geht es in erster Linie um das Beobachten und Beschreiben sprachlicher Phänomene.

  9. Definition: Korpus • Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert. • Bestandteile: Texte • Metadaten (Auskunft über Autoren,Sprecher) • linguistische Annotationen (gramm.Funktion)

  10. Definition: Korpuslinguistik • Beschreibung von Äußerungen natürlicher Sprachen, ihrer Elemente und Strukturen • Theoriebildung auf der Grundlage von Analysen authentischer Texte • Gebiete: Sprachunterricht, Sprachdokumentation, Lexikographie etc. • W. Labov (1966): The Social Stratification of English in New York City

  11. Kritik am Wert von Korpusdaten • Repräsentativität • Relevanz der Daten • unvollständige Datenabdeckung • Verlässlichkeit der Daten • Wie geht man mit der Existenz nicht wohlgeformter Äußerungen und mit dem Fehlen wohlgeformter Äußerungen um? • -> Sprecherbefragungen

  12. Kontextualismus • Linguistische Erkenntnis geht vom Sprachgebrauch aus • John Sinclair: ehemaliger Chefredakteur des Collins Cobuild English Dictionary • Ko- und Kontext spielen für die Untersuchung sprachlicher Handlungen eine zentrale Rolle • John Rupert Firth (1890-1960)

  13. Ko- und Kontext: John Rupert Firth Ko- und Kontext: John Rupert Firth • Kontext: Summe der unmittelbaren Rahmenbedingungen einer Sprachhandlung • Kultureller Kontext: steuert die Art und Weise, wie Sprecher sprachliche Handlungen wahrnehmen. • Situativer Kontext: determiniert die Funktion einer konkreten sprachlichen Handlung: Ort, Zeit und die Beteiligten

  14. Ko- und Kontext: John Rupert Firth Ko- und Kontext: John Rupert Firth • Der Kotext einer linguistischen Einheit ist die Menge der linguistischen Einheiten, die im gleichen Text verwendet wurden. • Firth: Kotext von Wörtern und Sätzen auf vier Ebenen untersucht: • Phonetik u. Phonologie, Morphologie, Syntax und Lexik. • Kollokation: das faktische Miteinandervorkommen zweier oder mehrerer beliebiger Wörter W+W

  15. Korpusbasierte Ansätze • Wir unterscheiden drei Ansätze in der Korpusanalyse • Der korpusbasierte, quantitative Ansatz • Kein Theoretischer Rahmen • Extrem empirisch • Korpus in Rohform • Verarbeitung gesprochener Sprache, statistische Sprachmodelle (Landauer, Jelinek)

  16. Korpusbasierte Ansätze • Korpusbasiert, quantitativ und qualitativ: • Theoretischer Rahmen: Kontextualismus (Firth und Sinclair) • Korpus in Rohform (nicht linguistisch annotiert) • Kollokator-Paare -> Semantik • Anwendungsgebiet: Lexikographie, Sprachunterricht, Übersetzungswissenschaft

  17. Korpusbasierte Ansätze • Korpusgestütz: • Strukturalismus (Saussure), Generative Grammatik (Chomsky), rationalistisch • Linguistisch annotiertes Korpus • Von den theoretischen Aussagen ausgehend • Domäne: Syntax • Anwendung: Lexikographie, theoretische L.

  18. Korpuslinguistik in der Praxis • Erstellen eines Korpus • Vorhandene Korpora: British National Corpus • Wahl der Texte: Welche Texte nehme ich? -> Qualität:gemeinsames Thema, gemeinsames Medium, Wieviele Texte brauche ich? ->Quantität

  19. Textdateien • Dateien sollte in Textdateine umgewandelt werden. MS Word Dateien (*.DOC) sollten vermieden werden. • *.TXT Dateien erstellen: MS Word öffnen, dann unter „Datei“->“Speichern unter“ und „Nur Text“ auswählen -> Name eingeben und speichern. • Texte separat abspeichern (um Teile einzeln analysieren zu können -> qualitativ)

  20. Textdateien

  21. Erstellen eines Korpus • Texte aus dem Internet: Kopieren und Einfügen in MS Word. Bilder und Graphiken können ignoriert werden, weil sie beim Umwandeln in *TEXT ohnehin verloren gehen. • Gedruckte Texte einscannen mit Hilfe von OCR-Software (Optical Character Recognition)

  22. Text annotieren • Annotationen werden als solche vom Programm markiert: nicht zugehörig zum regulären Text • Beginn eines Absatzes mit: <p> markieren • Ende eines Absatzes mit: </p> markieren • Italics: <i> und </i> • Überschriften: <t> und </t> • Zitate: <q> und </q>

  23. Text annotieren • Zusätzliche Infos : <head> und </head> (z.B. Herkunft und Alter des Autors)

  24. WORD SMITH 3.0 • Programm zur Analyse elektronischer Textkorpora, liefert Infos über die wichtigsten und meistverwendeten Wörter und über die Umgebung, in der sie vorkommen • Wordlister: • Alle Wörter eines Korpus werden aufgelistet, • Statistische Informationen

  25. Word Smith 3.0 • Um zu starten: Auf das grüne Licht klicken und dann „Choose texts“. Das folgende Fenster wird geöffnet:

  26. Word Smith 3.0 Choose Texts

  27. Klicken auf „Make a word list now“

  28. Word list: alphabetisch geordnet

  29. Word list geordnet nach Frequenz

  30. Word list: statistische Information

  31. Word Smith 3.0 Word list [S] • Types: unterschiedliche Wörter • Tokens: einzelne Vorkommen eines Wortes • Die Reihe love love love beinhaltet beispielsweise 1 Type und 3 Tokens • Ein Wort wird als eine Aneinanderreihung von Buchstaben definiert: door und doors sind zwei unterschiedliche Wörter

  32. Stop List • Wie in der frequency list ersichtlich ist, sind die häufigsten Wörter gramatische Wörter, wie Artikel und Pronomen. Um sich auf Inhaltswörter konzentrieren zu können, gibt es Stop lists. • Stop Lists beinhalten alle Wörter, die vom Programm ignoriert werden sollen. • Klick auf „Settings“, „Stoplist“ dann „Browse“ um die Stop list zu lokalisieren, „Activated“ Box muss ein Hackerl haben und dann auf „Browse“

  33. Stop List

  34. Word list mit Inhaltswörtern (Verwendung einer stoplist)

  35. Clusters „Settings“-> auf irgend ein Element klicken, dann auf den Tab mit Wordlist klicken, -> dann auf CLUSTERS klicken: und die gesuchte Länge der Clusters eingeben: (hier im Beispiel 4) Nun werden die häufigsten 4-Wort-Kombinationen angezeigt. „Activated box“ anklicken und auf „OK“ gehen.

  36. Clusters

  37. Clusters im Intelligent Design Corpus

  38. Wähle zuerst die Texte aus (wie im Word lister) und gehe auf „Specify Search-Word“

  39. Welche Wörter kommen unmittelbar in der Umgebung des Suchwortes vor? Klick auf „Horizons, etc.

  40. The Power Struggle of "the Flowers of a Nation" in their Encounter with "ABC-prevention" and "Sugar Daddies". A CDA of South African Girls' Risks of HIV Infection Discourse.

  41. Presentation-Outline • Background information about the social problems of African girls and HIV infection • African girls’ conception of HIV Risk • “Sugar daddy”: a conceptual metaphor • Indepth-Analysis of one text • Textual events • Text populations • Picture Analysis • Ideological functions and conclusions

  42. My “Rape myths” corpus

  43. Thank you for your attention!

More Related