540 likes | 856 Views
Korpuslinguistik. Ulrich Kaiser-Kaplaner. Was ist Korpuslinguistik?. Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus KL ist ein Bindeglied zwischen klassischer Linguistik und CL. Viele CL Anwendungen basieren auf KL
E N D
Korpuslinguistik Ulrich Kaiser-Kaplaner
Was ist Korpuslinguistik? • Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus • KL ist ein Bindeglied zwischen klassischer Linguistik und CL. • Viele CL Anwendungen basieren auf KL • KL liefert statistische Informationen für CL (z.B. für Disambiguierung)
Zwei Forschertypen: 1. Der Denker • Er verbringt die meiste Zeit in seinem Sessel und denkt nach. • Seine Sprachtheorie wird durch Beispiele, die unmittelbar seiner Sprachkompetenz entspringen, bestätigt oder widerlegt.
Zwei Forschertypen: 1. Der Denker • Das Urteil kompetenter Sprecher ist bedeutend (z.B. Aufbau der Grammatik) • Herzlich wenig Interesse für Äußerungen, die tagtäglich produziert werden. Sie sind wenig erleuchtend für seine Theorie. • Noam Chomsky: Scharfsinniger Theoretiker (Universalgrammatik)
Kompetenz vs Performanz • Unter Sprachkompetenz versteht man die Fähigkeit eines Sprechers, wohlgeformte Sätze aufgrund von Sprachregeln zu bilden. Chomsky spricht auch von I(nternalisierter) Sprache und • versteht darunter ein Regelsystem (z. B. Phrasenstrukturregeln und Transformationen), das alle grammatischen Sätze generieren kann und alle ungrammatischen Sätze zurückweist. • Möglichkeit: eine unendliche Menge von Äußerungen hervorzubringen.
Kompetenz vs Performanz • Unter Performanz versteht man die Summe der Sprachäußerungen, die ein Sprecher einer Sprache von sich gibt. • Noam Chomsky spricht auch von E(xternalisierter) Sprache, eine extrem lange Auflistung aller Sätze, die in irgendeinem Kontext je geäußert wurden. • Kompetenz wird auch als Langue, Performanz auch als Parole bezeichnet. (Ferdinand de Saussure)
Zwei Forschertypen: 2. Der Beobachter • Der Beobachter ist an authentischen Sprachdaten interessiert: Je mehr Daten, desto besser. • Die Theorien, die er entwickelt, sind auf Beobachtung dieser Daten gestützt. • Großes Interesse an Phänomenen, die in unserem alltäglichen Sprachgebrauch vorkommen.
Theorie und Empirie • Theoretische Linguisten: Noam Chomsky bezeichnet das Werk der Korpuslinguistik als irrelevant und nutzlos. • Empirisch arbeitende Linguisten: Wer Korpuslinguistik betreibt, dem geht es in erster Linie um das Beobachten und Beschreiben sprachlicher Phänomene.
Definition: Korpus • Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert. • Bestandteile: Texte • Metadaten (Auskunft über Autoren,Sprecher) • linguistische Annotationen (gramm.Funktion)
Definition: Korpuslinguistik • Beschreibung von Äußerungen natürlicher Sprachen, ihrer Elemente und Strukturen • Theoriebildung auf der Grundlage von Analysen authentischer Texte • Gebiete: Sprachunterricht, Sprachdokumentation, Lexikographie etc. • W. Labov (1966): The Social Stratification of English in New York City
Kritik am Wert von Korpusdaten • Repräsentativität • Relevanz der Daten • unvollständige Datenabdeckung • Verlässlichkeit der Daten • Wie geht man mit der Existenz nicht wohlgeformter Äußerungen und mit dem Fehlen wohlgeformter Äußerungen um? • -> Sprecherbefragungen
Kontextualismus • Linguistische Erkenntnis geht vom Sprachgebrauch aus • John Sinclair: ehemaliger Chefredakteur des Collins Cobuild English Dictionary • Ko- und Kontext spielen für die Untersuchung sprachlicher Handlungen eine zentrale Rolle • John Rupert Firth (1890-1960)
Ko- und Kontext: John Rupert Firth Ko- und Kontext: John Rupert Firth • Kontext: Summe der unmittelbaren Rahmenbedingungen einer Sprachhandlung • Kultureller Kontext: steuert die Art und Weise, wie Sprecher sprachliche Handlungen wahrnehmen. • Situativer Kontext: determiniert die Funktion einer konkreten sprachlichen Handlung: Ort, Zeit und die Beteiligten
Ko- und Kontext: John Rupert Firth Ko- und Kontext: John Rupert Firth • Der Kotext einer linguistischen Einheit ist die Menge der linguistischen Einheiten, die im gleichen Text verwendet wurden. • Firth: Kotext von Wörtern und Sätzen auf vier Ebenen untersucht: • Phonetik u. Phonologie, Morphologie, Syntax und Lexik. • Kollokation: das faktische Miteinandervorkommen zweier oder mehrerer beliebiger Wörter W+W
Korpusbasierte Ansätze • Wir unterscheiden drei Ansätze in der Korpusanalyse • Der korpusbasierte, quantitative Ansatz • Kein Theoretischer Rahmen • Extrem empirisch • Korpus in Rohform • Verarbeitung gesprochener Sprache, statistische Sprachmodelle (Landauer, Jelinek)
Korpusbasierte Ansätze • Korpusbasiert, quantitativ und qualitativ: • Theoretischer Rahmen: Kontextualismus (Firth und Sinclair) • Korpus in Rohform (nicht linguistisch annotiert) • Kollokator-Paare -> Semantik • Anwendungsgebiet: Lexikographie, Sprachunterricht, Übersetzungswissenschaft
Korpusbasierte Ansätze • Korpusgestütz: • Strukturalismus (Saussure), Generative Grammatik (Chomsky), rationalistisch • Linguistisch annotiertes Korpus • Von den theoretischen Aussagen ausgehend • Domäne: Syntax • Anwendung: Lexikographie, theoretische L.
Korpuslinguistik in der Praxis • Erstellen eines Korpus • Vorhandene Korpora: British National Corpus • Wahl der Texte: Welche Texte nehme ich? -> Qualität:gemeinsames Thema, gemeinsames Medium, Wieviele Texte brauche ich? ->Quantität
Textdateien • Dateien sollte in Textdateine umgewandelt werden. MS Word Dateien (*.DOC) sollten vermieden werden. • *.TXT Dateien erstellen: MS Word öffnen, dann unter „Datei“->“Speichern unter“ und „Nur Text“ auswählen -> Name eingeben und speichern. • Texte separat abspeichern (um Teile einzeln analysieren zu können -> qualitativ)
Erstellen eines Korpus • Texte aus dem Internet: Kopieren und Einfügen in MS Word. Bilder und Graphiken können ignoriert werden, weil sie beim Umwandeln in *TEXT ohnehin verloren gehen. • Gedruckte Texte einscannen mit Hilfe von OCR-Software (Optical Character Recognition)
Text annotieren • Annotationen werden als solche vom Programm markiert: nicht zugehörig zum regulären Text • Beginn eines Absatzes mit: <p> markieren • Ende eines Absatzes mit: </p> markieren • Italics: <i> und </i> • Überschriften: <t> und </t> • Zitate: <q> und </q>
Text annotieren • Zusätzliche Infos : <head> und </head> (z.B. Herkunft und Alter des Autors)
WORD SMITH 3.0 • Programm zur Analyse elektronischer Textkorpora, liefert Infos über die wichtigsten und meistverwendeten Wörter und über die Umgebung, in der sie vorkommen • Wordlister: • Alle Wörter eines Korpus werden aufgelistet, • Statistische Informationen
Word Smith 3.0 • Um zu starten: Auf das grüne Licht klicken und dann „Choose texts“. Das folgende Fenster wird geöffnet:
Word Smith 3.0 Word list [S] • Types: unterschiedliche Wörter • Tokens: einzelne Vorkommen eines Wortes • Die Reihe love love love beinhaltet beispielsweise 1 Type und 3 Tokens • Ein Wort wird als eine Aneinanderreihung von Buchstaben definiert: door und doors sind zwei unterschiedliche Wörter
Stop List • Wie in der frequency list ersichtlich ist, sind die häufigsten Wörter gramatische Wörter, wie Artikel und Pronomen. Um sich auf Inhaltswörter konzentrieren zu können, gibt es Stop lists. • Stop Lists beinhalten alle Wörter, die vom Programm ignoriert werden sollen. • Klick auf „Settings“, „Stoplist“ dann „Browse“ um die Stop list zu lokalisieren, „Activated“ Box muss ein Hackerl haben und dann auf „Browse“
Clusters „Settings“-> auf irgend ein Element klicken, dann auf den Tab mit Wordlist klicken, -> dann auf CLUSTERS klicken: und die gesuchte Länge der Clusters eingeben: (hier im Beispiel 4) Nun werden die häufigsten 4-Wort-Kombinationen angezeigt. „Activated box“ anklicken und auf „OK“ gehen.
Wähle zuerst die Texte aus (wie im Word lister) und gehe auf „Specify Search-Word“
Welche Wörter kommen unmittelbar in der Umgebung des Suchwortes vor? Klick auf „Horizons, etc.
The Power Struggle of "the Flowers of a Nation" in their Encounter with "ABC-prevention" and "Sugar Daddies". A CDA of South African Girls' Risks of HIV Infection Discourse.
Presentation-Outline • Background information about the social problems of African girls and HIV infection • African girls’ conception of HIV Risk • “Sugar daddy”: a conceptual metaphor • Indepth-Analysis of one text • Textual events • Text populations • Picture Analysis • Ideological functions and conclusions