210 likes | 225 Views
Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A. Definition von „Korpus“.
E N D
Korpusanalyseund Forschungsfrage Korpusbasierte Wissenserschließung(Übung) im WS 2010/11vonDr. phil. Helmuth Sagawe M.A.
Definition von „Korpus“ • Korpus / Corpus [Neutr., Pl. Corpora; lat. corpus 'Körper']. Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprach-, soziologischen und kulturwissenschaftlichen Untersuchungen dienen. • Angelehnt an:(Hadumod Bußmann (Hg.): Lexikon der Sprachwissenschaft. 3., aktualisierte und erweiterte Aufl. Kröner, Stuttgart 2002, ISBN 3-520-45203-0 )
Reine Textkorpora • Sie liegen in geschriebener Form vor. Das kann eine Sammlung von: Texten sein, oder auch eine Sammlung von transkribierter oder medial archivierter mündlicher Sprachäußerungen.
Beispiele(teilweise kostenpflichtig) • Korpora geschriebener Gegenwartssprache des IDShttp://www.ids-mannheim.de/kt/projekte/korpora/Bestand: über 2 Milliarden Token • DWDS-Korpus http://www.dwds.de/Bestand: 1.2 Milliarden Token (intern), 100 Millionen Token (öffentlich) • Schweizer Textkorpushttp://www.schweizer-textkorpus.ch/Im Testbetrieb besteht das Korpus nun aus etwa 10 Mio. Token. Im Endausbau sind 20 Mio. Token geplant. • Dortmunder Chatkorpushttp://www.chatkorpus.uni-dortmund.de/Bestand: 1.1 Mio. Token aus 150'000 Chat-Beiträgen. • British National Corpus (BNC)http://www.natcorp.ox.ac.uk/Bestand: über 100 Millionen Token
Sprachkorpora • Hier liegen die Daten nicht (nur) transkribiert vor, sondern auch als Audio- und/oder Videoaufnahmen. Die Daten sind dann mit phonetischen und linguistischen Informationen annotiert (angereichert).
Beispiele • Datenbank Gesprochenes Deutsch (DGD) des IDShttp://www.ids-mannheim.de/ksgd/dgd/Bestand: ca. 900 Videoaufnahmen, 16'300 Tonaufnahmen mit einer Gesamtdauer von 4400 Stunden, sowie 6650 Transkripte • Diverse, meist englischsprachige Korpora, die aber oft nicht öffentlich zugänglich sind. Auswahl: http://www.korpuslinguistik.de/Öffentlich z.B.: MICASE - Michigan Corpus of Academic Spoken Englishhttp://www.lsa.umich.edu/eli/micase/index.htm
Multimodale Korpora • Sprachkorpora, die mit zusätzlichen Informationen wie: Prosodien (die Gesamtheit spezifischer sprachlicher Eigenschaften wie Akzent, Intonation, Quantität (Sprech-) Pausen. Mimik, Gestik etc.) angereichert sind. Normalerweise als Videoaufnahme.
Beispiele • Archiv für Gesprochenes Deutsch des IDShttp://agd.ids-mannheim.de/Bestand: ca. 900 Videoaufnahmen, 16'300 Tonaufnahmen mit einer Gesamtdauer von 4400 Stunden, sowie 6650 TranskripteDie Videoaufnahmen sind jedoch oft nicht öffentlich zugänglich. • Datenbank mit Mundart • Welche Erkenntnisse könnte man aus der Mundart-Datenbank schließen?
Formulierung von Forschungsfragen • Die Forschungsfrage ist normalerweise relativ vage und weit gefasst. Z.B.: - Nimmt geschriebene Sprache eigentlich immer mehr Formen des Gesprochenen an? - Wie ist eigentlich die Einstellung der Leute zu Anglizismen im Deutschen? - Gibt es eine ständige Veränderung, wie über Terror gesprochen wird? - ……… - ………
These • Die Forschungsfrage wird zu einer oder mehreren Thesen zugespitzt, die man falsifizieren (als unrichtig) oder ggf. verifizieren ( als richtig) unter Berücksichtigung der Kontextbedingungen bezeichnen kann.
Beispiel-Thesen • Bestimmte typische Merkmale gesprochener Sprache treten in bestimmten Textsorten immer häufiger auf. • Bezüglich der Einstellung zu Anglizismen sind in der Presse zwei typische Argumentationsmuster auszumachen: 1) Anglizismen im Deutschen sind etwas völlig natürliches und gehören zum Sprachwandel. 2) Zuviel Fremdmaterial schadet dem Deutschen und es geht dabei unter. • Die Semantik von z.B. Terror hat sich in den letzten 10 Jahren in der geschriebenen Sprache verändert: Früher wurde unter "Terror" mehr, vor allem auch nicht gewalttätige oder kriegerische Vorgänge, gefasst, was heute kaum mehr der Fall ist.
Operationalisierung • Hier liegt die große Schwierigkeit des wissenschaftlichen Arbeitens: Wie kann die These so operationalisiert werden, dass Faktoren erhoben werden können, die man konkret empirisch testen kann? Immer wieder muss geprüft werden, ob die Operationalisierung tatsächlich die These falsifizieren oder verifizieren kann, ob sie also valide ist.
Validität: • Das Gemessene/Analysierte (die Aussage) sagt auch tatsächlich etwas über das aus, was man messen, analysieren möchte.
Reliabilität • Zudem muss die Analyse reliabel (zuverlässig) sein: • Reliabilität: Das Messen/Analysieren muss bei einer Wiederholung zu einem anderen Zeitpunkt durch andere Personen, aber unter den gleichen Bedingungen und Regeln, zum gleichen Resultat führen.
Meist kann nur ein Teil der These operationalisiert werden und man muss versuchen, mit mehreren unterschiedlich gelagerten Analysen Hinweise für oder gegen die These zu finden. (Methodenmix)
Die erste der oben skizzierten Thesen könnten z.B. so operationalisiert werden: • Bestimmte typische Merkmale der gesprochenen Sprache treten in unserem Korpus immer häufiger auf.Man könnte konkrete Phänomene gesprochener Sprache feststellen: 1. Satzabbrüche, Interjektionen.
KorpusaufbauMethodenentwicklung Pretest • Welche Methode kann die zu operationalisierten Forschungsfragen beantworten. Es können mehrere Methoden angewandt werden, die man so gegeneinander abwägen muss. • Operationalisierung, Korpusaufbau und Methodenentwicklung ist ein im Kreis laufender Prozess. Zudem sollte mit einem Pretest anhand eines Teilkorpus immer wieder überprüft werden, ob die angestrebte Methodik überhaupt funktioniert.
Korpusanalyse, Evaluation / Interpretation • Nun kann das gesamte Korpus analysiert und die Resultate hinsichtlich der Thesen evaluiert und interpretiert werden. • Ggf. muss man die These und/oder die Operationalisierung korrigieren und den Analyseprozess wiederholen.
Kleine Literaturauswahl • Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. Berlin, New York: de Gruyter. ISBN 978-3-11-021584-7. • Bubenhofer, Noah: „Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge“ – Online-Kurs: http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=anwendungen_forschungsprozess.html
Aufgabe: • Datenbank mit Mundarttexten • Welche Erkenntnisse könnte man aus der Mundart-Datenbank schließen? • Frage nach der Häufigkeit von Anglizismen? • Vorgehensweise bei der Analyse?