1 / 32

Lexikografie, Wörterbücher und Korpuslinguistik

Lexikografie, Wörterbücher und Korpuslinguistik.

Download Presentation

Lexikografie, Wörterbücher und Korpuslinguistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lexikografie, Wörterbücher und Korpuslinguistik

  2. Die Lexikografie oder Lexikographie (von griech.: lexikon (biblion) = Wörterbuch + graphein = schreiben) beschäftigt sich mit dem Erstellen von Wörterbüchern. Das Erstellen eines Wörterbuches ist ein komplexer und meist langwieriger Prozess. Bei allen größeren Projekten wird die Arbeit von mehreren Personen ausgeführt. Sie führt zu einem gedruckten Wörterbuch, einem elektronischen Wörterbuch oder zu einer lexikalischen Datenbank, die Grundlage für beides sein kann.

  3. Phasen während der Erstellung eines Wörterbuches • In der nächsten Phase werden die Einheiten ausgewählt, die als Lemmata bearbeitet werden sollen (z. B. die 100 000 häufigsten Wörter der deutschen Gegenwartssprache). • Das Lemma ist der Eintrag oder das Stichwort in einem Wörterbuch (Lexikon, Enzyklopädie). Man bezeichnet es sowohl als Grundform eines Wortes als auch als Zitier- oder Grundform eines Lexems. Der Vorgang zur Bestimmung der genaueren Lemmata wird als Lemmaselektion oder auch Lemmatisierung bezeichnet.

  4. Phasenwährend der ErstellungeinesWörterbuches • EinLexem – einesprachlicheGrundform – könnteimPrinzipaufbeliebigeWeisebenanntwerden, da es alssprachlicheEinheitüberverschiedeneFormenabstrahiert, aberselbstkeineFormbesitzt, die es gegenüberdiesenanderenFormenauszeichnet. ÜblicherweisewerdenLexeme nach einerkonventionellbestimmtenFormbenannt, diedannZitierform (auch: Grundform, Stichwort) diesesLexemsheißt:

  5. Phasenwährend der ErstellungeinesWörterbuches • Zitierform (auch: Grundform, Stichwort) diesesLexemsheißt: • EinLexem – einesprachlicheGrundform – könnteimPrinzipaufbeliebigeWeisebenanntwerden, da es alssprachlicheEinheitüberverschiedeneFormenabstrahiert, aberselbstkeineFormbesitzt, die es gegenüberdiesenanderenFormenauszeichnet. ÜblicherweisewerdenLexeme nach einerkonventionellbestimmtenFormbenannt, diedannZitierform (auch: Grundform, Stichwort) diesesLexemsheißt:

  6. Phasenwährend der ErstellungeinesWörterbuches • ImDeutschenistdieZitierformfürNomennormalerweise der Nominativ Singular (z. B. Traum), für Verben der Infinitiv Präsens Aktiv (z. B. träumen). • AmWortorientierteLinguistische Nachschlagewerke (Lexika, Thesauri, etymologische Werke) verwendenals Lemma alleLexeme, währendNachschlagewerke, diemehranbegrifflicherLemmaselektierunginteressiertsind (Sachwörterbücher, Fachglossare, Enzyklopädien undähnliches) alsZitierform – insbesondereimDeutschen – daseinfachste Substantiv bevorzugen: So fasst man etwa „der Traum“ mitdem Verb „träumen“ bzw. dessenSubstantivierungen „dasTräumen“ und „dasGeträumte“ untereinemgemeinsamen Lemma zusammen, insofernsiedenselbenSachverhaltbeschreiben. Hierwirdmeistvom Lemma alseinemDeskriptor gesprochen.

  7. Phasenwährend der ErstellungeinesWörterbuches • DassdieWahl der Zitierformvomlexikologischen Typ des Nachschlagewerksabhängigist, zeigtfolgendesBeispiel: • DasWort „Mäuse“ wirdunterdem Lemma Mauseingeordnet. • DieseVorgehensweisewählteinWörterbuch, da „Maus“ lexikalischeZitierform des Plurals „Mäuse“ ist. • DasWort „Maus“ wirdunterdem Lemma Mäuseeingeordnet. • Das Lemma kanneinenÜberbegrifffürverwandteThemendarstellen: HieristdiezoologischeGattung der MäuseÜberbegriff des umgangssprachlichen „Maus “, dietaxonomische Zitierformwirdhöherbewertetalsdie der Umgangssprache („Alles, was in etwawieeineMausaussieht, isteineMaus“). Dafürwirddie „Maus“ alsEingabegeräteinesComputersalseigenständiges Lemma geführt

  8. Phasenwährend der ErstellungeinesWörterbuches • In der HauptphasewerdenArtikelfürdasWörterbucherstellt. Beschreibungsgegenstandsinddabeidiezuvorausgewählten Lemmata. Die BearbeiterstützensichdabeiaufdieMaterialien der Wörterbuchbasis, alsoBelege undaufihreigenesWissen. • Die fertigenArtikelwerden in meistmehrerenZyklenüberarbeitetundkorrigiert, bis jederArtikelvon der Projektleitungabgesegnetist.

  9. Phasenwährend der ErstellungeinesWörterbuches • Der letzteSchrittistdieAufbereitung des Materialsfür den Druck oder für den ZugriffüberdieSchnittstelleeineselektronischenWörterbuchs. • Nach ihremErscheinenaufdemMarktwerdenvieleWörterbucherimmerwiederüberarbeitet, aktualisiertundneuaufgelegt. So istdasRechtschreibwörterbuchvonDudenimJahr 2009 bereits in der 25. Auflageerschienenundenthält ca. 5000 neueEinträge.

  10. WÖRTERBÜCHER • Wörterbücher sind Nachschlagewerke, die Wörter oder andere sprachliche Einheiten in Listen verzeichnen – meistens handelt es sich um eine alphabetische Sortierung – und jedem Lemma (Eintrag) entsprechende sprachliche Äquivalente zuordnen.

  11. WÖRTERBÜCHER • Die Wörterbücher werden nach mehreren Aspekten unterschieden: • 1. nach der Anzahl der Sprachen: • - einsprachige (deutsche z. B.: DUDEN: Deutsches Universalwörterbuch, Wahrig: Deutsches Wörterbuch, Langenscheidt: Großwörterbuch Deutsch als Fremdsprache) und zweisprachige (tschechisch-deutsch, deutsch-tschechisch) • 2. nach dem Umfang • - kleine, mittlere und große • 3. nach dem Inhalt • - allgemeine, spezialisierte (nach einzelnen Bereichen: rechtliche, ökonomische, • medizinische…)

  12. WÖRTERBÜCHER • Ein gutes einsprachiges Wörterbuch umfasst mindestens 100 000 lexikalische Einheiten, allgemein gebrauchte Fachtermini, sachliche Informationen, klare Definitionen, übersichtliche Struktur, Beispiele, Synonyme und Hinweise zum angemessenen Wortgebrauch. • Ein zweisprachiges Wörterbuch enthält dagegen keine Definitionen sondern fremdsprachige Äquivalente. Für die Praxis ist sehr wichtig, dass das Wörterbuch dem Übersetzer zu richtigen Entscheidungen hilft und dass es möglichst viele Informationen über verschiedene Äquivalenzebenen enthält

  13. WÖRTERBÜCHER • Für eine literarische Übersetzung ist sehr nützlich auch ein etymologisches Wörterbuch, das u.a. historische Änderungen in der Wortbedeutung erfasst. • Das rückläufige Wörterbuch dient als ein Hilfsmittel beim Reimen – es ist alphabetisch vom Ende zusammengestellt. • Weiter gibt es auf dem Markt phraseologische undSprichwortwörterbücher.

  14. WÖRTERBÜCHER • Der Übersetzer hat auch einige in eigener Muttersprache geschriebene Wörterbücher zur Verfügung, z. B. ein einsprachiges und ein synonymisches Wörterbuch, geltende Rechtschreibnorm usw. Sehr wichtig ist auch ein Fremdwörterbuch. • Das Wörterbuch wird vom Übersetzer in zwei Phasen der Übersetzung verwendet: • bei der Analyse des Ausgangstextes und bei der Produktion des Zieltextes.

  15. WÖRTERBÜCHER • Bei der Analyse des Ausgangstextes benutzt er das Wörterbuch, wenn er ein Wort nicht versteht oder kann seine Bedeutung aus dem Kontext nicht bestimmen – z. B.: • der Übersetzer kennt das Wort in anderen Zusammenhängen, doch er weiß nicht, was das Wort in einem konkreten Kontext bedeutet, • der Übersetzer trifft im Text mehrere Wörter mit ähnlicher Bedeutung und hat Schwierigkeiten bei der Erkennung der Bedeutungsunterschiede, • der Übersetzer kennt das Wort aus dem alltäglichen Gebrauch, aber setzt voraus, dass es in diesem Fachkontext eine andere Bedeutung hat, • der Übersetzer kommt zu einem Kompositum, dessen einzelne Komponente er kennt, aber nicht die Bedeutung der ganzen Zusammensetzung. • Šimon, L. Úvod do teórie a praxeprekladu (nielen) pre nemčinárov, Prešov 2005, S. 22

  16. WÖRTERBÜCHER • In der Phase der Zieltextesproduktion verwendet der Übersetzer das Wörterbuch, wenn er nicht weiß, wie er die Bedeutung eines Wortes aus der Ausgangssprache, das er versteht, in der Zielsprache ausdrücken soll: • der Übersetzer kennt für ein bestimmtes Wort der Ausgangssprache kein Äquivalent in der Zielsprache, • der Übersetzer kennt mehrere gleichwertige Wörter für ein bestimmtes Wort, aber weiß nicht, welches von ihnen für den Zieltext am besten geeignet ist. • usw.

  17. AUSWAHL EINES WÖRTERBUCHES • Für die Übersetzungstätigkeit wird empfohlen, das Wörterbuch nach folgenden Kriterien auszuwählen: • 1. Umfang eines Wörterbuches • - das Wörterbuch sollte mindestens 100 000 Stichwörter enthalten • 2. Qualität und Art der Präsentation des Wörterbuchsinhaltes • - die Definitionen einzelner Ausdrücke sind vollständig und auch mit den Anwendungsbeispielen präsentiert. Sie weisen auch auf weitere Ausdrücke, z. B. Synonyme hin.

  18. AUSWAHL EINES WÖRTERBUCHES • 3. Alter des Wörterbuches • - je jünger das Wörterbuch ist, desto breiter aktuellen Wortschatz enthält. Ältere Wörterbücher sind sehr gut bei Übersetzungen von alten Texten. • 4. Zielgruppe der Wörterbuchbenutzer • - außer Übersetzungs- und einsprachigen Wörterbüchern braucht ein professioneller Übersetzer auch spezielle enzyklopädische Wörterbücher. Diese (auch Sprach- und Sachwörterbücher oder integrierte Wörterbücher genannt) erfüllen die Grundfunktionen von sprachlexikographischen und sachlexikographischen Wörterbüchern und oft treten in gemischter Form auf, vor allem im Bereich der Fachlexika, wo die sprachlichen Informationen nachträglich zum Lemma und dessen Übersetzbarkeit integriert werden.

  19. AUSWAHL EINES WÖRTERBUCHES • 5. Verfasser des Wörterbuches • - für einen Tschechen als einen Anwender ist es bei den zweisprachigen Wörterbüchern empfehlenswert, dass der Autor auch ein Tscheche ist. • Jeder seriöse Übersetzer bildet eigene Dateien, die solche Bereiche betreffen, die er für seine Tätigkeit braucht. Er muss natürlich kodifizierte terminologische Äquivalente verwenden.

  20. AUSWAHL EINES WÖRTERBUCHES • Außer Wörterbüchern verwenden Übersetzer auch Lexika. Der Hauptunterschied zwischen einem Wörterbuch und einem Lexikon liegt darin, dass das Wörterbuch auf dem Niveau Langue arbeitet, während das Lexikon bevorzugt die Ebene Parole. • Langue ist ein überindividuelles System einer Sprache, das aus Wortschatz und grammatischen Regeln besteht. Sie liegt der gesprochenen Rede (Parole) zugrunde. • Parole ist eine konkrete, räumlich-zeitliche Realisierung der Langue in konkreten Äußerungen. Das bedeutet, es ist eigentlich die Rede, oder individuelle Sprachverwendung.

  21. Korpuslinguistik • Die KorpuslinguistikisteinderzeitaufstrebenderBereich der Sprachwissenschaft. Darin werdenneueErkenntnisseüberSprache generell oder überbestimmteeinzelne Sprachen erlangt oder bestehendeHypothesen überprüft, wobeialsGrundlagequantitative oder qualitativeDatendienen, dieaus der Analyse vonspeziellenTextkorpora gewonnenwerden. GroßeVerbreitungfanddieKorpuslinguistikimdeutschsprachigenRaum ab der zweitenHälfte der 1990er Jahre. Siesteht, wissenschaftstheoretisch betrachtet, demaugenblicklichherrschenden Paradigma des Generativismusentgegen. Es ist nach wie vor umstritten, ob es sichbeidiesemGebiet um eineMethode oder um eineneigenenneuenZweig der Sprachwissenschafthandelt.

  22. Datenmaterial und Forschungsgegenstand • Gegenstand der KorpuslinguistikistdieSprache in ihrenverschiedenenErscheinungsformen. Die Korpuslinguistikistdabei durch dasVerwendenvonauthentischenSprachdatencharakterisiert, die in großenKorporadokumentiertsind. BeisolchenTextkorporahandelt es sich um SammlungenvonsprachlichenÄußerungen, die nach bestimmtenKriterienundmiteinembestimmtenForschungszielzusammengestelltwerden. Die Erkenntnisse der KorpuslinguistikbasierensomitaufnatürlichenÄußerungeneinerSprache, alsoaufSprache, wiesietatsächlichverwendetwird. DieseÄußerungenkönnenentwederschriftlichentstandensein oder es kannsich um spontane oder elizitiertegesprocheneSprachehandeln. Die meistenKorporaliegenheute in digitalerForm vor undsindmittelsbestimmter Software fürdielinguistischeRecherchenutzbar

  23. Datenmaterial und Forschungsgegenstand • Ziel der Korpuslinguistik ist es, anhand dieser Daten entweder bestehende linguistische Hypothesen zu überprüfen (bestätigen oder widerlegen) oder durch explorative Datenanalyse neue Hypothesen und Theorien über den Gegenstand zu gewinnen. Man spricht im ersten Fall von „korpusgestützter“ linguistischer Analyse und im zweiten Fall von „korpusbasierter“ linguistischer Analyse.

  24. Methodische Probleme • EinbedeutendesmethodischesProblem der KorpuslingustikistdasVerhältnis der Datenbasis, also des Korpus, zumuntersuchtenGegenstand. Die Datenbasiskönntetheoretisch den Gegenstandkomplettabdecken, wenn es sich um eineheutenochverwendeteSprachehandelt. Doch man kannein Korpus nichtalseineimSinne der schließenden Statistik valideStichprobebetrachten, da der Gegenstand, auf den sichdieStichprobebezieht – alsoeinebestimmteSprache oder einbestimmterSprachgebrauch –, in der PraxisalsGanzesnichterfassbarist. Man behilftsichheutedamit, ein Korpus nichtmehr (wieursprünglichgefordert) als „repräsentativ“ imstatistischenSinnefür den untersuchtenGegenstandzubezeichnenundErkenntnisse, dieaufGrundvonKorporagewonnenwerden, lediglichalsvorläufigplausibelzubetrachten. Die ZusammenstellungvongroßenKorpora soll daher „ausgewogen“ sein, also in einembestimmtenVerhältnisausunterschiedlichenTextsortenbestehen.

  25. Methodische Probleme • Die Grundannahme der Korpuslinguistik, dassErkenntnisseüberSpracheanhandvonrealensprachlichenÄußerungengewonnen oder überprüftwerdenkönnen, bringtzweiweiteremethodischeProbleme oder Einwändemitsich: • Irreführende positive Evidenz: In spontanengesprochenenundsogar in überlegtformuliertenschriftsprachlichenÄußerungenkönnen bis zueinemgewissen Grad Abweichungenvon der sprachlichenNormauftreten. Bei der Untersuchungeines Korpus kann es imEinzelfallschwierigseinzuentscheiden, ob eine (meistkleine) MengevonBelegeneinesbestimmtensprachlichenPhänomensAusdruckeinestatsächlichexistierendensystematischen Sprachgebrauchs istundsomiteinelinguistische These stützt oder ob man dieseBelegealsnormabweichendendbzw. fehlerhaftenSprachgebrauchansehenmuss.

  26. Methodische Probleme • Negative Evidenz: VieleAussagenzusprachlichenPhänomenenlassensichdannselbst in sehrgroßenKorporanichtbelegen, wenn der GebrauchbestimmtersprachlicherKonstruktionensehrseltenist. AusdemNichtvorhandenseineinersolchengesuchtenKonstruktionim Korpus kannabernichtzwingendgeschlossenwerden, dass es nichtexistiere oder ungrammatischwäre. • ImerstenFallkann man Ergebnisse, die durch Korpusanalysegewonnenwurden, durch eineparalleleSprecherbefragungzustützenversuchen. ImzweitenFallhilftnurdieUntersuchungweitererDaten oder, alsultima ratio, ebenfallseineSprecherbefragung

  27. Geschichte und Anwendungsgebiete • Die weite Verbreitung und die hohe Bedeutung der englischen Sprache sowie eine insgesamt hohe Affinität zur empirischen Forschung in der Sprachwissenschaft sind zwei Gründe, weshalb sich die computergestützte Datenananalyse, wie sie die Korpuslinguistik eine ist, zuerst im anglo-amerikanischen Raum entwickelt hat.

  28. Geschichte und Anwendungsgebiete • Die dortigemoderneKorpuslinguistikwurde 1967 vonHenry Kucera und Nelson Francis durch ihreArbeit „ComputationalAnalysisofPresent-DayAmericanEnglish“ begründet. DerenErgebnissewurdenanhand es „Brown-Corpus“ (genau: „Brown University Standard Corpus ofPresent-DayAmericanEnglish“) gewonnen. Diesesumfassteursprünglich rund 1 MillionWörter. WeitereenglischsprachigeKorporafolgten, wieetwa in den 1980er Jahrendasgleichgroße „Lund-Oslo-Bergen-Korpus“ (LOB) . EineneueWegmarkewurde durch dieErstellungeinesdieseZahlweitüberschreitendenTextkorpusimRahmen der lexikographischenArbeitenbeimenglischenCollinsVerlagerreicht. DessenErgebniswardieersteAuflage des „CollinsCobuildDictionaryofEnglish“. Ihmfolgte in einerneuenGrößenordnungdienicht-kommerzielleErstellungeinesausgewogenen, 100 MillionenlaufendeWörterumfassenden „BristishNational Corpus“, dasheuteimmernochalsReferenzkorpusfürlinguistischeUntersuchungen des britischenEnglischverwendetwird. Ihmtrittheutedas „AmericanNational Corpus“ zurSeite. Andereregionale Varietäten des Englischenwerdenim „International Corpus ofEnglish“ (ICE) erfasst.

  29. Geschichte und Anwendungsgebiete • Vorreiter der deutschenKorpuslinguistikwarendas Institut fürKommunikationswissenschaftundPhonetik (IKP) an der Universität Bonn unddas Institut fürDeutscheSprache in Mannheim. HeutesindalsdeutschsprachigeKorporabesondersfolgendezunennen: • das „DeutscheRefernzkorpus“ (DeReKo) am Institut fürDeutscheSprache in Mannheim, dasmehrereMilliardenTextwörterumfasst

  30. Geschichte und Anwendungsgebiete • dasKernkorpus des „DigitalenWörterbuchs der DeutschenSprache“ (DWDS) an der Berlin-Brandenburgischen Akademie der Wissenschaften • das Korpus des Projekts „DeutscherWortschatz“ an der UniversitätLeipzig (vorwiegend Texte aus Online-Medien) • das „SchweizerTextkorpus“ an der UniversitätBasel (derzeitnochimProbebetriebund in Erweiterung) • Nebendiesen der ÖffentlichkeitkostenloszugänglichenKorporamitgarantierterLangzeitpflegegibt es eineVielzahlvonSpezialkorporafürvieleSprachstufenundVarietäten des Deutschen. (EineÜbersichthierübergebenLemnitzer / Zinsmeister (2010).)

  31. Geschichte und Anwendungsgebiete • Korporawerden, wiedasBeispiel des CollinsCobuildProjekts, aberauchdasAmericanHeritageDictionary (1969) zeigen, voneinerLexikographiegenutzt, diedemBenutzernichtnurpräskriptive (wiesolleinWortbenutztwerden), sondernauch deskriptive (wiewirdeinWorttatsächlichbenutzt) Beschreibungenanbietenwill. QuantitativeErhebungenzuWorthäufigkeitsstatistiken könnendieLemmaauswahlfürvieleArtenvonWörterbüchernsteuernundobjektivieren. HeuteistdieVerwendungvonKorporaauch in deutschenWörterbuchverlagenetabliert. EinigeArtenvonlexikalischenInformationenkönnenerstaufGrund der Analyse großerTextkorporagewonnenwerden (z.B. zeitlichgestaffelteFrequenzprofile), anderekönnen durch Korporabesserabgesichertwerdenals durch dieSprachkompetenzeinzelnerLexikographen.

  32. Geschichte und Anwendungsgebiete • Korporawerdenheuteauchvermehrt in der SprachdidaktikalsForschugnsgrundlagegenutzt. Anhand der Ergebnisse, wieeineSprachetatsächlichgebrauchtwird, werdenauchdieUnterrichtsmaterialiengestaltet, undsogenannteLernerkorporazeigenauf, in welchenLernstadienwelcheFehlerbei der Sprachproduktionvorherrschen. • FürspeziellelinguistischeFragestellungenwerden in zunehmendemAusmaßauchanderespezielleKorporaerarbeitet, dieimUmfangerklärlicherweiseweitauskleinersindalsReferenzkorpora, dieeineSpracheinsgesamterfassensollen. Solchegibt es beispielsweiseimBereich der Untersuchungen des Sprachgebrauchs in der Politik und in den Medien.

More Related