160 likes | 354 Views
Komplexität menschlicher Sprachen. Karin Haenelt 19.6.2010. Komplexität menschlicher Sprachen und Bestimmung der Komplexität. Mohri / Sproat 2006. Menschliche Sprachen haben vermutlich die Komplexität schwach-kontextsensitiver Sprachen Bestimmung der Komplexität
E N D
Komplexität menschlicher Sprachen Karin Haenelt 19.6.2010
Komplexität menschlicher Sprachen und Bestimmung der Komplexität Mohri/Sproat 2006 • Menschliche Sprachen haben vermutlich die Komplexitätschwach-kontextsensitiver Sprachen • Bestimmung der Komplexität • korrekter Beweis (Shieber 1985): Schnitt einer beobachteten Konstruktion (cross-serialdependency) mir einer regulären Sprache ergibt eine schwach-kontextsensitive Sprache • fehlerhafte Argumente: • schließen von der Beobachtung einer nicht-regulären Konstruktion auf die Komplexität der umfassenden Sprache • vermischen Komplexität der Sprache und Komplexität der Maschine zur Erkennung bestimmter Konstruktionen
Beweis von Shieber 1985:Schweizerdeutsch ist schwach-kontextsensitiv Jan säit das merd’chindem Hans es huuslöndhälfeaastriiche y1 y2 y3 x1 x2 x3 John saidthatwethechildren-acclet Hans-dathelp thehousepaint Basis: beobachtetes Phänomen: überkreuzende Abhängigkeit (cross-serialdependency)
Beweis von Shieber 1985:Schweizerdeutsch ist schwach-kontextsensitiv Mohri/Sproat 2006 • Form der überkreuzenden Abhängigkeit:v1 noun1m noun2n v2 verb1m verb2n v3 • noun{1,2}: Nomina, • verb{1,2}: korrespondierende Verben, • vi weitere Ausdrücke • Homomorphismus • v{1,2,3}→ w bzw. x bzw. y • noun{1,2}→ a bzw. b • verb{1,2}→ c bzw. d • Intersektion mit der regulären Sprache wa*b*xc*d*y ergibt schwach-kontextsensitive Sprache wambnxcmdny
Beweis von Shieber 1985:Schweizerdeutsch ist schwach-kontextsensitiv Mohri/Sproat 2006 • kontextfreie Sprachen sind abgeschlossen unter Homomorphismus und unter Schnittbildung mit regulären Sprachen • daher kann die Ausgangssprache der Schnittbildung keine strikt-kontextfreie Sprache gewesen sein • Shiebers Beweis • beruht nicht auf Annahmen über die syntaktische Struktur der Konstruktion • sondern auf der Betrachtung der Sprache als Menge von Ketten (zur Unterscheidung: eine Kette kann durch verschiedene Grammatiken verschiedene Strukturierungen erhalten)
Voraussetzungen der Argumentation:Länge der Sätze oder Wörter sei unbegrenzt Mohri/Sproat 2006 alle Beweise einer höheren Komplexität als regulärer Sprachen gelten nicht, wenn die Phänomene nicht als unbegrenzt angenommen werden können. keines der genannten Argumente ist interessant, wenn man die Länge der Sätze (oder Wörter) als begrenzt durch eine große Zahl N annimmt viele beobachteten Konstrukte sind nur dann nicht-regulär, wenn die Folge der Wörter oder Sätze als unbegrenzt angenommen wird so auch Chomsky 1957 der endliche Automat zur Beschreibung der Sprache kann allerdings sehr groß werden
Fehlerhafte ArgumentationEine Schwalbe mache einen Sommer Mohri/Sproat 2006 • Fehlerhafte Argumentation • Man entdeckt eine spezielle Konstruktion K einer Sprache L,die eine Sprache L′ ⊆ L erzeugt, die an einer wohl-definierten Position P‘ in der Chomsky-Hierarchie liegt. • Hieraus folgert man, dass L an Position P ≥ P′ liegt. Sei beispielsweise L‘ kontextsensitiv, so sei L mindestens kontextsensitiv. • reguläre Sprachen können nicht-reguläre Konstrukte enthalten • jede Sprache L‘ über einem Alphabet Σ ist eine Teilmenge der Sprache L = Σ*. • Die Entdeckung einer Subsprache L‘ ⊆ L – egal wie komplex - besagt nichts über die Komplexität von L
… Beispiel Mohri/Sproat 2006 • L = {apbq : p, q ∈ ℕ } ist eine reguläre Sprache • Ein Automat, der L erkennt, erkennt auch • L1 = {anbn : n ∈ ℕ } • L2 = {wwR: w ∈ Σ*}
Fehlerhafte ArgumentationSprache (Menge von Zeichenfolgen) – Struktur einer Konstruktion Mohri/Sproat 2006 • versäumt zu unterscheiden: • Komplexität der Sprache und Komplexität der Maschine zur Erkennung bestimmter Konstruktionen • Sprache und Struktur
Beispiele fehlerhafter Argumentationen Mohri/Sproat 2006 • Chomsky (1957): English is not a finite state language. (KorrekteTerminologie: regular language) • Large classes of context-free languages such as some of those used in Chomsky’s argument have been proved to be representable by weighted finite automata (Cortes & Mohri 2000). • Hobbs & al. (1997) Finite-state models are clearly not adequate for full natural language processing... . Every computational linguistics graduate student knows, from the first textbook that introduces the Chomsky hierarchy, that English has constructs, such as center embedding, that cannot be described by any finite-state grammar. • (Arnold 2000) .Natural Languages are not Finite State (‘regular’). There is no FSA (hence type 3 grammar) that can generate anbn. Natural Languages are infinite, and have constructions like anbn, i.e. ‘nested dependencies’...
Modellierung der Struktur menschlicher Sprachen Kunze 2001: 143f • Morphologie • Mittel der Wahl: Typ-3-Grammatiken, reguläre Sprachen • einige Fälle können durch geringe spezielle Erweiterungen endlicher Automaten effizienter behandelt werden • Syntax • Für die endliche "Kernsprache" der tatsächlich vorkommenden akzeptablen Sätze des Deutschen (und anderer Sprachen) kann man annehmen, dass eine nicht-triviale Beschreibung als Typ-3-Sprache möglich ist • Der menschliche Analysator bewältigt nur bestimmte Schachtelungstiefen (für begrenzte Schachtelungstiefen reicht Typ-3)
Modellierung der Struktur menschlicher Sprachen Kunze 2001: 143ff • Bei Fortsetzung der „Kernsprache“ ins Unendliche tritt ein „Komplexitätsschub“ bei Zentraleinbettungen auf • Bedingungen nicht mit Typ-3 Grammatik darstellbar • Anzahl der Nomina und Verben muss übereinstimmen • gewisse Merkmale, die eine Kongruenz sichern, müssen übereinstimmen • Unendliche Einbettungen kommen in der Praxis nicht vor
… • Trend in der Folge von Chomsky 1957: Suche nach immer komplexeren Konstruktionen • Motiv • eher Konstruktion neuer formaler Theorien • als Sammlung und Beobachtung von Sprachdaten
Effektivität und Effizienz Kunze 2001: 143ff • Effektivität • eine Struktur mit einer Typ-3-Grammatik beschreiben zu können, bedeutet nicht, dass man sie auf diese Weise effektiv beschreiben kann • beispielsweise kann eine einzige kontextsensitive Regel einer großen Menge kontextfreier Regeln entsprechen • Effizienz • endliche Automaten haben eine viel bessere Laufzeit – O(n)- als Automaten mit zusätzlichen Speichern – O(nx)
Literatur Arnold, Doug (2000) LG511 Computational Linguistics I: Parsing and Generation. University of Essex. URL: http://courses.essex.ac.uk/lg/LG511/1-Formal/index 7.html. Chomsky, Noam (1957) Syntactic Structures. The Hague: Mouton. Cortes, Corinna & MehryarMohri (2000) Context-Free Recognition with Weighted Automata. Grammars 3: 2–3. Hobbs, Jerry R., Douglas Appelt, John Bear, David Israel, MegumiKameyama, Mark Stickel & Mabry Tyson (1997) FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text. In Emmanuel Roche & Yves Schabes (eds.) Finite-State Language Processing, pp. 383–406. Language, Speech, and Communication. Cambridge, MA: The MIT Press.
Literatur Jürgen Kunze (2001). Computerlinguistik. Voraussetzungen, Grundlagen, Werkzeuge. Vorlesungsskript. Humboldt-Universität zu Berlin. MehryarMohri und Richard Sproat (2006)On a Common Fallacy in ComputationalLinguistics. In: MickaelSuominen, Antti Arppe, Anu Airola, OrvokkiHeinämäki, Matti Miestamo, UrhoMäättä, Jussi Niemi, Kari K. PitkänenandKaiusSinnemäki (Hrsg.). A Man ofMeasure: Festschrift in Honourof Fred Karlsson on this 60th Birthday. pages 432-439. SKY Journal ofLinguistics, Volume 19, 2006. Shieber, Stuart. 1985. Evidence against the context-freeness of natural language. Linguistics and Philosophy 8: 333–343.