Basisinformationstechnologie HK-Medien

BasisinformationstechnologieHK-Medien Teil 1, 13. Sitzung WS 02/03 BIT – Schaßan – WS 02/03

Beschreibung von PSS • Bei der Schaffung einer PS sollte diese in klarer und präziser Weise definiert werden. Begriffe und Konzepte müssen beschrieben und ihre Bedeutung erläutert werden. Alle Details müssen in einem Dokument erklärt werden, welches als Referenz fungiert. Genauigkeit, Präzision und Formalität sind dazu notwendig. BIT – Schaßan – WS 02/03

Beschreibung von PSS (2) • mögliche Probleme sind: • verschiedene Sichtweisen auf die PS erfordern unterschiedliche Schwerpunktsetzungen; • verschiedene Methoden der Beschreibung können zu unterschiedlichen Interpretationen führen • mögliche Lösung ist die Abstraktion des zu Beschreibenden in formalisierter Weise unter Anwendung grammatikalischer Theorien BIT – Schaßan – WS 02/03

Semi-Thue-Systeme • Semi-Thue-Systeme können als einfache und allgemeine Form von Algorithmen betrachtet werden: • Σ endlicher Zeichenvorrat • x Wörter ( Länge: |x | = n ) • x = x0⋯xn-1 von Zeichen xi aus Σ • Überführen der Wörter in andere Wörter durch Ersetzen von xi⋯xi+k-1 durch yj⋯yj+k-1Es gilt: k, l ≥ 0, i+k ≤ n; für k, l = 0 wird das leere Wort ε ersetzt BIT – Schaßan – WS 02/03

Semi-Thue-Systeme (2) • Ersetzungsregel: a⋯b→c⋯dschematisch: p→ q • Eine Regel heißt auf ein Wort x anwendbar, wenn x das Teilwort a⋯b enthält. • Beispiel: Addition natürlicher Zahlen • Σ = { |, +} • Regeln: +| → |+ + → ε • Wort: |||+|| • Umformung:|||+|| ⇒ ||||+| ⇒ |||||+ ⇒ |||||. BIT – Schaßan – WS 02/03

Ableitung • Der Übergang l→ r beschreibt die Transformation, die durch Anwendung einer Regel p → q auf einen Teil der linken Seite l entsteht. • r heißt aus labgeleitet. • Die Transformation heißt eine direkte Ableitung. BIT – Schaßan – WS 02/03

Ableitung (2) • l⇒ r wenn r aus l durch fortge- setzte Ableitung gewonnen werden kann • l ⇒ r entweder l ⇒ r oder l = r • Umgekehrt kann r auf lreduziert werden, wenn l ⇒ r + + * * BIT – Schaßan – WS 02/03

Metaregeln • Metaregeln legen die Anwendung der Regeln fest. • Wenn a⋯b → c⋯d anwendbar ist, ersetze das Teilwort a⋯b von x durch c⋯d ; • wenn a⋯b mehrfach vorkommt oder mehrere Regeln anwendbar sind, so wähle das Teilwort bzw. die Regel beliebig; • wiederhole die Anwendung beliebig oft. BIT – Schaßan – WS 02/03

Semi-Thue-System (3) • Eine Menge T = { p→ q } von Regeln zusammen mit den Metaregeln heißt ein Semi-Thue- oder Textersetzungssystem. • Die Menge aller r , die aus l abgeleitet werden, heißt die formale SpracheLl = L(T,l ) von l bei vorgegebenem Semi-Thue-System T. BIT – Schaßan – WS 02/03

Thue-Systeme • T = { p→ q } ist ein Semi-Thue-System;Menge T -1 = { q → p } mit umgekehrter Pfeilrichtung ist ebenfalls ein Semi-Thue-System • Das inverse System heißt Reduktionssystem. • Thue-Systeme sind symmetrische Semi-Thue-Systeme T = T∪ T -1, bei dem zu jeder ableitenden Regel p→ q auch die reduzierende Regel q → p zu T gehört. BIT – Schaßan – WS 02/03

Determination • Sind zu einem Text x mehrere anwendbare Regeln gegeben oder kann eine Regel auf mehrere Teilwörter von x angewendet wer-den, heißt ein Algorithmus indeterministisch. • Ist in jedem Schritt die anzuwendende Operation eindeutig bestimmt, so heißt der Algorithmus deterministisch. BIT – Schaßan – WS 02/03

Normalform • Überführt ein Semi-Thue-System T ein Wort x in y = T (x ), x⇒ y, und hält dann an, so heißt y eine Normalform von x. * BIT – Schaßan – WS 02/03

Markov-Algorithmen • Unabhängig von Thue erfand Markov ein System zur Beschreibung von Textersetz-ungen. • Ein Markov-Algorithmus (normaler Algo-rithmus) ist ein deterministisches Semi-Thue-System mit endlich vielen Regeln und zwei verschiedenen Endbedingungen. BIT – Schaßan – WS 02/03

Markov-Algorithmen (2) • Die Endbedingungen: • Wähle in jedem Schritt die erste anwendbare Regel. Falls sie auf mehrere Teilwörter anwend-bar ist, wende sie auf das am weitesten links stehende Teilwort an. • Wende Regeln so lange an, bis eine haltende Regel angewandt wurde, oder bis keine Regel mehr anwendbar ist. BIT – Schaßan – WS 02/03

Markov-Algorithmen (3) • haltende Regeln: x→. y • erste anwendbare Regel:bezogen auf die Reihenfolge, in der die Regeln aufgeschrieben wurden; • falls eine Regel ε → r angegeben ist, wird r am Anfang des Wortes eingesetzt, da das am weitesten links stehende Wort ersetzt wird; BIT – Schaßan – WS 02/03

Markov-Algorithmen (4) • Erlaubt man zusätzliche Zeichen α,β,γ,…, so genannte Schiffchen, die weder im Eingabetext noch im Ergebnis vorkommen, so kann man mit diesen gesteuerten Markov-Algorithmen, wie im übrigen auch mit allgemeinen Semi-Thue-Systemen, jede beliebige Berechnung beschreiben, die algorithmisch formulierbar ist. BIT – Schaßan – WS 02/03

Beispiel-MA • Σ = { O, L } mit den Schiffchen α, β • Regeln: • αL → Lα , αO → Oα ,α → β , Lβ → βO ,oβ →. L , β →. L ,ε → α • Eingabe: LOLL • Umformung:LOLL ⇒ αLOLL ⇒ LαOLL ⇒ LOαLL ⇒ LOLαL ⇒ LOLLα ⇒ LOLLβ ⇒ LOLβO ⇒ LOβOO ⇒ LLOO BIT – Schaßan – WS 02/03

Anwendung in der Linguistik • Semi-Thue-Systeme können benutzt werden, um die Struktur von Sätzen in natürlichen Sprachen als Ableitungsbaum darzustellen. • Die Übertragung bzw. Anwendung von solchen Systemen geschah in den 50er Jahren v.a. durch Chomsky und andere Linguisten. BIT – Schaßan – WS 02/03

Grammatiken • Chomsky nannte diese Semi-Thue-Systeme Grammatiken und ihre Regeln Produktionen. • Beispiel: ein Satz als Normalform für eine Zeichenreihe BIT – Schaßan – WS 02/03

Ableitungsbaum Satz Subjekt Prädikat Artikel Substantiv Verbum Ein Fisch schwimmt BIT – Schaßan – WS 02/03

Regeln des Beispiels • Regeln:Satz → Subjekt PrädikatSubjekt → Artikel SubstantivPrädikat → VerbumArtikel → einSubstantiv → FischVerbum → schwimmt BIT – Schaßan – WS 02/03

Grammatiken (2): Σ, N • In einer Grammatik unterscheidet man syntaktische Begriffe wie Satz, Verbum etc. von den Wörtern der zu beschreibenden Sprache. • Die Wörter werden als Einzelzeichen eines Zeichenvorrats Σ ohne weitere innere Struktur betrachtet und als terminale Zeichen oder kurz Terminale bezeichnet. • Die syntaktischen Begriffe bilden einen Zeichen-vorrat N der syntaktischen Variablen, nicht-terminalen Zeichen oder Nichtterminale. BIT – Schaßan – WS 02/03

Grammatiken (3): G, Z • Mit der Angabe einer Grammatik G sollen die terminalen Zeichenreihen x, x∈ T * beschrieben werden, die einem ausge-zeichneten syntaktischen Begriff Z , dem Startsymbol, Axiom oder Ziel der Grammatik G entsprechen. BIT – Schaßan – WS 02/03

Grammatiken (4): L(G) • Die Menge L(G ) dieser Zeichenreihen heißt der Sprachschatz der Grammatik G . • Im Semi-Thue-System war die Menge aller, also nicht nur der terminalen, aus Z ableitbaren Zeichenreihen als formale Sprache LZ = L(G, Z ) bezeichnet worden. • Das Ziel Z wird im Unterschied zum Semi-Thue-System nicht mehr explizit erwähnt, da es durch die Grammatik eindeutig gegeben ist. BIT – Schaßan – WS 02/03

Grammatiken (5): V • Die Vereinigung V = N∪ Σ heißt das Vokabular der Grammatik bzw. formalen Sprache. • Wenn auch die leere Zeichenreihe ε zulässig ist, wird die Menge aller Zeichenreihen über den Zeichenvorräten V bzw. Σ mit V * bzw. Σ* bezeichnet. • Eine Zeichenreihe x aus V *, die durch endlich viele Anwendungen von Produktionen aus dem Ziel Z abgeleitet werden kann (Z ⇒ x ) heißt Satzform oder Phrase. * BIT – Schaßan – WS 02/03

Phrasenstrukturen • Phrasenstrukturen können sichtbar gemacht werden, indem alle Produktionenl→ r durch l → 〈r 〉 ersetzt werden. • Die Produktionsmengen P = {Z → z, Z → zZz } und P ' = {Z → z, Z → Zzz } strukturieren Wörter wie zzzzz unterschiedlich: 〈z 〈z 〈z 〉 z 〉 z 〉 bzw. 〈〈〈z 〉 zz 〉 zz 〉 BIT – Schaßan – WS 02/03

Zerteilung • Um herauszufinden, ob eine Zeichenreihe x eine Phrase ist, muss ihre syntaktische Struktur festgestellt werden.Dieser Vorgang heißt Zerteilung (engl. parsing) von x . • Durch Umkehrung aller Pfeile erhält man aus dem Ableitungssystem A ein Reduktions- oder Zerteilungssystem R . BIT – Schaßan – WS 02/03

Chomsky-Grammatik • Eine Grammatik G = { Σ, N , P , Z }, in dem Σ, N und Z die vorher erläuterte Bedeutung haben und P eine endliche Menge von Produktionen l → r ist, heißt eine Chomsky-Grammatik. • Da die Grammatik G in Satzform bzw. aus Phrasen bestehen, werden die Grammatiken nach Chomsky oft Phrasenstrukturgrammatiken genannt. BIT – Schaßan – WS 02/03

Begriffsübersicht • G Grammatik • V Vokabular der Grammatik G • Σ Zeichenvorrat an Terminalen auch als VT bezeichnet • N Zeichenvorrat an Nichtterminalen • auch als VN bezeichnet • Z Ziel, Axiom der Grammatik G • auch als S bezeichnet • L(G ) Sprachschatz der Grammatik G • P Produktionsmengen BIT – Schaßan – WS 02/03

Beschreibung von PSS (3) • Mit Grammatiken soll beschrieben werden, welche Texte syntaktisch korrekt aufgebaut sind. (Die Unterscheidung von sinnvollen und sinnlosen Texten ist nicht vonnöten.) • Die Menge der syntaktisch korrekten Programme, also der Sprache, wird top-down beschrieben. BIT – Schaßan – WS 02/03

Chomsky-Hierarchien • Chomsky-Grammatiken lassen sich nach der Form ihrer Produktionen l→ r weiter klassifizieren: • Chomsky-Typ 0 (kurz CH-0-Grammatik)heißt allgemeine Grammatik • Chomsky-Typ 1 (kurz CH-1-Grammatik)heißt kontextsensitive Grammatik • Chomsky-Typ 2 (kurz CH-2-Grammatik)heißt kontextfreie Grammatik • Chomsky-Typ 3 (kurz CH-3-Grammatik)heißt reguläre Grammatik BIT – Schaßan – WS 02/03

CH-0 • Eine Grammatik ist allgemein oder eine CH-0-Grammatik, wenn ihre Produktionen keinen Ein-schränkungen unterliegen.Insbesondere sind Produktionen ε → r erlaubt. • Der Vergleich mit Markov-Algorithmen (die Schiffchen entsprechen in etwa den Nichttermi-nalen) zeigt, dass man jede berechenbare Menge als Sprache L(G ) einer CH-0-Grammatik erhalten kann. BIT – Schaßan – WS 02/03

CH-1 • Eine Grammatik ist kontextsensitiv oder eine CH-1-Grammatik, wenn ihre Produk-tionen beschränkt oder kontextsensitiv sind. • Da in einer Ableitung Z⇒ x ⇒ y stets |x | ≤ |y | gilt, kann man in endlich vielen Schritten bestimmen, ob ein Wort y vorge-gebener Länge zu L(G ) gehört.Eine Sprache L(G ) einer kontextsensitiven Grammatik muss daher entscheidbar sein. * BIT – Schaßan – WS 02/03

CH-2 • Eine Grammatik ist kontextfrei oder eine CH-2-Grammatik, wenn ihre Produktionen kontextfrei sind. • Die linke Seite jeder Ableitungsregel darf nur aus einer Variablen bestehen, wie die Variable A aber abgeleitet wird, darf nicht vom Kontext, in dem A steht, abhängen. • Eine kontextfreie Grammatik heißt ε-frei, wenn sie keine ε-Produktion enthält. BIT – Schaßan – WS 02/03

CH-3 • Eine Grammatik ist regulär oder eine CH-3-Grammatik, wenn sie neben terminieren-den und ε-Produktionen entweder nur links- oder nur rechtslineare Produktionen enthält. BIT – Schaßan – WS 02/03

Chomsky-Hierarchien-Übersicht BIT – Schaßan – WS 02/03

Basisinformationstechnologie HK-Medien