1 / 20

Rechtschreibkontrolle

Artikel: Schwere deutsche Sprache ( Aufschlüsselung der enthaltenen Fehler ). Rechtschreibkontrolle. PRÜFTEXT (1):

irish
Download Presentation

Rechtschreibkontrolle

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Artikel: Schwere deutsche Sprache (Aufschlüsselung der enthaltenen Fehler ) Rechtschreibkontrolle PRÜFTEXT (1): Während Eduard Mioras falsche Reflektionen mit Zuckerlächeln infrage stellt, hatsiein soweitnur gelacht,da siedin hohe Erblast einer fotogenen Bergeroberung ablehnt, stattdessen, schließlich, im Zenith ihrer rauschendenExamenserfolge, im Pool, auf gutDeutsch,rumplanscht. Fehler im Zusammenhang insoweit- nicht erkannt din - erkannt Zenith - erkannt deutsch (hier müsste es klein geschrieben werden - nicht erkannt

  2. Er hat alles Mögliche versucht, um ihre Brillanten und die wertvollen Bestecke laut Testament des Erblassers in einer sehr exakten Liste zu nummerieren und das Gelände, 112 Hektar groß, mitutiös instandzusetzen. sie werden beobachtet haben, dass also alles Erdenkliche getan wurde. Nur das blassblau Linoleum ist der andern Laderinnung überlassen. Stofffutter wurde erfasst. Bei viel niedrigeren Gastemperaturen muss keine Anästhesie mehr erfolgen. In der klinischen Norm-Psychatrie sind daher die Redoxsysteme auch nach bestinformierten Koryphäen ohne Bedeutung. Weitere psychologische Daten sind ignoriert worden, hoher pädagogischer Nutzen scheint infolgedessen nur in synergetischer Weise als existenziell wertvoll prophezeiht werden zu können. In einem Wort: Die Innovation macht ihre Reverenz vor dem Thron der Wissenschaft - und zu zu recht. PRÜFTEXT (2) Satzanfang- nicht erkannt Wort-Wieder-holung -erkannt, aber zu Recht - nicht erkannt

  3. Fehlerverteilung im Heidelberg Corpus

  4. Korrigierbarkeit der Fehler im Heidelberg Corpus

  5. 1) Ersetzung 2) Löschung 3) Hinzufügen 4) Vertauschen 1. ErsetzungDie Funktion subn : Wn x { 1, 2, ..., n} x a  Anmit subn ( (l1,l2 ..., li, ..., ln ), i, a ) = (l1, l2 ..., li-1, a, li+1, ..., ln )wird orthographischer Ersetzungsfehler genannt.2. Löschen omin : Wn x (1, 2, ... n)  An-1mit omin ( (l1, l2, ... li-1, li, li+1, ... ln), i) = ( l1, l2, ..., li-1, li+1 , ... ln ) Orthographische Fehler (strukturell)

  6. insn : Wn x (1,2,..., n+l) x a  An+1mit insn ( (l1, l2, ..., li, li+1, ... ln), i, a) = ( l1, l2, ..., a, li, li+1, ..., ln )4. Vertauschen tran : Wn x (1, 2, ..., n)  Anmit tran ( (l1, l2, ... li, li+1, ..., ln), i) = ( l1, l2, ..., li+1, li , ... ln )Beispiel: "naer", n=4, i=2 tra4 ("naer", 2) = "near" "lovated", n=7, i=3 sub7 ("lovated, 3, c) = located 3. Einfügen

  7. Orthographische Fehler der Distanz d Die Komposition der Funktionen e = e1 e2 ... ed (mit E1 = n>0 (subn omin insn tran ) ) wird orthographischer Fehler der Distanz d genannt. |Ed|  (n  (2 k+1) + k-1)d (Mehrfachfehler heben sich auf!) Menge der Fehler mit Distanz d wächst exponentiell !

  8. Einfache Rechtschreibfehler des Wortes "near" sub4 ("near", 1, a) = aear sub4 ("near", 1, b) = bear (?) . . . sub4 ("near", 4, z) = neaz omi4 ("near", 1) = ear . . . omi4 ("near", 4) = nea ins4 ("near", 1, a) = anear . . . ins4 ("near", 5, z) = nearz tra4 ("near", 1) = enar . . . tra4 ("near", 3) = nera Gesamtzahl der Fehler: 4* (2 * 26 + 1) + 26 - 1) = 237 Beispiel:

  9. Typographische Fehler • motorische Fehler die durch Tippen einer falschen Sequenz von Tasten verursacht werden • Beispiel: Typographische Fehler der Distanz 1 • sub5 ("house", 3, y) = hoyse • ins5 ("house", 4, w) = houwse • q w e r t y n i o p • a s d f g h j k l • Andere Anwendung: Scannen • ln  m • i  l

  10. Architektur Anwendung Erkennen Korrigieren Lex 2 Lex 1 1) Strategie 2) Erkennen: lexikonbasiert 3) Korrigieren: Soundex (Phonetische Ähnlichkeit) Trigrammanalyse Levensthein - Metrik

  11. Strategy 1 Error detection: based on a grammar of what is right Error correction: deduction on deviance from that standard Variant A Weak parsing - strong filtering (weak notion of what is "right") Variant B Unification failure approach (non-monotonic reasoning procedure to derive error descriptions from a model of correctness) Strategy 2 Error detection: based on a grammar of what is wrong Error correction: rule based correction of detected mistakes Variant A Strong parsing - weak filtering (rule relaxation approach) Variant B Error dictionary Principles of Error Treatment für Language Checking

  12. Rechtschreibprüfung / II Korrigieren Erkennen Anwendungs- programm Lex 1 Lex 2 Erkennen: Überprüfen ob Wort / Eingabe im Lex1

  13. Beispiel: Implementierung des Lexikonvergleichs Wortlisten Aachen ab aber . . . Bach bauen . . . . . . Zeiger Zug Suche sequentielle a z a b e r Eingabewort match

  14. Indexsequentielle Suche nur bis 15.000 Wörter in Lex1 Kompression erforderlich (z.B. Lauflängen) besser: Hauptspeicher alternativ: Digitalbäume, Hashing Generelle Probleme/Parameter Speicherbedarf Zugriffszeit Benutzererweiterbarkeit

  15. 1) Soundex (Knuth) vgl. http://theoryx5.uwinnipeg.ca/CPAN/perl/Text/Soundex.html i) Tilge Vokale; Doppelbuchstaben ii) Weise jedem Buchstaben eine Ziffer nach Tabelle zu (ergibt Schlüssel) iii) Zeige Wörter mit gleichem Schlüssel Tabelle b, p, f, v  1 c, g, j, k, q, s, x, z  2 d, t  3 l  4 m, n  5 r  6 Korrektur

  16. i m e d i a t e (immediate) m d t 5 3 3 Schlüssel 533 weitere Vorschläge: a n n o t a t e (a 533) 5 3 3 u n n e d e d (unneeded) 5 3 3 großer recall Verbesserung: erster Buchstabe muß identisch sein immediate i 533 Beispiel

  17. w = a1 ... an T(w) = {< f, f, a1>, < f, a1, a2>, <a1, a2, a3> ... <an-1, an, f>, <an, f, f>} Gegeben Alphabet mit 26 Buchstaben a a a insgesamt 263 Trigramme: 17576 a a b ... a a z a b a ... z z y z z z 2) Trigramm-Verfahren

  18. Ähnlichkeitsmaß für Wörter Dice-Koeffizient Beispiel work wirk 1) f f w w 2) f w o w i 3) w o r w i r 4) o r k i r k 5) r k r k 6) k k 6/12 = 1/2

  19. Korrektur: 1) gleicher Anfangsbuchstabe 2) höchstes Ähnlichkeitsmaß Länge des Wortes bestimmt Ähnlichkeit ! warkaholic wirkaholic 3/4 3) Levenshtein Matrix sub (a1, ... , ai-1, ai, ai+1, ..., an, i, b ) = a1, ..., ai-1, b, ai+1, ..., an del ins tra

  20.  =  d ( sub ( , i, a ),) 1  i  | | d (del (, j ) ) 1  j  | | d ( ins ( , k , b) ) 0  k  |  | + l d (tra (, l) , ) 1  l  || - l NP-schwierig ! d (, ) = 1 + min i, j, k, l, a, b 1.) d ( , ) =  dann und nur dann wenn  =  , sonst d (, ) >  2.) d (, ) = d ( ,  ) 3.) d (, ) + d ( ,  )  d (,  ) 4.) Maß ist Länge 5.) d (abc, axc ) = 1 + ( sub ( abc, 2, x ) , axc) = = 1 + d ( axc, axc ) = 1

More Related