360 likes | 485 Views
IMSLex – ein NLP Lexikon. Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004. Motivation. Ressource, die detaillierte Information zu Elementen der Sprache enthält, ist eine notwendige Vorraussetzung um Sprache mit dem Computer zu verarbeiten
E N D
IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004
Motivation • Ressource, die detaillierte Information zu Elementen der Sprache enthält, ist eine notwendige Vorraussetzung um Sprache mit dem Computer zu verarbeiten • Produktivität der Sprache verlangt nach einem System, daß regelbasiert auch Wörter erkennt, die nicht explizit im Lexikon gelistet sind
DeKo • Derivations- und Kompositionsmorphologie • Beschreibung und Modellierung von Prozessen der deutschen Wortbildung • Erstellung eines robusten Systems zur Analyse und strukturellen Beschreibungen komplexer Wörter
Wortbildungsprozesse • Flexion: • Affigierung von Flexionsmorphemen an eine Flexionsstammform • Derivation: • Affigierung von Wortbildungsmorphemen an eine Derivationsstammform • Komposition: • Affigierung von Basismorphemen an eine Kompositionsstammform
DeKo Lexikonmodell • lexikalische Einheiten: Zitierform • Merkmale: • Flexion • Wortbildung • Phonetik • Syntax • Semantik • Korpusfrequenz • verschiedene Stammformen • phonetische Transkription
Ziel • Umsetzung des DeKo-Lexikonkonzeptes in eine Ressource und • die Verschmelzung dieser Ressource mit den im DMOR-Lexikon enthaltenen Daten
Hauptanforderungen an das Lexikon • Rückwärtskompatibilität • Abbildung in das von der Morphologie geforderte Format • Erweiterbarkeit • inhaltlich wie strukturell • Wartbarkeit • Flexibilität • XML (eXtensible Markup Language)
XML • Formalismus zur Definition von Klassen von Dokumenten • Definition des Zeichenvorrats • Definition der Dokumentenstruktur • standardisiertes und eindeutiges Markup • Dokumenttyp Definition (DTD) • automatische Validierung der Dokumentenstruktur
XML Bausteine • inhaltlich: • Elemente • Attribut/Wert-Paare • formal: • syntaktische Festlegung auf die Notation der inhaltlichen Bausteine
XML Modellierungsprinzipien • Elemente • Information läßt sich in weitere Informationen untergliedern • Attribute • Information kann nicht weiter zerlegt werden • Information ist aufzählbar • Dokumentinhalt • Information kann nicht weiter zerlegt werden • Information ist nicht aufzählbar
Allgemeine Konzeption • Theorieunabhängigkeit • Redundanzvermeidung • Generalisierung • Modularisierung • Aufteilung komplexer Strukturen in kleinere Teile • Makrostruktur und Mikrostruktur
Redundanz • Generalisierung • Flexionsparadigma • Transparenz: • alle Arten von Einheiten haben dasselbe Konzept • von Unterschieden wird abstahiert zugunsten einer klaren und einfachen Sicht
Modularisierung • Aufteilung von komplexen Strukturen in kleinere Teile • Makrostruktur: • flache Organisation lexikalischer Einheiten • Mikrostruktur: • globale Merkmale • Angaben zur Flexionsmorphologie • fakultative Module: • Wortbildung, Syntax, Semantik, Phonetik • wortartenspezifische Information
IMSLex DTD - Hierarchie • Wurzelement <!ELEMENT lexikon ( le +)>
lexikalische Einheit <!ELEMENT le( Globale_Merkmale, Flexionsmorphologie, Wortbildung?, Semantik? Syntax? (Substantiv_Merkmale | Adjektiv_Merkmale | ...)? Affix_Merkmale?, Bearbeitungs_Merkmale? )>
Globale Merkmale <!ELEMENT Globale Merkmale( Zitierform, PhonetischeTranskription?, Vorkommenshäufigkeit+ )> <!ELEMENT Zitierform( #PCDATA )> <!ELEMENT PhonetischeTranskription( #PCDATA )> <!ELEMENT Vorkommenshäufigkeit( #PCDATA )>
Flexionsmorphologie <!ELEMENT Flexionsmorphologie (Stammformen) > <!ELEMENT Stammformen (DMORstamm,Stammform+) > <!ELEMENT Stammform (Stamm, DMORklasse) > <!ELEMENT DMORstamm( #PCDATA ) > <!ELEMENT Stamm( #PCDATA ) > <!ELEMENT DMORklasse( #PCDATA ) >
Flexionsmorphologie • DMORstamm ist die Grundstammform eines Flexionspardigmas • irregulärer Stamm - regulärer Stamm ( back:buk • Stammform: Stamm + DMORklasse • Suppletivstämme • Schreibvarianten Nuß, Nuss
Wortbildung <!ELEMENT Wortbildung ( Derivation?, Komposition?, Strukturen? ) > <!ELEMENT Derivation( Derivationsstaemme ) > <!ELEMENT Derivationsstaemme(Derivationsstamm+) > <!ELEMENT Derivationsstamm( #PCDATA ) > <!ELEMENT Strukturen( Struktur+ ) > <!ELEMENT Struktur( #PCDATA ) >
Syntax <!ELEMENT Syntax ( Subkatrahmen* ) > <!ELEMENT Subkatrahmen( #PCDATA ) >
Semantik <!ELEMENT Semantik( Semantischer Typ?, Kommentar?, Lamdaausdruck?, Praesupposition?, Anwendungsbereich? ) > <!ELEMENT SemantischerTyp( #PCDATA ) > <!ELEMENT Kommentar( #PCDATA ) > <!ELEMENT Lambdaausdruck( #PCDATA ) > <!ELEMENT Praesupposition( #PCDATA ) > <!ELEMENT Anwendungsbereich( #PCDATA ) >
Wortartenspezifische Merkmale <!ELEMENT Substantiv_Merkmale ( Genus ) > <!ELEMENT Adjektiv_Merkmale ( Verwendung ) > <!ELEMENT Adverb_Merkmale ( Verwendung ) > <!ELEMENT Genus ( #PCDATA ) > <!ELEMENT Verwendung ( #PCDATA ) >
Wortartenspezifische Merkmale <!ELEMENT Verb_Merkmale ( Aktionsart, VerbHatResultatszustand, IntensionalitaetLexikalisiert, SemantischeVerbklasse ) > <!ELEMENT Aktionsart ( #PCDATA ) > <!ELEMENT VerbHatResultatszustand ( #PCDATA ) > <!ELEMENT IntensionalitaetLexikalisiert ( #PCDATA ) > <!ELEMENT SemantischeVerbklasse ( #PCDATA ) >
Wortartenspezifische Merkmale <!ELEMENT Verpartikel_Merkmale( Basisverbzahl, Partikelverbklasse+ ) > <!ELEMENT Basisverbzahl( #PCDATA ) > <!ELEMENT Partikelverbklasse( #PCDATA ) > • Basisverbzahl: Anzahl der im HGC gefundenen Partikelverben mit diesem Partikel
Wortartenspezifische Merkmale <!ELEMENT Abk_Merkmale( Ausgeschr_Formen? ) > <!ELEMENT Ausgeschr_Formen( Ausgeschr_Form+ ) > <!ELEMENT Ausgeschr_Form( #PCDATA ) > <!ELEMENT Affix_Merkmale( #PCDATA ) >
Attributdeklaration • Merkmalnamen • Status • verpflichtend (#REQUIRED) • fakultativ (#IMPLIED) • Default-Belegung (Wert in doppelten Anführungszeichen)
Lexikalische Einheit (le) • bei obligatorischen Merkmalen - außer bei kategorie - Platzhalter undef vorhanden • Merkmale akzent und auslautverhaertungnur für Derivationsaffixe relevant - sonst Belegung neutral • administrative Merkmale: • geprüftja bei vollständig bearbeiteten Einträgen • erzeugt Unterscheidung zwischen maschinell und manuell erzeugten Lexikoneinträgen
Lexikalische Einheit ( le ) <!ATTLIST le idID #REQUIRED kategorie ( Substantiv | Verb | Adjektiv | Name | Adverb | Numeral | Pronomen | Adposition | ... ) #REQUIRED m_status ( Frei | Gebunden | undef )#REQUIRED m_form ( Simplex | Kurzwort | Nominalisierung | undef | Komplex | Komplex_semi | Komplex_abstrakt) #REQUIRED
Lexikalische Einheit ( le ) ... selegiert (ja|nein|undef) #REQUIRED lexikalisiert (ja|nein|undef) #REQUIRED herkunft(nativ | klassisch | englisch | unklar | französisch | fremd | undef) #REQUIRED akzent(neutral | beeinflusst | zieht_an) “neutral” auslautverh. (neutral | blockiert ) “neutral” erzeugt (auto|manu) #IMPLIED geprueft(ja|nein) #IMPLIED >
Gobale Merkmale <!ATTLIST PhonetischeTranskription notation (SAMPA) "SAMPA" attrCDATA #IMPLIED> <!ATTLIST Vorkommenshäufigkeit korpus(HGC | Referenz ) "HGC" wert ( wortform ) #IMPLIED>
Flexionsmorphologie <!ATTLIST Flexionsmorphologie DMORlex (VMod_Stems | VAux_Stems | V-0_Stems| V-ge_Stems | V-0_Stems_NoPref | NN_Stems_NoCP | NN_Stems_NoHead | NN_Stems | NE_Stems_NoCP | NE_Stems | NE_Stems_NoCP | ADJ_Stems_NoCP | ADJ_Abbr | NN_Abr | NE_Abbr | INVAR_Abbr | VPrefSep ) #IMPLIED >
Stammformen <!ATTLIST Stammform id ID #IMPLIED DMORtyp (reg | irreg | vollform) #IMPLIED> <!ATTLIST DMORStamm orth (alt | neu | beides) #IMPLIED> <!ATTLIST Stamm orth (alt | neu | beides) #IMPLIED>
Derivation und Komposition <!ATTLIST Derivation typ( ja | nein ) #IMPLIED <!ATTLIST Derivationsstamm id#IMPLIED orth ( alt | neu | beides ) "beides" typ ( umgelautet | kurz | lang | vorne_gefugt- getilgt | vorne_gefugt-hinten_gefugt | hinten_gefugt | getilgt | umgelautet-getilgt | umgelautet-getilgt-hinten_gefugt | normal | umgelautet-hinten_gefugt | getilgt- hinten_gefugt ) "normal" >
Affix Merkmale <!ATTLIST Affix_Merkmale produktiv ( ja | nein ) #REQUIRED>
Verwandte Lexika • CISLEX (Langer et al. 1996, Maier-Meyer (1995)) • morphologische Analyse von Zeitungskorpora • Derivation nur für häufige Suffixe • WordManager-System (Domening und ten Hacken (1992)) • Entwicklungsumgebung für computerlinguistische Lexika • eingeschränkte morphologische Analyse im Internet (Canoo)