490 likes | 772 Views
10. Natürliche Sprache in Biologie und Medizin. Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz. Ebenen der Sprachtechnologie. I. „ Speech “ Erkennung gesprochener Sprache ( speech recognition ) Erzeugung gesprochener Sprache ( speech synthesis ) II. „ Content “
E N D
10. Natürliche Sprache in Biologie und Medizin Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz
Ebenen der Sprachtechnologie I. „Speech“ Erkennung gesprochener Sprache (speech recognition) Erzeugung gesprochener Sprache (speech synthesis) II. „Content“ Textretrieval Text Mining Textgenerierung Textzusammenfassung Informationsextraktion Maschinelle Übersetzung
Information Retrieval Anfrage (Query) ? Sucher- gebnisse Kollektion von Dokumenten(Dokumentationseinheiten)
Informationsextraktion Template Pressenotiz PersonOut PersonIn Position Organization TimeOut TimeIn Dr. Hermann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus seinem Amt. Der 65-jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu bestzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach PersonOut Christian Meindl PersonIn Annelie Häfner Position Musikdirektor Organization Musikhochschule M TimeOut TimeIn PersonOut Dr. Hermann Wirth PersonIn Sabine Klinger Position Leiter Organization Musikhochschule M TimeOut Heute TimeIn
Grundbegriffe der Linguistik • Semiotik • Phonetik, Phonologie • Morphologie • Syntax • Grammatik • Semantik • Pragmatik • Textlinguistik • Lexikographie • Terminologie
Ebenen der Linguistik • Morphologie: • be + end + en, In + fekt + ion, In + fekt + ion + en • Syntax: • Eine schwere Infektion beendete die Schwangerschaft vs. • Eine Infektion schwere die Schwangerschaft beendete. • Semantik: • Es wurde eine Entbindung per Kaiserschnitt vorgenommen • Es wurde eine Osteosynthese per Kaiserschnitt vorgenommen • Textverstehen: • Eine schwere Infektion beendete die Schwangerschaft. Das Neugeborene befindet sich in gutem Allgemeinzustand • Eine schwere Infektion beendete die Schwangerschaft. Das Transplantat wurde bisher nicht abgestoßen.
Medizinische Anwendungen von Sprachtechnologien • Unterstützung der Befunderstellung durch Spracherkennungssysteme • Dokumentenretrieval aus computerisierten Krankenblattarchiven, Literaturdatenbanken, WWW-Dokumenten, WWW-Portalen • Zusammenfassung von Krankengeschichten • Automatische Wissensaquisition aus medizinischen Freitexten • AutomatisierteVerordungen • Multilinguale Erzeugung von Patienteninformation • Automatische Kodierung / Klassifikation von Diagnosen und Prozeduren
Semiotik... Lehre von den Zeichen • Ein Zeichen ist Stellvertreter für etwas Bezeichnetes • Alles sinnlich wahrnehmbare kann Zeichen sein • Alles beliebige kann als Zeichen fungieren • Sprachwissenschaft: Zeichensystem „Sprache“
Das semiotische Dreieck Begriff, Gedanke, Inhalt, Konzept Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird. Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln Symbol, Wort,Code, Bezeichner Objekt,Instanz Referent "Stuhl", "chair" Beliebiger Ausschnitt aus der wahrnehmbaren oder vorstellbaren Welt.
Sprachliche Zeichen • Laute • Phoneme • Morpheme ver auf mitt haut • einfache Wörter Magen, Schleim, Haut • Komplexe Wörter Magen-schleim-haut • Phrasen das ödematös aufgelockerte Stroma • Sätze Es finden sich vereinzelt Lymphfollikel. • Texte Zusammen gut reiskorngroßes Biopsiematerial einer Magenschleimhaut vom Antrumtyp mit mittelgradigverplumpten, verlängerten und vermehrt basophilenFoveolen, die streckenweise einen Becherzellbesatz aufweisen. Das ödematös aufgelockerte Stroma wird mittelgradig vermehrt überwiegend von Lymphozyten und Plasmazellen infiltriert. Es finden sich vereinzelt Lymphfollikel.
Linguistische Betrachtungsweisen • Grammatik: Zeichenformen und Möglichkeiten ihrer Kombination • Semantik: Bedeutung einfacher und komplexer Zeichenformen • Pragmatik: Allgemeine Regularitäten, die dem Sprachgebrauch zugrundeliegen
Grammatik • Lehre vom • Wort (Morphologie, Morphosyntax) • Satz (Syntax) • Laut (Phonologie) • Text (Textgrammatik) • Formale Seite sprachlicher Ausdrücke: • System minimaler Einheiten mit Regeln zur Generierung komplexerer Einheiten • Berührung zur Theorie der formalen Sprachen
Sprachliche Zeichen • Charakteristikum: Verkettung von Einzelzeichen zu komplexeren Einheiten Morphem-bedeutung Wort-bedeutung Phrasen -bedeutung Satz-bedeutung Textbedeutung LautePhoneme Morpheme Wörter(einfach / komplex) Phrasen Sätze Texte
Grammatik: Morphologie, Übung • Morphologie = Lehre vom Wort • Was ist ein Wort ? • Beispiel: • Übung: Wie viele Wörter hat dieser Satz ? Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach.
Token, Type, Lexem • Token: Einzelne Vorkommen eines Zeichens (Wortes) • Type: Einzelne Muster eines Zeichens (Wortes) • Lexem: Zusammenfassung mehrerer Types (unterschiedlicher syntaktischer Wörter) 1 2 3 4 5 6 Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach 7 8 9 10 11 1 2 3 4 5 6 Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach 6 4 5 3 7 1 2 3 4 3 6 Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach 6 4 3 3 6
Morphosyntax • Morphemarten: Stamm, Präfix, Suffix • Bildungsregeln „wohlgeformter“ (well-formed) Wörter:Beispiele: • Kein Wort kann mit einem Suffix beginnen • Keine zwei Beugungssuffixe hintereinander • Kein Wort kann nur aus Affixen bestehen • Beugungsregeln z.B. pres past part go went gone
Morphologische Besonderheiten der Bio/Medizinsprache (I) • Morpheme aus dem Griechischen, Lateinischen, Deutschen, zunehmend dem Englischen • Fugen-o typisch für lat./gr. Lehnwörter: hepatozellulär, gastrointestinal • Zwei Wortbildungsschemata: • Deutsch: Orthographische Anpassunglateinischer Morpheme caka; ceze; cizi; coko; cuku; es gelten deutsche Wortbildungsregelnwenige hybride Pluralbildungen (-itis , -itiden, -zera) • Lateinisch:Großschreibung der Substantive, sonst gelten die Wortbildungsregeln des Lateinischen
Morphologische Besonderheiten der Medizinsprache (II) • Eponyme (Eigennamen) werden oft wie Wortstämme behandeltParkinsonismus • Akronyme (Kürzel) sehr häufig, verweisen oft auf englische NPs (ARDS, MALT, AIDS) und können zu normalen Wortstämmen mutieren (der Aidspatient) • Abkürzungen (in der geschriebenen Sprache):meist Wortstämmechron., persist., Herzinsuff., • Ad-hocKompositabildunglymphoplasmazellulärBecherzellbesatz
Syntax • Lehre vom Satz • Regeln zur Bildung „well-formed“ Wordgruppen • Früher: Satzgliedlehre (Subjekt, Prädikat, Objekt etc.)Worttypen: POS („Part of Speech“) • Komponenten: • Lexikon, Syntax: • Regeln der Kombination elementarer Ausdrücke zu komplexen Ausdrücke • Ähnlichkeit zu formalen Sprachen (z.B. Programmiersprachen)
Syntax: Konstituentenstruktur • Konstituente: Überbegriff für sämtliche Einheiten vom Einzelwort bis zum Satz • np: Nominalphrase „Hans“, „der Arzt“ • vp: Verbalphrase „verlegt“, „verlegt Hans“ • pp: Präpositionalphrase „auf die Intensivstation“ • Einfachstbeispiel: Regelns-->np,vp. np-->det,n. np-->n. vp-->v,np. vp-->v. vp-->vp,pp. np-->np,pp. pp-->p,np. Lexikon n-->[Hans]. n-->[Arzt]. n-->[Intensivstation]. det-->[der]. det-->[die]. v-->[verlegt]. p-->[auf]. Nichtterminalsymbole: s, np, det, ...; Terminalsymbole: Hans, Arzt, der, ...
Beispiel: Strukturbaum s vp vp pp np vp np np det n v p det n n Der Arzt verlegt auf die Intensivstation Hans
Parser • Ein Parser ist ein Programm, das einen gegebenen Satz anhand einer Grammatik syntaktisch analysiert. Es Programm ordnet dem Satz ein oder mehrere Strukturbäume zu (welche einer oder mehreren mehrdeutigen Lesarten entsprechen) s s vp vp np vp pp pp np vp np np np vp np np pn v det n p det n pn v det n p det n Wir beobachten das Kind mit dem Fernglas Wir beobachten das Kind mit dem Fernglas Wir beobachten das Kind mit dem Fahrrad Wir beobachten das Kind mit dem Fahrrad
Begriff, Gedanke, Inhalt, Konzept Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird. Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln Symbol, Wort,Code, Bezeichner Objekt,Instanz Referent "Stuhl", "chair" Beliebiger Ausschnitt aus der wahrnehmbaren oder vorstellbaren Welt.
Begriffsinhalt / Begriffsumfang Die Semantik erforscht die Bedeutung sprachlicher Ausdrücke • Begriffsinhalt (intensionale Bedeutung): definiert den Begriffsinhalt auf der Ebene des Denkens • Begriffsumfang (extensionale Bedeutung): definiert den Begriffsumfang auf der Ebene der Wirklichkeit Abstraktion: Übergang von der extensionalen zur intensionalen Bedeutung
Aufgaben von Semantik • Welche Bedeutung kommt einem (sprachlichen) Zeichen zu ? • Welche Beziehungen gibt es hinsichtlich der Bedeutung sprachlicher Ausdrücke ? • Semantik der Arbitrarität oder lexikalische Semantik:definitorische Zuordnung von Bedeutung zu Ausdrücken, z.B. Stethoskop
Bedeutung • Semantik der Kompositionalität: Aufbau der Bedeutung komplexer Ausdrücke aus den Bedeutungen ihrer Teile • Unterdeterminiertheit: Diaphyse: dia = auseinander, physis = Naturdurch die Lappen gehen • Synonymie: Bauchspeicheldrüse = Pankreas • Mehrdeutigkeit: • Polysemie, Homonymie:„Krebs“ : Tier oder Krankheit • Syntaktische Ambiguität:Ich sehe das Kind mit dem Fernglas
Merkmalssemantik • Theorie vom Begriff (Aristoteles: genusproximum et differentiaspecifica) • Bedeutung eines Zeichens ist nicht atomar, sondern lässt sich in Bedeutungseinheiten zerlegen • Ähnlichkeit zu formalen Ontologien • Defizit: viele Begriffe lassen sich so nicht definieren weiblich erwachsen menschlich Mann - + + Frau + + + Mädchen + - + Weibchen + 0 -
Modelltheoretische Semantik • Beschreibung der Bedeutung von Sprache mit Hilfe der Mathematik (formale Logik) • Wahrheit von Aussagen in möglichen Welten (Modellen)Der Mensch hat 32 Zähne, Ein Einhorn hat ein Horn • arzt(x): Funktion arzt bildet jedes der Elemente x auf die Werte True oder False ab Analog chirurg(x)Falls Teilmengenbeziehung, dann besteht zwischen arzt und chirurg eine Hypernymie/Hyponymie-Beziehung (is-a) (mengentheoretische Semantik, z.B. Beschreibungslogik) • Problem: Adäquate Beschreibung erfordert Logiken höherer Ordnung => Berechnungskomplexität !
T2 T1 ... Tn ........ ........ ........ ........ ....... ....... ........ ........ ....... ....... ......... ......... ........ ........ ..... ..... ..... ..... Zusammenspiel Sytax / Semantik: Beispiel aus medizinischem Textverstehenssystem Syntaktische Repräsentation Inhaltliche Repräsentation Datenbasismedizinischer Freitexte ?
zeigt subject: Partikel genatt: spec: Colonschleimhaut Das ppatt: spec: einer mit pobj: Zotten adj: ödematösen Dependenzgrammatik • Kanten repräsentieren syntaktische Rollen • Begriffe: • syntaktischer Kopf • syntaktischer Modifier
Show.5 Particle.1 show-patient Colon-Mucosa.2 anatomical-fragment-of Villus.4 has-anatomical-part Edema.3 has-phenomenon Ontologische Repräsentation
Particle.1 Show.5 Villus.4 Colon-Mucosa.2 Edema.3 zeigt subject: Partikel SyntaktischeEbene genatt: spec: Colonschleimhaut Das ppattr: spec: einer mit pobj: Zotten adj: ödematösen OntologischeEbene
Colonschleimhaut ppatt: mit pobj: Zotten zeigt subj: Partikel SyntaktischeEbene genatt: spec: Das spec: einer adj: ödematösen Particle.1 Show.5 Villus.4 Colon-Mucosa.2 Edema.3 OntologischeEbene
Von der Semantik zur Pragmatik • Gegenstand der Semantik ist, was ein sprachlicher Ausdruck immer bedeutetPatient mit karzinomverdächtigem Befund der linken Lunge • Gegenstand der Pragmatik ist, was ein sprachlicher Ausdruck situationsbedingt bedeutet.„Ihr Befund ist positiv“ • Gesagtes, Mitgeteiltes und Gemeintes. „Ich war hier“„Es zieht“„Tupfer!“ „Kompresse!“ • Pragmatik untersucht den kommunikativen Austausch
Pragmatik • Sprechakttheorie: • Konstative Sätze (Behauptungen) • Performative Sätze (Aktionen) • Äußerung„Der Hund ist bissig“ (Grammatik, Syntax) • Propositionbissig(Hund) = True(Semantik) • Warnungoder Empfehlung • Hörer entfernt sichoder Hörer kauft den Hund • Indirekte Sprechakte„Können Sie mir sagen, wie spät es ist ?“
Kontext • Lokaler Kontext„Der Bruch wurde eingegipst“ • Sprachlicher Kontext:„Diabetes“ als Diagnose, Verdacht, oder Familienanamnese • Intentionaler Kontext„es ist kalt“ (Fenster schließen !) • Situativer Kontext„der Hubschrauber ist gelandet“ (Notfallaufnahme, Spielecke)
ended Pregnancy Ending P-patient Mother E-patient Pregnancy infection pregnancy P-co-patient E-agent Baby Infection a severe the IF ... Pregnancy & inf. THEN ... mortal danger I-degree end + edPastTense severe * The baby survived Syntactic Processor (Parser/ Generator) Morphological Processor Semantic Interpreter Inference Engine Semantic Rule Base Domain Ontology Lexicon Grammar # 150,000 # 1,000,000 # 10,000 # 10,000 # 150,000 # 1,000,000 Generisches Textverstehenssystem
Generisches Textverstehenssystem • Tiefstmögliche Textanalyse: Instantiierungeiner Wissensbasis nach syntaktischer und semantischer Analyse, sowie der Anwendung semantischer Interpretationsregeln, bis hin zu Textverstehen (Auflösung von Koreferenzen, Diskursrelationen) • Einzig und allein Prototypen vorbehalten, die in eingeschränkten Diskursbereichen ausgewählte Sprachphänomene implementieren. • In der Praxis: Kompromisslösungen zwischen theoretischen Forderungen und pragmatischen Anforderungen
Text-Mining stattTextverstehen • Seit 15 Jahren: Probabilistische Verfahren lösen KI-basierte Verfahren ab: • exponentielle Komplexität der wissensintensiven Verfahren • „Knowledgeacquisitionbottleneck“ • Verfügbarkeit riesiger Textmengen (WWW) • Skalierbarkeit („shallow“ methods)
Standardtools und - ressourcen • Tagger • Chunker / partielle Parser • Namenserkenner • … • Textkorpora • annotiert (POS, Chunks, Nes, Semantik) • nichtannotiert
ADJ NOUN VERB DET NOUN ST DET Beispiel: Tagging A severe infection ended the pregnancy .
Tag Set (Penn treebank) Description Examples Tag . sentence terminator . ! ? all an many such that the them these this DT determiner first oiled separable battery-powered JJ adjective, numeral cabbage thermostat investment NN common noun herself him it me one oneself theirs they PRP personal pronoun among out within behind into next IN preposition ask assess assign begin break bring VB verb (base form) asked assessed assigned began broke VBD verb (past tense) that what which who whom WP WH-pronoun
Statistisches HMM – Tagging (I) • Wahrscheinlichkeiteines Tags imVergleichzu n anchfolgenden Tags • P1(Tagi | Tagi-1 ... Tagi-n) • Wahrscheinlichkeiteines Tokensbzgl. einesTags • P2(Tokeni | Tagi) • die/DET Frau/NOUN ,/COMMA die/DET orPREL singt/VFIN
Statistisches HMM – Tagging (I) • State transition probabilities (trigrams): • P1(DET | COMMA NOUN) = 0.0007 • P1(PREL | COMMA NOUN) = 0.01 • State emission probabilities: • P2( die | DET) = 0.7 • P2( die | PREL) = 0.2 • Compute probabilistic evidence for the tag being • DET: P1 • P2 = 0.00049 • PREL: P1 • P2 = 0.002 • die/DET Frau/NOUN ,/COMMA die/PREL singt/VFIN