90 likes | 277 Views
FRaMed Ein medizinisches Textkorpus des Deutschen. Udo Hahn JULIE Lab Friedrich-Schiller-Universität Jena. Besonderheiten medizinischer Fachsprache. Sprachmix aus Deutsch und lateinischen, griechischen sowie zunehmend auch englischen lexikalischen / phrastischen Fragmenten
E N D
FRaMed Ein medizinisches Textkorpus des Deutschen Udo Hahn JULIE Lab Friedrich-Schiller-Universität Jena
Besonderheitenmedizinischer Fachsprache • Sprachmix aus Deutsch und lateinischen, griechischen sowie zunehmend auch englischen lexikalischen / phrastischen Fragmenten • Tendenz zu paragrammatischem Sprachgebrauch • Schreib- und Interpunktionsfehler • Häufige Verwendung von (idiosynkratischen) Abkürzungen und (sehr ambigen) Akronymen • Keine kohärente „medizinische“ Fachsprache, sondern textsorten- und subdomänenspezifische Medizinsprachen • Experte-Experte-Annahme: verdichteter Jargon • Lexikonzentrierung
Besonderheitenmedizinischer Textkorpora • Im Allgemeinen nicht öffentlich zugänglich (klinische Dokumente) • Sicherung der Anonymität von Patienten • AMIA 2006: FIRST SHARED-TASK FOR CHALLENGES IN NATURAL LANGUAGE PROCESSING FOR CLINICAL DATA http://www.bisti.nih.gov/ahm2006/abstracts/L-2.pdf http://www2.amia.org/meetings/f06/workshops.asp • F=99.75 (best-performing system) • Besitzstandswahrung von Klinikchefs
Textsorten in FRaMed(Wermter & Hahn, LREC 2004) Klinische Texte Nichtklinische Texte („Manual der Diagnostik und Therapie“, Webportalnetdoktor.de) IAA3 = 98.4
POS-Tagging-Experimente(Hahn & Wermter, PRICAI 2004) • Brill Tagger vs. TnT (Brants) • STTS vs. STTS-med • TnT, nachrichtentrainiert (Default) auf FRaMed: 97% acc • TnT, FRaMED-trainiert: 98% acc • Fazit • Nachrichtentrainierter POS-Tagger direkt anwendbar • Minimale Genauigkeitssteigerung für med. Tag-Set
Perspektiven • Entitäten-Tagging • Krankheiten, Anatomie, Arzneien, Untersuchungsmethoden, … • Relationen-Tagging • (anatomische) Lokalisation, Behandlungs- und Interventionsroutinen, … • JenAge – Altersforschungsschwerpunkt der FSU Jena, Klinikum Jena, diverse Leibniz-Institute
Verfügbarkeit • • … wir mussten unsere Tagging-Software im Universitätsklinikum installieren … • … und alle Beteiligten mussten sich (wegen fehlender Anonymisierung) strikten Geheimhaltungsklauseln unterwerfen … • • … und diese Restriktionen werden sich ver-schärfen, je mehr Semantik kodiert werden wird •
FRaMed Ein medizinisches Textkorpus des Deutschen Udo Hahn JULIE Lab Friedrich-Schiller-Universität Jena http://www.julielab.de