220 likes | 360 Views
Projektverbund Ontoverse Kooperatives vernetztes Wissensmanagement im Bereich Life Sciences. Christof Rumpf Heinrich-Heine-Universität Düsseldorf 23.06.2005. Antragsrahmen. Projektantrag im BMBF-Förderschwerpunkt eScience und vernetztes Wissensmangement Antragszeitraum 3 Jahre
E N D
Projektverbund OntoverseKooperatives vernetztes Wissensmanagement im Bereich Life Sciences Christof Rumpf Heinrich-Heine-Universität Düsseldorf 23.06.2005
Antragsrahmen • Projektantrag im BMBF-Förderschwerpunkt eScience und vernetztes Wissensmangement • Antragszeitraum 3 Jahre • Antragsvolumen 2,3 Mio € (ca. 13 Arbeitsplätze + ca. 100.000 € Sachmittel)
Ziele • Erstellen einer Ontologie für die biomedizinische Domäne durch Verschmelzung vorhandener Ontologien • Erstellen eines Informationsextraktionssystems basierend auf der Ontologie • Erweiterung der Ontologie • webbasiert durch Anwender (Wikipedia) • halbautomatisch bei der Informationsextraktion
Was heisst Ontologie? • Erstes Vorkommen des Wortes Ontologie in: Jacob Lorhard (1606) Ogdoas Scholastica. • Philosophie: Ontologie ist die Wissenschaft vom Sein; Zweig der Metaphysik. • KI und Wissensrepräsentation: Ontologie als formale Theorie über Eigenschaften und Relationen abstrakter Entitäten (Konzepte) aus einer Sprache (Vokabular, inbes. Nomen).
Konzepthierarchien • Ontologien sind hierarchische Ordnungen von Konzepten (Subsumption) • primäre hierarchiebildende Relationen: • is_a Ober- / Unterbegriff • part_of Teil- Ganzesbeziehungen • sekundäre Relationen: • synonym, antonym, subset, definition, has_property, …
Beispiel: Gene Ontology (GO) • Molecular Function 7,493 terms • Biological Process 9,640terms • Cellular Component1,634 terms • Total 18,767 terms • Definitions: 16,696 (93.9 %) Quelle: ftp://ftp.geneontology.org/pub/go/teaching_resources/presentations/2005-05_Purdue_edimmer.ppt
Ausschnitt GO-Hierarchie rote Pfeile: part_ofblaue Pfeile: is_a Quelle: ftp://ftp.geneontology.org/pub/go/teaching_resources/presentations/2005-05_Purdue_edimmer.ppt
GO Terme [Term] id: GO:0000001 name: mitochondrion inheritance namespace: biological_process def: "The distribution of mitochondria\, including the mitochondrial genome\, into daughter cells after mitosis or meiosis\, mediated by interactions between mitochondria and the cytoskeleton." [PMID:10873824, PMID:11389764, SGD:mcc] is_a: GO:0048308 ! organelle inheritance is_a: GO:0048311 ! mitochondrion distribution [Term] id: GO:0000002 name: mitochondrial genome maintenance namespace: biological_process def: "The maintenance of the structure and integrity of the mitochondrial genome." [GO:ai] is_a: GO:0007005 ! mitochondrion organization and biogenesis [Term] id: GO:0000003 name: reproduction alt_id: GO:0019952 namespace: biological_process def: "The production by an organism of new individuals that contain some portion of their genetic material inherited from that organism." [GO:curators, ISBN:0198506732] subset: goslim_generic subset: goslim_plant subset: gosubset_prok is_a: GO:0007275 ! development
Nutzen von Ontologien • Ontologien enthalten semantische Relationen zwischen Konzepten und damit Wissen über die Welt bzw. eine Domäne • Ontologien können der Konsensbildung in der Wissenschaft dienen • Ontologien unterstützen Information Retrieval und Informationsextraktion
Aufbau von Ontologien • manuell:Experten definieren Konzepte und Relationen – sehr zeitaufwändig • automatisch:durch maschinelles Lernen auf der Grundlage von Datenbanken oder Texten (Informationsextraktion)
Ontoverse • In Ontoverse soll eine Ontologie für die biomedizinische Domäne auf drei Wegen entstehen: • Verschmelzen vorhandener Ontologien • webbasierte kooperative manuelle Erweiterung im Stil von Wikipedias – semantisches Wiki • halbautomatische Erweiterung durch auf der Ontologie basierende Informationsextraktion
Verschmelzen von Ontologien • Die Architektur der Ontoverse-Ontologie muss alle Relationen und Attribute einer zu verschmelzenden Ontologie abbilden können. • Beim Verschmelzen müssen vollständige und partielle Übernahme von Konzepten berücksichtigt werden. • Inkonsistenzen zwischen Ontologien müssen mit Hilfe eines Logikvalidierers erkannt und (manuell) aufgelöst werden.
semantisches Wiki • kooperatives Ontologiedesign • webbasierte Benutzerschnittstelle • graphisches Visualisierungstool • Authentifizierung von Autoren mit Signatur • Markierung von Änderungen in der Ontologie mit Signatur und Zeitstempel (Trustcenter)
Informationsextraktion (IE) • Bei der IE geht es um die automatische Gewinnung von strukturierter Information (relationale Datensätze) aus unstrukturierter Information (Texten). • Bei der IE müssen Texte maschinell ‚gelesen‘ und partiell ‚verstanden‘ werden. • Das Ontoverse-IE-System stützt sich auf die Ontoverse-Ontologie und soll gleichzeitig zur überwachten Erweiterung der Ontologie dienen.
Phrases Hierarchy Shallow Text Processor ... process=shoot SC= subj=croatian Police obj=18 years old Muslim DatePP = {1/1/1996} LocPP = {Mostar} Grammatical Functions Hierarchy Lookup in Domain Lexicon Templatse Hierarchy DomainLex: shoot=Fight-Lex Linked Types Select a linking type Merge types and Fill template Quelle: Günter Neumann (DFKI) Task Specific Template Filling, based on the TDL Model « Die Spannungen in Mostar nehmen am 1.Jan. 1996 zu, nachdem kroatische Polizisten einen 18jährigen Moslem erschossen haben, der... » process=1=shoot SC= subj=2=croatian Police obj=3=18 years old Muslim DatePP=4={1/1/1996} LocPP= 5={Mostar} action=1=shoot attacker=2=croatian Police templ= attacked=3=18 years old Mulsim date=4= 1/1/1996 loc=5= Mostar
Teilaufgaben der IE • Auf den MUC-1-7 (1987-1998) wurden Teilaufgaben der IE spezifiziert und mit precision und recall bewertet (MUC-7): • NE: Named Entity Task (95/92%) • CO: Coreference Task (69/56%) • TE: Template Element Task (87/86%) • TR: Template Relation Task (86/67%) • ST: Scenario-Template-Task (65/42%)
Generic IE tasks for MUC-7 • (ST) Scenario Template requires filling a template structure with extracted information involving several relations or events of interest • intended to be the MUC approximation to a real-world information extraction problem • identification of partners, products, profits and capitalization of joint ventures
Module eines IE-Systems • Tokenizer (Text Tokens) • Part-of-Speech-Tagger (Wortarten) • Termerkennung (named entities) • Koreferenzauflösung (nominal, pronominal) • Merger für Objekt-Templates • Dependenz-Parser (grammatische Funktionen) • Merger für Szenario-Templates
Quelle: Günter Neumann (DFKI) The systematic separation of the NLP and the modeling components, dealing with two types of knowledge (1) • The linguistic analysistools comprise (1) a tokenizer, a morphological analyzer (incl. compound analysis) and a POS filter for the lexical processing, and (2) a fragment recognizer for Named Entities and generic phrases (NP, PP, Verbgroup). On the top of this (3) a dependency based parser computes a flat (partial) analysis of the text, enriched with information about grammatical functions. [PNDie Siemens GmbH] [Vhat] [year1988][NPeinen Gewinn] [PPvon 150 Millionen DM], [Compweil] [NPdie Auftraege] [PPim Vergleich] [PPzum Vorjahr] [Cardum 13%] [Vgestiegen sind]. “The siemens company has made a revenue of 150 million marks in 1988, since the orders increased by 13% compared to last year.” hat Subj Comp weil PPs Obj SC Siemens steigen {1988, von(150M)} Gewinn PPs Subj {im(Vergleich) , zum(Vorjahr), um(13%) } Auftrag
Quelle: Günter Neumann (DFKI) Translation into meaningful semantic relations „...Uppsala´s main church...“ Linguistics Syntacic relations between „Uppsala“ and „church“ hasBuilding Building Location Ontology hasChurch Church City hasChurch Church-1 Uppsala Database
Design core ontology • Ontology to extract information • Use linguistic information to enhance the ontology Quelle: Günter Neumann (DFKI) Iterative Ontology Development Ontology after interation Core Ontology