510 likes | 613 Views
9 . Information Retrieval und Medizinische Literaturdatenbanken. Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz. Dokumentenretrieval. Anfrage (Query). ?. Sucher- gebnisse. Kollektion von Dokumenten (Dokumentationseinheiten).
E N D
9. Information Retrieval und Medizinische Literaturdatenbanken Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz
Dokumentenretrieval Anfrage (Query) ? Sucher- gebnisse Kollektion von Dokumenten(Dokumentationseinheiten)
Mehrdeutige Begriffe • Ein Patient kennt das Wort "Ventrikel" nicht und gibt das Wort in eine Suchmaschine ein • Wo liegt das Problem?
Zwei Sprachphänomene, die die Textrecherche erschweren • Synoymie: Ein Gegenstand lässt sich durch unterschiedliche sprachliche Zeichen ausdrücken • Homonymie (Ambiguität) : Unterschiedliche Gegenstände werden mit demselben sprachlichen Ausdruck belegt
RelevanteDokumente Suchanfrage
RelevanteDokumente Suchanfrage Suchmaschine
RelevanteDokumente Suchanfrage
Eine Suchanfrage… • Teilt den Dokumentenraum in • Relevante • Nicht relevante Dokumente • Eine Suchmaschine (IR-System) • Findet relevante, aber auch nichtrelevante • Verfehlt relevante, schließt nichtrelevante aus
GefundeneDokumente NichtgefundeneDokumente RelevanteDokumente NichtrelevanteDokumente
Precision (Genauigkeit):Anteil der relevanten an den gefundenen Dokumenten GefundeneDokumente NichtgefundeneDokumente RelevanteDokumente NichtrelevanteDokumente
Recall (Ausbeute, Sensitivität):Anteil der gefundenen relevanten an allen relevanten Dokumenten GefundeneDokumente NichtgefundeneDokumente RelevanteDokumente NichtrelevanteDokumente
Übung zu Precision / Recall • Ein Lehrbuch enthält Krankheitsbeschreibungen zu :Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis. • Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen • Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als relevant betrachtet. • Wie ist die Precision, wie der Recall dieser Methode ? • Gegeben eine große (n > 1000) Dokumentenkollektion, was ist einfacher zu messen, Precision oder Recall ?
Übung zu Precision / Recall • Ein Lehrbuch enthält Krankheitsbeschreibungen zu :Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis. • Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen • Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als relevant betrachtet. • Wie ist die Precision, wie der Recall dieser Methode ? • Gegeben eine große (n > 1000) Dokumentenkollektion, was ist einfacher zu messen, Precision oder Recall ?
Feststellen und Kennzeichnen des Inhalts einer Dokumentationseinheit mit Hilfe sogenannter Deskriptoren Zuordnung von Deskriptoren zu Dokumentationseinheiten: Indexieren Manuelles Indexieren: Zuweisung von Deskriptoren aus einem vorgegebenen Vokabular durch Experten Indexierung
Manuelles Indexieren • Beispiel:MEDLINE • Fachkräfte weisen jedem Dokument Deskriptoren aus einem Indexierungsvokabular zu. • Indexierungsvokabular: MeSH(Medical Subject Headings)Multihierarchisches Schlagwortsystem
Automatisches Indexieren • Beispiel: GOOGLE • "Crawler" bewegen sich automatisch / zufallsgesteuert durch das World Wide Web und erstellen / aktualisieren Index • Indexierungsvokabular: sämtliche Textwörter minus Stoppwörter
Suchmaschinen • Gleichen Anfrage ab mit (asynchron erstelltem) Index • Auswahl und Verknüpfung der Indexterms bedingt die Dokumentenselektion Schilddrüsen-krankheiten Radioaktivität Schilddrüsen-krankheiten Radioaktivität
Suchmaschinen • Gleichen Anfrage ab mit (asynchron erstelltem) Index • Auswahl und Verknüpfung der Indexterms bedingt die Dokumentenselektion OR AND
Anfragesyntax • Vorsicht: Jede Suchmaschine hat ihre eigene Syntax • Typische Operatoren • Boolesche Operatoren: AND OR NOT • Trunkierung, z.B. magen* • Phrasen: "sick sinus syndrome" • Synonyme: ~Kidney (z.B. Google, aber Vorsicht! )
Medline-Datenbank • Inhalt: Bibliographische Angaben zu biomedizinischen Publikation in (ausgewählten) wissenschaftlichen Fachzeitschriften und Sammelbänden. • Anbieter: National Library ofMedicine (USA) • 5300 Journals • 37 Sprachen • Referenzen von 1949 bis heute • 2000 – 4000 neue Referenzen täglich
PubMed Suchoberfläche • Anbieter: National Library of Medicine • FreierZugangzur Medline Datenbank • http://pubmed.gov
x 1000 http://www.ncbi.nlm.nih.gov/About/tools/restable_stat_pubmed.html
Umfang in PubMed Aktualität • Medline in process • Suppliedby Publisher, • Other: • nicht oder unvollständigverschlagwortet • nicht mit MeSH suchbar Am 21.09.2010 20.185.853 Zitate Oldmedline wird sukzessive in Medline integriert Medline: Verschlagwortung nach einigen Tagen bis zu einigen Monaten ~ 5.300 Medline Journals
Medical Subject Headings (MeSH) • Ca. 25.000 MeSH-Deskriptoren • 160.000 Entry Terms (Synonyme und spezifischere Terms) • 76 Subheadings (“Qualifier”) • “Therapy”, “Prevention and Control” • Definitionen • Indexierungszeitraum http://www.nlm.nih.gov/pubs/factsheets/mesh.html
MeSH • Poly-hierarchischeStruktur (ein Term kannmehrereElternhaben)
Welche Wörter sollen in einer Textwortsuche verwendet werden? • Prävention von Ösophagus-varizen-blutungen
Suche nach Primärprophylaxe von Ösophagusvarizenblutungen 1. Beta-blocker plus nitrate for primary prophylaxis of variceal bleeding. 2. Efficacy of prophylactic sclerotherapy for prevention of a first variceal hemorrhage. 3. Beta-blockers for the prevention of variceal haemorrhage in patients with cirrhosis. 4. Primary prevention of bleeding from esophageal varices.
Bleeding Hemorrhage(s) Haemorrhage(s) Variceal Varices Varix Prophylaxis Prevention Prevention of variceal bleeding (Textwortsuche)
Bleed* Hemorrhag* Haemorrhag* Varic* Prohyla* Prevent* Prevention of variceal bleeding (Textwortsuche, Trunkierung)
Bleed* Hemorrhag* Haemorrhag* Varic* Prophyla* Prevent* AND (bleed* OR hemorrhag* OR haemorrhag*) AND varic* AND (prophyla* OR prevent*) Prevention of variceal bleeding (Textwortsuche, log. Operatoren) OR OR
Vor- und Nachteile der Suche mit MeSH Vorteile: Synonyme und versch. Schreibweisen werden automatisch berücksichtigt. Bei hierarchischem Aufbau Suche nach Ober- und Unterbegriffen in einem Schritt. Inhaltliche Zusammenhänge sind suchbar durch MeSH/Subheading-Kombination. Bsp.: Gastrointestinal Hemorrhage/prevention & control Artikel durch Fachpersonal verschlagwortet vergebenes Schlagwort ist Gegenstand der Arbeit. • Nachteile: • Uneinheitliche Verschlagwortung • (Indexierung) • Zutreffendes wird nicht gefunden. Aktuelle, noch nicht verschlagwortete Artikel werden nicht gefunden (Komponente Premedline). Für neue Substanznamenoder neue medizinische Terme existiert noch kein MeSH.
Automatic term mapping • Naive Suche • Automatischer Abgleich mit Indexen • MeSH, Journal, Author
Frage in Blöcke zerlegen (PICO) Evtl. weitere Aspekte Aspekt 1 Aspekt 2 Suchfilter • MeSH-Term(s) • Explode: erweitern • Subheadings: • eingrenzen • MeSH-Term(s) • Explode: erweitern • Subheadings: • eingrenzen z.B. Cochrane highly sensitive search filter for randomized controlled trials. Suchbegriffe finden Textwörter (verwandte Begriffe, Synonyme, Trunkierung) Textwörter (verwandte Begriffe, Synonyme, Trunkierung) Begriffe kombinieren OR OR Aspekte kombinieren AND AND