1 / 51

9 . Information Retrieval und Medizinische Literaturdatenbanken

9 . Information Retrieval und Medizinische Literaturdatenbanken. Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz. Dokumentenretrieval. Anfrage (Query). ?. Sucher- gebnisse. Kollektion von Dokumenten (Dokumentationseinheiten).

thanos
Download Presentation

9 . Information Retrieval und Medizinische Literaturdatenbanken

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 9. Information Retrieval und Medizinische Literaturdatenbanken Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz

  2. Dokumentenretrieval Anfrage (Query) ? Sucher- gebnisse Kollektion von Dokumenten(Dokumentationseinheiten)

  3. Problem 1: eindeutigeFormulierungderSuchanfrage

  4. Mehrdeutige Begriffe • Ein Patient kennt das Wort "Ventrikel" nicht und gibt das Wort in eine Suchmaschine ein • Wo liegt das Problem?

  5. Ventrikel

  6. Zwei Sprachphänomene, die die Textrecherche erschweren • Synoymie: Ein Gegenstand lässt sich durch unterschiedliche sprachliche Zeichen ausdrücken • Homonymie (Ambiguität) : Unterschiedliche Gegenstände werden mit demselben sprachlichen Ausdruck belegt

  7. Relevante Dokumente

  8. Suchanfrage

  9. RelevanteDokumente Suchanfrage

  10. RelevanteDokumente Suchanfrage Suchmaschine

  11. RelevanteDokumente Suchanfrage

  12. Eine Suchanfrage… • Teilt den Dokumentenraum in • Relevante • Nicht relevante Dokumente • Eine Suchmaschine (IR-System) • Findet relevante, aber auch nichtrelevante • Verfehlt relevante, schließt nichtrelevante aus

  13. GefundeneDokumente NichtgefundeneDokumente RelevanteDokumente NichtrelevanteDokumente

  14. Precision (Genauigkeit):Anteil der relevanten an den gefundenen Dokumenten GefundeneDokumente NichtgefundeneDokumente RelevanteDokumente NichtrelevanteDokumente

  15. Recall (Ausbeute, Sensitivität):Anteil der gefundenen relevanten an allen relevanten Dokumenten GefundeneDokumente NichtgefundeneDokumente RelevanteDokumente NichtrelevanteDokumente

  16. Übung zu Precision / Recall • Ein Lehrbuch enthält Krankheitsbeschreibungen zu :Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis. • Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen • Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als relevant betrachtet. • Wie ist die Precision, wie der Recall dieser Methode ? • Gegeben eine große (n > 1000) Dokumentenkollektion, was ist einfacher zu messen, Precision oder Recall ?

  17. Übung zu Precision / Recall • Ein Lehrbuch enthält Krankheitsbeschreibungen zu :Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis. • Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen • Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als relevant betrachtet. • Wie ist die Precision, wie der Recall dieser Methode ? • Gegeben eine große (n > 1000) Dokumentenkollektion, was ist einfacher zu messen, Precision oder Recall ?

  18. Feststellen und Kennzeichnen des Inhalts einer Dokumentationseinheit mit Hilfe sogenannter Deskriptoren Zuordnung von Deskriptoren zu Dokumentationseinheiten: Indexieren Manuelles Indexieren: Zuweisung von Deskriptoren aus einem vorgegebenen Vokabular durch Experten Indexierung

  19. Manuelles Indexieren • Beispiel:MEDLINE • Fachkräfte weisen jedem Dokument Deskriptoren aus einem Indexierungsvokabular zu. • Indexierungsvokabular: MeSH(Medical Subject Headings)Multihierarchisches Schlagwortsystem

  20. Automatisches Indexieren • Beispiel: GOOGLE • "Crawler" bewegen sich automatisch / zufallsgesteuert durch das World Wide Web und erstellen / aktualisieren Index • Indexierungsvokabular: sämtliche Textwörter minus Stoppwörter

  21. Suchmaschinen • Gleichen Anfrage ab mit (asynchron erstelltem) Index • Auswahl und Verknüpfung der Indexterms bedingt die Dokumentenselektion Schilddrüsen-krankheiten Radioaktivität Schilddrüsen-krankheiten Radioaktivität

  22. Suchmaschinen • Gleichen Anfrage ab mit (asynchron erstelltem) Index • Auswahl und Verknüpfung der Indexterms bedingt die Dokumentenselektion OR AND

  23. Anfragesyntax • Vorsicht: Jede Suchmaschine hat ihre eigene Syntax • Typische Operatoren • Boolesche Operatoren: AND OR NOT • Trunkierung, z.B. magen* • Phrasen: "sick sinus syndrome" • Synonyme: ~Kidney (z.B. Google, aber Vorsicht! )

  24. Medline-Datenbank • Inhalt: Bibliographische Angaben zu biomedizinischen Publikation in (ausgewählten) wissenschaftlichen Fachzeitschriften und Sammelbänden. • Anbieter: National Library ofMedicine (USA) • 5300 Journals • 37 Sprachen • Referenzen von 1949 bis heute • 2000 – 4000 neue Referenzen täglich

  25. PubMed Suchoberfläche • Anbieter: National Library of Medicine • FreierZugangzur Medline Datenbank • http://pubmed.gov

  26. x 1000 http://www.ncbi.nlm.nih.gov/About/tools/restable_stat_pubmed.html

  27. Umfang in PubMed Aktualität • Medline in process • Suppliedby Publisher, • Other: • nicht oder unvollständigverschlagwortet • nicht mit MeSH suchbar Am 21.09.2010 20.185.853 Zitate Oldmedline wird sukzessive in Medline integriert Medline: Verschlagwortung nach einigen Tagen bis zu einigen Monaten ~ 5.300 Medline Journals

  28. MEDLINE - Datenbankeintrag

  29. MEDLINE - Datenbankeintrag

  30. Medical Subject Headings (MeSH) • Ca. 25.000 MeSH-Deskriptoren • 160.000 Entry Terms (Synonyme und spezifischere Terms) • 76 Subheadings (“Qualifier”) • “Therapy”, “Prevention and Control” • Definitionen • Indexierungszeitraum http://www.nlm.nih.gov/pubs/factsheets/mesh.html

  31. MeSH • Poly-hierarchischeStruktur (ein Term kannmehrereElternhaben)

  32. Welche Wörter sollen in einer Textwortsuche verwendet werden? • Prävention von Ösophagus-varizen-blutungen

  33. Suche nach Primärprophylaxe von Ösophagusvarizenblutungen 1. Beta-blocker plus nitrate for primary prophylaxis of variceal bleeding. 2. Efficacy of prophylactic sclerotherapy for prevention of a first variceal hemorrhage. 3. Beta-blockers for the prevention of variceal haemorrhage in patients with cirrhosis. 4. Primary prevention of bleeding from esophageal varices.

  34. Bleeding Hemorrhage(s) Haemorrhage(s) Variceal Varices Varix Prophylaxis Prevention Prevention of variceal bleeding (Textwortsuche)

  35. Bleed* Hemorrhag* Haemorrhag* Varic* Prohyla* Prevent* Prevention of variceal bleeding (Textwortsuche, Trunkierung)

  36. Bleed* Hemorrhag* Haemorrhag* Varic* Prophyla* Prevent* AND (bleed* OR hemorrhag* OR haemorrhag*) AND varic* AND (prophyla* OR prevent*) Prevention of variceal bleeding (Textwortsuche, log. Operatoren) OR OR

  37. Vor- und Nachteile der Suche mit MeSH Vorteile: Synonyme und versch. Schreibweisen werden automatisch berücksichtigt. Bei hierarchischem Aufbau Suche nach Ober- und Unterbegriffen in einem Schritt. Inhaltliche Zusammenhänge sind suchbar durch MeSH/Subheading-Kombination. Bsp.: Gastrointestinal Hemorrhage/prevention & control Artikel durch Fachpersonal verschlagwortet vergebenes Schlagwort ist Gegenstand der Arbeit. • Nachteile: • Uneinheitliche Verschlagwortung • (Indexierung) •  Zutreffendes wird nicht gefunden. Aktuelle, noch nicht verschlagwortete Artikel werden nicht gefunden (Komponente Premedline). Für neue Substanznamenoder neue medizinische Terme existiert noch kein MeSH.

  38. Suche einschränken

  39. Suche weiter einschränken

  40. Search history

  41. Automatic term mapping • Naive Suche • Automatischer Abgleich mit Indexen • MeSH, Journal, Author

  42. Expansion von Trunkierungen

  43. Suchstrategien

  44. Frage in Blöcke zerlegen (PICO) Evtl. weitere Aspekte Aspekt 1 Aspekt 2 Suchfilter • MeSH-Term(s) • Explode: erweitern • Subheadings: • eingrenzen • MeSH-Term(s) • Explode: erweitern • Subheadings: • eingrenzen z.B. Cochrane highly sensitive search filter for randomized controlled trials. Suchbegriffe finden Textwörter (verwandte Begriffe, Synonyme, Trunkierung) Textwörter (verwandte Begriffe, Synonyme, Trunkierung) Begriffe kombinieren OR OR Aspekte kombinieren AND AND

More Related