570 likes | 744 Views
Medizinische Statistik und Informationsverarbeitung. Quade Institut für Medizinische Statistik, Dokumentation und Datenverarbeitung. Quade. Anwendungsprogramme. Anwendungsprogramme lassen sich in der Regel in 3 Ebenen einteilen: 1: Daten 2: Anwendung 3: Präsentation
E N D
Medizinische Statistik und Informationsverarbeitung Quade Institut für Medizinische Statistik, Dokumentation und Datenverarbeitung Quade
Anwendungsprogramme Anwendungsprogramme lassen sich in der Regel in 3 Ebenen einteilen: 1: Daten 2: Anwendung 3: Präsentation Diese Ebenen lassen sich auf verschiedenen Rechnern unterbringen (Client - Server). Quade
Erfassungssysteme Erfassungssysteme können typische Anwendungs-programme sein. Über Masken werden Daten eingegeben, vom Programm geprüft und dann in einer Datei oder Datenbank gespeichert. Schon gespeicherte Daten lassen sich jederzeit ändern oder ergänzen. Änderungen werden gegebenenfalls dokumentiert. Beispiel: Patientenaufnahme, Erfassung von Untersuchungsbefunden. Quade
Erfassungssysteme In der Medizin gibt es besondere Anforderungen an Erfassungssysteme. So muß z.B. bei der Patientenaufnahme der Patient re-identifiziert werden. Erfaßte Daten eines Patienten müssen diesem eineindeutig zugeordnet werden können. Quade
Erfassungssysteme Wichtig ist die vollständige, vollzählige und fehlerfreie Erfassung. Ein Erfassungsbogen wird häufig in der primären Datenerfassung eingesetzt. Geeignete Formulare (Markierungsbelege) können auch online eingelesen werden (Markierungsbeleg mit Barcode oder OCR-Schrift). Quade
Datei, Datenbank Die einfachste Form, Daten zu speichern, ist die Ablage in einer Datei (File). Dateien werden in Verzeichnissen (Directories) abgelegt. Die Dateinamen werden in Abhängigkeit vom Betriebssystem gewählt. Daten werden in Dateien in ein oder mehreren Zeilen (Records) mit fester (fixed) oder variabler Länge abgelegt. Die Reihenfolge der Daten, die Form ihrer digitalen Repräsentation und ihre Position in der Datei müssen vereinbart sein. Quade
Datei, Datenbank Auch Datenbanken speichern Daten in Dateien. Sie führen zusätzlich Informationen über die gespeicherten Daten (Bezeichnung, Format, Länge) mit. Bei echten Datenbanken verwaltet ein Datenbankmanager die Daten und organisiert den Zugriff. Damit werden Datenzugriff und Datenintegrität besser gewährleistet als durch Record locking bei Dateien. Quade
Datei, Datenbank hierarchisch relational objektorientiert Dateibasiert: dBase, Clipper Access Datenbank: Oracle Mysql SQL InformixSybase Quade
Gesellschaften 60000-10000 AC Gesellschaft der Jäger und Sammler - 18. Jahrhundert Ackerbau und Viehzucht - heute Industriegesellschaft heute - ? Informationsgesellschaft zukünftig ? Freizeitgesellschaft? Oncology Meeting Curitiba
Information Society Alle Produkte müssen produziert werden. Das „Produkt“ “Information / Wissen” kann leicht kopiert werden! Unser Problem ist nicht so sehr “producing knowledge”, sondern der Zugang zu vorhandenem Wissen Quade
Geschichte des Internet 1957 Sputnik 1958 Advanced Research Projects Agency 1969 Arpanet(Network Control Protocol) erster Request For Comments 1972 ftp e-mail Oncology Meeting Curitiba
Geschichte des Internet 1972 5 verschiedene Netzwerke (inkompatibel) RFC #318 telnet (Jon Postel) 1973 Name „Internet“ and Definition von TCP/IP 1982 TCP/IP wird „Standard“ 1983 TCP/IP als Source-Code frei zugänglich (Berkeley System Distribution) Oncology Meeting Curitiba
Netzwerke Netzwerke verbinden Computer untereinander. Vereinbarungen für den Informationstransport und -Austausch nennt man Protokolle. Netzwerke werden nach dem OSI Referenzmodell in 7 Schichten eingeteilt. Dabei nimmt die unterste Schicht großen Einfluß auf die Leistungsdaten eines Netzwerkes. Quade
Netzwerke In der Transport und Vermittlungsschicht werden wichtige Eigenschaften des Netzwerkes festgelegt. SNA IPX Netbios TCP/IP weltweit local local weltweitDateizugriff Dateizugriff Dateizugriff Dateizugriffdrucken drucken drucken druckenNCS NCS WWW ftp Quade
IP-Netzwerkadressen Eine IP-Adresse besteht aus 4 Zahlen (Byte) zwischen 0 und 255. Hinzu kommt eine Netzwerkmaske. Die Netzwerkmaske (z.B. 255.255.x.x) bestimmt, welche Adressen ein zusammengehörendes Netzwerk (Knoten) bilden. Das erlaubt den gleichzeitigen Betrieb mehrerer logischer Netzwerke in einem physikalischen Netzwerk. Die höchste und die niedrigste Adresse ist jeweils für Broadcasts reserviert.
Broadcast Alle Netzwerkkarten innerhalb eines zusammengehörenden Netzwerks lauschen auf den Broadcastadressen. Über die Broadcastadressen teilen die Netzwerkkarten anderen Rechnern ihre Anwesenheit und die von ihnen angebotenen Services mit.
IP-Netzwerkklassen Eine IP-Adresse ist zweigeteilt und zwar in einen Netzwerkteil und einen Knotenteil. Der Netzwerkteil ist innerhalb eines Netzwerksegments überall gleich, während jeder Rechner oder jedes andere Gerät seine eigene Knotennummer bekommt. 10.10.10.10 Maske 255.0.0.0
IP-Netzwerkklassen Über die Netzwerknummer erfolgt auch die Einteilung in sogenannte Netzwerk-Klassen in A-, B- oder C-Klasse Netzwerke. Das Prinzip ist, dass große Netzwerke mit vielen Knoten möglichst eine Klasse A oder wenigstens eine Klasse B Nummer bekommen und kleine Netze eine Klasse C Nummer http://www.instrumentation.de/5106003d.htm
IP-Netzwerkklassen Klasse A (1.0.0.0 bis 127.255.255.255): • Das erste Bit der Adresse ist auf Null gesetzt. Die ersten acht Bit identifizieren das Netzwerk, die restlichen 24 Bit den Host. Insgesamt sind 127 Class-A-Netze möglich. • Reserviert: 127.x.x.x (loopback/localhost) • Privat: 10.0.0.0 - 10.255.255.255
IP-Netzwerkklassen Das Klasse B (128.0.0.0 bis 191.255.255.255): • Bei Klasse-B-Netzen ist das erste Bit auf Null, das zweite Bit auf eins gesetzt. Die ersten 16 Bit beschreiben das Netzwerk, die anderen 16 Bit sind die Hostadresse. • Netze: 16.384 mit maximal 65.534 angeschlossenen Computern. • Privat: 172.16.0.0 - 172.31.255.255
IP-Netzwerkklassen Klasse C (192.0.0.0 bis 223.255.255.255) : • Diese Netzwerkart erlaubt nur 255 Hosts in einem Netz. Die ersten drei Bit einer Class-C-Adresse bilden dabei die Folge "110". Die ersten 24 Bit identifizieren das Netzwerk, nur acht Bit den Host. • 2.097.152 Netze mit jeweils 254 Rechnern • Privat: 192.168.0.0 - 192.168.255.255
IP-Netzwerkklassen Klasse D: 224.0.0.0 - 239.255.255.255 für spezielle Dienste z.B. Multicast
Ports • Jede IP-Adresse hat 65536 Ports • festgelegte privilegierte Ports 0 bis 1023. • festgelegte Ports von 1024 bis 49151 • dynamische oder private von 49152 bis 65535http://www.iana.org/assignments/port-numbers
Warum Internet? telephone internet circuit switching packet switching time oriented volume oriented transfers picture transfers encoded of information data expensive cheep real time sometimes real time
1 page of information 1 page of information has approximately 2000 bytes transmission time telephone internet reading 1 minute fax 60 seconds 1 second and faster (56313 bytes) (2864 bytes)
Geschichte des Internet 1983 Arpanet wechselt von NCP zu TCP Domain Name Service 1986 Perl von Larry Wall 1988 Internet Wurm von R. Morris Jr. 1989 Clifford Stoll und die Hacker Web Vorschlag von Tim Berners- Lee Oncology Meeting Curitiba
Geschichte des Internet 1990 Tim Berners-Lee erstellt die erste WWW Software 1991 WAIS wird erfunden Gopher wird freigegeben Pretty Good Privacy von Philip Zimmerman wird freigegeben Linux wird von Linus Torvald vorgestellt Oncology Meeting Curitiba
Geschichte des Internet 1991 Veronica 1993 Mosaic WWW Verkehr steigert sich von 0.1% auf 1%. Es gibt 500 WWW Server 1994 WWW wächst um 341,634% WWW wechselt von CERN zur INRIA Oncology Meeting Curitiba
World Wide Web Oncology Meeting Curitiba
Geschichte des Internet 1994 Lycos startet eine Suchmaschine im Internet. Die deutsche Bundestagswahl wird im Internet übertragen. 1995 HTTP Pakete bilden das größte Kontingent im Internet Verkehr. Apache Web Server Projekt. Java wird eingeführt. Oncology Meeting Curitiba
Geschichte des Internet 1996 Blue Ribbon Campain 1998 Clinton Oncology Meeting Curitiba
Einige Fakten (2000) • Der Bereich Medizin ist der zweitgrößte im Internet • Es gibt fast eine Milliarde Dokumente • Maximal 10% bis 20% des Internet werden von einer Suchmaschine indexiert. • Es gibt Listserver und Suchmaschinen
Recherchesysteme Recall Anteil der gefundenen Daten an den gesuchten Daten Precision Anteil der gefundenen Daten der von Interesse ist A A+C AA+B vorhandene Daten relevant irrelevant A B C D gefunden nicht gefunden Ergebnis der Suche
Recherchesysteme MEDLINE Schlagworte, Autoren (3000 journals) http://www.ncbi.nlm.nih.gov/PubMed/ CURRENT wöchentlich erstelltes lnhaltsverzeichnis CONTENTS wichtiger Journals SCIENCE wie häufig wurde eine Publikation zitiertCITATION INDEX Quade
Zwei Verfahren der Indexierung Einfacher Index über alle Worte z.B. WAIS Alle Worte werden in den Index aufgenommen Auch Worte wie Ich, Du, Er, Sie, Es, Das, und, aber, wie, ... Keine Bestimmung von Häufigkeit und Wichtigkeit Index mit Thesaurus z.B. Xindex mit UMLS-Metathesaurus Es werden nur relevante Begriffe in den Index aufgenommen Was Relevant ist wird an Hand von UMLS bestimmt Berechnung der Häufigkeiten von Worten und Wortgruppen Berechnung der Dichte dieser Worte und Wortgruppen
Funktion von Xindex mit UMLS-Metathesaurus UMLS-Metathesaurus Dokument Primäre Wortliste (Konzepte) Wortliste Ranking Rank = Wörter pro Begriff * Anzahl * 1/Doclen * 1/Anz. Häufigster Begriff Index für das Dokument mit Preffered Terms
Vorteile von Xindex gegenüber WAIS Erkennen von Wortkombinationen z.B. Breast Cancer Gleiches Suchergebnis bei unterschielicher Schreibweise z.B. hpv und HPV z.B. MTX und Methotrexat Sinnvolles Suchergebnis bei trivialen Begriffen z.B. love --> HPV, Cervixcarzinom, Brustkrebs Es werden Dokumente in verschiedenen Sprachen gefunden z.B. Englisch, Deutsch und Spanisch
Vorteile von Xindex gegenüber WAIS Beispiel Melanom
Vorteile von Xindex gegenüber WAIS Es werden seltene Entitäten gefunden: Suche nach „Melanom“ liefert Informationen zum „Wilms Tumor“ Dieser steht in Verbindung zum „clearcellsarcoma“ einer seltenen Form des Melanoms Erkennen von Synonymen z.B. Mumps, Parotitis epidemica
Der UMLS-Metathesaurus Integration vorhandener Thesaurie: ICD 10, MESH, Cancerlit, HL7-Zusatz Mehrsprachig: z.B. Englisch, Deutsch, Spanisch, Russisch, Französisch, Finnisch, Italienisch, ... Konzeptorientierung: Jedes Konzept bekommt eine Nummer (CUI) Jedes Synonym jedes Konzeptes bekommt eine eigene Nummer in verschiedenen Sprachen sowohl normalisiert (SUI) als auch nicht normalisiert (LUI) Kennzeichnung des „Preffered Terms“
Nutzerprobleme • Wie finde ich als Laie eine Information? • Wie kann ich die Seriosität einer Information erkennen (weit mehr fragliche Informationen denn gute) ? • Wie finde ich beim Anbieter eine Information trotz bildorientierter Oberfläche?