1 / 16

Web-basierte Informationssysteme

Web-basierte Informationssysteme. Skizzen zur VL WS 2000/1 H. Schweppe FUB. Einführung / Umfeld. Informationsangebot 1000 Patentanmeldungen / Tag 2000 neue Bücher / Tag 500 000 fachwiss. Beiträge in der Chemie / Jahr Ca 150.000.000 Webseiten (1997) , jährliche Verdopplung

hart
Download Presentation

Web-basierte Informationssysteme

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Web-basierte Informationssysteme Skizzen zur VL WS 2000/1 H. Schweppe FUB

  2. Einführung / Umfeld • Informationsangebot • 1000 Patentanmeldungen / Tag • 2000 neue Bücher / Tag • 500 000 fachwiss. Beiträge in der Chemie / Jahr • Ca 150.000.000 Webseiten (1997) , jährliche Verdopplung • ~ 50.000 hydraulische Übertragungselement von 4000 Herstellern • Zentrales Problem: Benötigte ("passende") Information finden • Technisch: Suchmaschine • Nichttechnische Faktoren wichtig: u.a.vertrauenswürdig?

  3. Einführung / Umfeld • Technisches Umfeld • Speichermedien (Kosten, Volumen) • Kosten für Speicherung einer DIN A4 Seite20 GB kosten ca. 400 DM 1 Seite entspricht etwa 5 K Zeichen ~ 5 KB im pdf-Format 200.000 Seiten pro GB ~ 2000 PfgKosten pro Seite 1/100 Pf + Infrastrukturkosten (Controller, Netz Server) grob Faktor 5 1 Blatt DIN A 4 Papier ~ 1,5 Pfg Papier / elektronischer Speicherung ~ 1 : 30 (!) • Datenrate weit unterproportional gestiegen: 50 MB / sec : 10 Gb sequentiell lesen ca. 3 MinutenWahlfreier Zugriff: 10 msec 10 GB wahlfrei in Blöcken à 50 KB: ca. eine Stunde

  4. Einführung / Umfeld • Rechnertechnologie • Durchsuchen sehr großer Bestände wird möglichCPU, große Halbleiterspeicher • Rechnernetze • Unabhängigkeit vom Ort • Dokumente neuer Art Bilder, virtuelle Dokumente, verteilte Dokumente • Ökonomisch • Aufbereitung, Bewertung und Verbreitung von Information hat sich zu neuem Dienstleistungszweig entwickelt ("Wissensgesellschaft")

  5. Einführung: DB / IR / Web • Datenbank • Modell: Informationsrepräsentation Menge von Tabellen • Alle Werte statisch getypt (DB-Schema !) • Externsemantik dadurch festgelegt, einheitliche Interpretation der Daten • Zugriff über normierte Schnittstelle, • Frage – Antwort – Paradigma: Aq = {x | Q(x) mit Q ist Qualifikationsprädikat von q}Auswertung von Prädikaten in zweiwertiger Logik q DB Aq

  6. Einführung: DB / IR / Web • Fallstudie "Bibliothek" • Schlagworttabelle, um nach "Inhalten" suchen zu können. CREATE TABLE keyword (kw varchar(...), bookid: ... REFERENCES book); /* weitere Tabellen book, user, ..... Hier unwesentlich */ SELECT book.title from book b, keyword k WHERE k.kw = "NETWORKS" AND k.bookid = b.id; Eindeutige Anwortmenge, jeder Treffer "passt" in gleicher Weise zu Anfrage (zweiwertige Logik!)

  7. Einführung: DB / IR / Web • Kritik • Wie gewinnt man Stichwörter? • Wortformen ("networks", "networking") • Mehrsprachigkeit ("Netze") • Verwandte Begriffe ("Rechnernetze") • Ober- / Unterbegriffe (LAN) • Nur wenig davon in SQL ausdrückbar • Ziel: Gewichtung der Antwortmenge hinsichtlich Relevanz des Objekts bezüglich Anfrage-> Information RetrievalBeachte: subjektiv!

  8. Einführung: DB / IR / Web • Information Retrieval • Modell (in erster Näherung): Menge von Wortfolgen (Texte) • D Datenmenge. q Anfrage, Q Menge aller Anfragen Aq = {x | x "passend" zu q} • Was ist "passend" oder "ähnlich"? Formal z.B. s :: D x Q -> [0,1] (normiert auf [0,1])mit der Eigenschaft s(x,x) = 1 s(x,y) = s(y,x) eventuell zusätzlich: s(x,y) <= s(x,z) + s(z,y) (Dreiecksungleichung, macht aus Ähnlichkeitsmaß ein Abstandsmaß, wobei s(x,x) = 0) • Ähnlichkeit von Objekt und Anfrage definiert Rangfolge, Aq kann vermöge s geordnet werden: Rangfolgebestimmung

  9. Einführung: DB / IR / Web • Aufgaben des Information Retrieval • Modelle finden, die Ähnlichkeit auszudrücken gestatten (elementar: Boolesche Auswertung von Anfragen, die nur aus Schlagwörtern bestehen) • Geeignete Ähnlichkeitsmaße s definieren • Bewertung von s (relativ zu Nutzer) • Effiziente Verfahren zur Auswertung von s auf sehr großen Datenmengen, z.B. durch Indexierung • Erweiterte Aufgaben im Web • Zusammenführen von Ergebnissen • Rangfolge? • Duplikate • Strukturierte Dokumente (nicht nur Zeichenketten)(Wie) kann Markup helfen, die passenden Dokumente zu finden?

  10. Einführung: DB / IR / Web • Web-Technologie • Als Web bezeichnen wir alle weltweit miteinander verbundenen Rechnersysteme • Web im engeren Sinne: Web-Server (HTTP) und Klienten GET /document.html Client Server TCP cache

  11. Web Statistik, Juni 1999, Quelle: OCLC • Number of IP addresses in 32-bit address space: 4,294,967,296 Number of IP addresses in the 0.1% random sample:4,294,967 • Web Size • Number of Web Sites:4,882,000 • (+/- 3%) Number of Unique Web Sites: 3,649,000 • (+/- 3%) • Web Site Categorization (Unique Sites) • Number of Public Web Sites: 2,229,000 • (+/- 4%) • Number of Private Web Sites: 389,000 • (+/- 10%) • Number of Provisional Web Sites: 1,031,000 • (+/- 6%)

  12. Web-Statistik Public Web Sites (Unique Only) Number of Web Pages: 288,221,000 (+/- 35%) Number of Files: 500,491,000 Number of Adult Sites: 42,000 (+/- 30%) Web Growth 19971998 1999 Web Sites: 1,570,000 2,8510004,882,000 Unique Sites: 1,230,000 2,035,0003,649,000 Unique Public Sites: 800,000 1,457,0002,229,000 % Change: '97 to '98 '98 to '99 '97 to '99 Web Sites: 82 71211

  13. Web Statistik: Multilingualität Incidence of Languages in Public Sites 1998 1999 English 84%80% German 8 8 Japanese 3 3 French 3 3 Portuguese 2 2 Spanish 2 3 Chinese < 1 2 Italian 1 2 Dutch 1 1 ALL OTHERS < 1 < 1 Anzahl Sprachen insgesamt:1998: 28 1999: 29

  14. Datenbankanwendungen im Netz Nicht notwendig mit über HTTP • Klassischer Client-Server-Betrieb: z.B. SQL Client DB-Server proprietär z.B. Terminal

  15. Datenbankanwendung im Netz Zugriff über Web-Browser / HTTP-Server GET URI mit kodiertem Query-Sting Client HTTPServer TCP Anwendungsprogramm, über CGI-Schnittstelle gestartet HTML-Dokument mit Ergebnissen der DB-Abfrage DBServer

  16. Datenbankanwendung im Netz • Mehrschichtarchitektur z.B. Java Applica-tion-Server Client DBServer TCP Enthält die "Business-Logik" Kommunikation meist über Fernaufrufe

More Related