1 / 15

Semantische Heterogenität bei datenbankübergreifenden Recherchen

Probleme der Integration digitaler Bibliothekssysteme:. Semantische Heterogenität bei datenbankübergreifenden Recherchen. Klaus Hahn Zentrum für Psychologische Information und Dokumentation ( ZPID ) der Universität Trier. Szenario: Information Retrieval. attention & performance...

Download Presentation

Semantische Heterogenität bei datenbankübergreifenden Recherchen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Probleme der Integration digitaler Bibliothekssysteme: Semantische Heterogenitätbei datenbankübergreifendenRecherchen Klaus Hahn Zentrum für Psychologische Information und Dokumentation (ZPID) der Universität Trier

  2. Szenario: Information Retrieval attention & performance... GO! • Information Retrieval = Text Retrieval • Internet: retrieval in riesiger + ständig wachsender Textmenge • GOOGLE = ca. 2.ooo.ooo.ooo web pages • pro Tag ca. 1oo.ooo.ooo Anfragen • Standard: Volltext-Suche (+Boole) • optimiert durch individuelle Heuristiken • Output: unpräzise + umfangreich • Texte ohne Struktur  Output ohne Struktur • keine semantische Aufbereitung • W3C: Ontology Inference Layer (OIL) 2.620.000

  3. Information Retrieval: Meta-Daten • Normal-User kann (will?) explorieren • Professioneller (e.g. Wissenschafts-) User braucht maximale Präzision • Semantik effiziente Suche • Fach-Datenbanken als Spezialisierung mit Meta-Daten • Minimum: Titel, Autor, Quelle, etc. • Standards entwickeln sich: DCI, RDF ... • Vorteil: Thesaurus • erschlossene Datenbasis • indiziert über kontrolliertesFachvokabular • Klassifikation und Relationen Fach-Datenbank (Meta-Daten) 12

  4. Information Retrieval: Thesauri Fach-Datenbank A (Meta-Daten A) • Nachteil: Kenntnis der jeweiligen Erschließung / Indizierung unumgänglich • akzeptabel für einen Thesaurus • inakzeptabel für mehrere Datenbanken • zur Zeit (traditionell) getrennte DB • nach wissenschaftlicher Disziplin • nach Organisation • nach Verwertungsprinzip • Internet fördert / provoziert aber unifizierten Zugriff: Komplikationen werden heute nicht mehr akzeptiert • User sollte nicht erst • Datenbankenaufspüren müssen, • sondern schnell hochwertige Informationenfinden können. Fach-Datenbank B (Meta-Daten B) Fach-Datenbank C (Meta-Daten C)

  5. Thesauri im Internet Fach-Datenbank C (Meta-Daten C) • unser Ansatz: Kommunikation aller relevanten (oder selegierten) Datenbanken im Hintergrund • Aufbereitung der User-Query für die verschiedenen DBMS (zB. via XML) • dabei semantischer Transfer zwischen den verschiedenen Thesauri • Brave New World: • ein Such-Portal und • eine Anfrage gegen • jede gewünschte Datenbasis Fach-Datenbank B (Meta-Daten B) Fach-Datenbank A (Meta-Daten A) 62

  6. Informations-Verbund BSP • Deutsches Institut für Internationale Pädagogische Forschung (DIPF) • ca. 5oo.ooo Literaturnachweise ab 1980 • 'Thesaurus' mit ca. 6o.ooo Termen • Informationszentrum Sozialwissenschaften (IZ) • ca. 250 000 Literaturnachweise ab 1945 • Thesaurus mit ca. 11.ooo Termen • Zentrum für Psychologische Information und Dokumentation (ZPID) • ca. 170 000 Literaturnachweise ab 1977 • Thesaurus mit ca. 7.ooo Termen • Universitätsbibliothek Erlangen-Nürnberg (UB Erlangen) • Universitäts- und Stadtbibliothek Köln (USB Köln) • Saarländische Universitäts- und Landesbibliothek (SULB) Fach-Datenbanken 1..n (Meta-Daten)

  7. BSP: Heterogene Systeme Mimik Angst Frustration Psyche • Gesicht • Gesichtsausdruck • Gesichtsmuskeln • Gesichtszüge • Kommunikationsfertigkeiten • Nonverbale Kommunikation • Angst • Angststörungen • Angstverarbeitung • Erfolgsangst • Kastrationsangst • Leistungsangst • Furcht • Frustration • Leistungsmotivation • Misserfolg • ...? Probleme • Ähnliche Semantik, unterschiedliche Benennung • Aufgeschlossenheit / Offenheit • Klinikum / Krankenhaus ... • Ähnliche Benennungen, unterschiedliche Semantik • Verband, Bank ... • interne Differenzierungen • Prä- / Postkoordination • Jugend - Arbeitslosigkeit ?? TB TC TA

  8. BSP: Heterogene Systeme • bloße Term-Weitergabe an andere Datenbanken wäre inadäquat • Verfehlung des wirklichen Suchziels • nutzlose Vergrößerung der Treffermenge • analog bei Mehrsprachigkeit • bloßes Übersetzen reicht nicht aus • Sprach- bzw. Kultur-spezifische Semantik muß auch hier berücksichtigt werden • Child discipline • Cognition • Double bind interaction • Mind • Perception • Sensation ?? TB TC TA

  9. Heterogenität: Lösungsansätze • Intellektuelle Verfahren • Von Fachleuten erstellte Module ("Konkordanzen"), die uni- oder bi-direktional jeweils zwei Thesauri (1:1 oder n:m) aufeinander abbilden • kostenintensiv in Aufbau und Wartung • Quantitativ-Statistische Verfahren • Co-Occurence Analysis, Cond. Prob. • Neural Networks • umfangreiche Datenbasis notwendig • prinzipiell wartungsarm, aber • Datenbasis-abhängig • Scheinkorrelationen • intellektuelle Überarbeitung unverzichtbar: semi-automatische Verfahren Thesaurus A Term a1 Term a2 Term a3 ... ... ... Thes. B Term b1 Term b2 Term b3 ... ... Konk. AB Relation Relation Relation ... Output Term B Thesaurus A  Input Layer Hidden Layer

  10. Heterogenität: Intellektuelle Zuordnung • Equivalent ( männlichkeit = männlichkeit ) • Related ( lernprozess ^ lernen ) • Broader Term • mensch > menschliche natur • Narrower Term • lernerfolg < lernen • jeweils auch AND / OR - verknüpft • jeweils dreistufige Relevanz • hoch, mittel, gering SWDrelation relevanceZPID

  11. Heterogenität: Statistik • Voraussetzung: umfangreiche Datenbasis, die Beziehungen zwischen Thesauri ermöglicht (>50.000) • Parallel-Korpora / Parallel-Verschlagwortung • Ergebnis: Korrelationsmatrix zwischen den Termen aus Thesaurus A und Thesaurus B • eingesetzt ebenfalls als Gewichts-Vektoren für die automatische Interpretation als Konkordanz-Tabelle Thes. A Term a1 Term a2 Term a3 ... ... ... Thes. B Term b1 Term b2 Term b3 ... ... ... Dokumente Doc 1 Doc 2 Doc 3 ... ... Doc n Conditional Probability Neural Networks

  12. Probleme automatischer Verfahren • keine Spezifizierung der Relationsart • nicht geeignet zur 1:1 - Abbildung, Ergebnisse sind von der Art n:m (Zuordnung 'Semantischer Räume') • abhängig vom Input-Material • Parallel-Korpus ist meist nicht repräsentativ, sondern eher kleine Schnittmenge der Wissensgebiete • führt zu Scheinkorrelationen • Testkonstruktion – Ausländer • Gesundheit - Altern • Berufliche Reintegration – Rückenschmerzen • Kombinationen, die im Material selten sind, können trotzdem hochrelevante Beziehungen repräsentieren • kein Problem für P(w|x) • Neural Networks lernen hier kaum aƒ

  13. Ansatz: Konkordanzen ZPIDrelation relevanceSWD Bidirektionale Konkordanzen zwischen allen beteiligten Thesauri Thes. A Term a1 Term a2 Term a3 ... ... ... Thes. B Term b1 Term b2 Term b3 ... ... ... Dokumente Doc 1 Doc 2 Doc 3 ... ... Doc n

  14. Probleme bei Konkordanzen Thesauri werden permanent verändert / erweitert / umstrukturiert Thesaurus A Term a1 Term a2 Term a3 ... ... ... Thes. B Term b1 Term b2 Term b3 ... ... Konk. AB Relation Relation Relation ... Verschlagwortung ist permanente intellektuelle Arbeit

  15. Vielen Dank für Ihre Aufmerksamkeit! Semantische Heterogenitätbei datenbankübergreifenden Recherchen Thesaurus A Term a1 Term a2 Term a3 ... ... ... Thes. B Term b1 Term b2 Term b3 ... ... Konk. AB Relation Relation Relation ...

More Related