260 likes | 364 Views
Multilinguale Indexierungs-, Navigations- und Editier-Extensionen für das WWW. Multilinguale und konzeptbasierte Suche im Internet. Gliederung. Das Projekt MULINEX Benutzeranforderungen Multilingualität im World Wide Wide 3 Arten von multilingualen Dokumentsammlungen
E N D
Multilinguale Indexierungs-, Navigations- und Editier-Extensionen für das WWW Multilinguale und konzeptbasierte Suche im Internet
Gliederung • Das Projekt MULINEX • Benutzeranforderungen • Multilingualität im World Wide Wide • 3 Arten von multilingualen Dokumentsammlungen • Ansätze im sprachübergreifenden Information Retrieval • Konzept- und relationsbasiertes Indexieren und Retrieval • Benutzerschnittstellen für Suchmaschinen • Technologien
Förderung, Laufzeit, Sprachen Förderung MULINEX wird von der Europäischen Kommission im Rahmen des Telematics Application Programme durch den Sektor Language Engineering gefördert (LE 4203). Gesamter Arbeitsaufwand: 172 Personenmonate Laufzeit November 1996 bis November 1998 Der erste Prototyp wurde im 1997 fertiggestellt. Sprachen Englisch, Französisch, Deutsch
Benutzer Bertelsmann Telemedia GmbH, Gütersloh Online-Dienste, Electronic Commerce, Suchmaschinen (lycos.de) Grolier Interactive Europe, Neuilly sur Seine Online-Dienste und Entertainment, Website Management Technologieanbieter DFKI GmbH (Deutsches Forschungs-zentrum für Künstliche Intelligenz), Saarbrücken Sprachtechnologie (Morphix, SMES) DATAMAT, Rom Information Retrieval (Fulcrum) TRADOS, Stuttgart Übersetzungerwerkzeuge, Alignment Konsortium: Partner und Kompetenzschwerpunkte
ProjektzieleFunktionalität für den Endbenutzer Such-, Retrieval- und Navigationsfunktionen für den Endbenutzer • kombinierte Suche mit Stichwörtern, Phrasen und Konzepten • Retrieval von Dokumenten in verschiedenen Sprachen durch eine Anfrage in einer Sprache • Informative Darstellung der Suchergebnisse durch Spracherkennung, Zusammenfassung und thematische Klassifikation • Ausnutzen von Kontext und Benutzerprofilen zur Auswahl der relevantesten Dokumente • Verbindung mit einem Übersetzungssystem
Benutzeranforderungen für eine multilinguale Suchmaschine • Leistungsumfang und einfache Benutzbarkeit wie bei Alta Vista, Excite ... • einfache und fortgeschrittene Suchfunktionen • schnelle Antwortzeiten, Wartezeiten nicht länger als 2 Sekunden • Einschränkung der Suche auf bestimmte Themengebiete • informative Darstellung der Suchergebnisse zur leichten Relevanzbeurteilung • interaktive Verfeinerung der Suche (wie in AltaVista LiveTopics) • “Abonnieren” und“Push” von Information • personalisierter Service (durch Eingeben von Präferenzen) • gute Benutzerführung und Hilfesystem - intuitive Benutzerschnittstelle
Benutzerprofile I Die meisten deutschen Benutzer beherrschen deutsch und englisch, aber keine sonstigen Fremd-sprachen Sprachfähigkeiten der deutschen Benutzer
Benutzerprofile II • 76 von 79 deutschen Benutzern verwenden Suchmaschinen • Alle Benutzer wünschen sich die Möglichkeit, die Suche thematisch einzuschränken • 45 von 79 Benutzern wollen die Suche nach der Sprache einschränken Benutzung von Suchmaschinen
Benutzerprofile III Interesse an multilingualen Diensten
Ergebnisse bis November 97 • Marktanalyse für IR, Web-Services, multilinguales Dokumentmanagement • Untersuchung der Benutzeranforderungen • Anforderungsspezifikation und Systementwurf • Prototyp in Client-Server-Architektur implementiert • Psychologische Experimente zur Benutzerschnittstelle
Multilingualität im WWW • Etwa 91 Prozent aller WWW-Seiten sind englisch (Juni 97). • Anzahl und Anteil der nicht-englischen Seiten steigen ständig. • Die meisten Seiten enthalten keine Information über Sprache und Zeichensatz. • Standards für Sprachkennzeichnung und ein Protokoll für Sprach-vereinbarung sind im aktuellen WWW-Standard (HTTP 1.1) enthalten. • Die Anzahl der mehrsprachigen (meist zweisprachigen ) WWW-Angebote wächst. • Werkzeuge für Aufbau und Verwaltung mehrsprachiger Seiten werden entwickelt.
Drei Arten von mehrsprachigenDokumentsammlungen 1. Parallele DokumenteBeispiele: Gesetze der Schweiz und EU, Kanadische Parlamentsakten, Bibel 2. Vergleichbare DokumenteBeispiele: Nachrichten über ein Ereignis, Pharmazeutische Information 3. Unverbundene DokumenteBeispiele: große Teile des heutigen WWW In der Realität treten diese drei Arten gemeinsam auf. Exakt parallele Dokumente bleiben die Ausnahme, da Dokumente bei der Über-setzung meist kulturellen und gesetzlichen Gegebenheiten angepaßt werden. Durch die Verbreitung von Protkollen zur Sprachvereinbarung werden größere Sammlungen von vergleichbaren Dokumenten zugänglich werden.
Textüber- setzung Vektor- übersetzung Kontrolliertes Vokabular Freitext Ansätze im sprachübergreifenden Information Retrieval D.W. Oard (1997) Dokumentübersetzung Anfrageübersetzung korpusbasiert wissensbasiert Wörterbuch- basiert Ontologie- basiert Alignment von Termen Alignment von Sätzen Alignment von Dokumenten Kein Alignment Thesaurusbasiert parallel vergleichbar
Übersetzung und sprachüber-greifendes Information Retrieval Übersetzung von Dokumenten nicht realistisch für allgemeine WWW-Suchmaschinen aufgrund der hohen Verarbeitungs- und Speicheranforderugnen. Nur bei Bedarf für indikative Übersetzung von Dokumenten und Zusammenfassungen. Übersetzung von Indextermen und Suchanfragen problematisch wegen Mehrdeutigkeit in kurzen Suchanfragen Relevanzrückkopplung mit parallelen Texten Wenn ein relevantes Dokument gefunden wird, können seine Übersetzungen benutzt werden, um ähnliche Dokumente in anderen Sprachen zu finden. Machine translation for relevance feedback Wenn keine Übersetzungen existieren, können sie durch maschinelle Über-setzung erzeugt und für die Relevanzrückkopplung verwendet werden.
Phrasales Indexieren ist notwendig, weil dasselbe Konzept in manchen Sprachen als Kompositum aus-gedrückt wird und in anderen Sprachen als Nominalphrase Waschmaschine washing machine machine à laver Eine Relation (Betriebssystem installieren) kann durch eine Vielzahl syntaktischer Konstruktionen ausgedrückt werden (Komposita, komplexe Nominalphrasen, finite oder infinite Verbalphrasen, Passiv-konstruktionen usw.): Wie installiere ich das Betriebssystem Installation des Betriebssystems Betriebssysteminstallation Anleitung für das Installieren des Betriebssystems Das Betriebssystem wird installiert, indem ... Phrasales Indexieren
MULINEX Technologien Information-Retrieval-Kernsystem Das Projekt benutzt die Fulcrum SearchServer-Technologie • Indexierungs- und Retrieval-Server für verschiedene Betriebssysteme • SQL-basierte Anfragesprache • unterstützt Open Database Connectivity (ODBC). • Suchstrategien: Fuzzy Boolean und Relevanzrückkopplung • Konverter für eine Vielzahl von Dokumentformaten Für die verschiedenen Sprachen werden getrennte Index-Datenbanken verwendet.
Technologien: Sprachidentifikation Verfahren zur Sprachidentifikation 1. auf Grundlage von Funktionswörern (Artikel, Präpositions usw.) 2. auf Grundlage der Häufigkeit von Zeichen-Trigrammen Die zweite Methode liefert die besseren Resultate (Grefenstette 1995) Ist Sprachidentifikation notwendig? Durch Sprachidentifikation wird der Einsatz der passenden Sprachtechnologie (morphologische Analyse, phrasales Parsing, lexikalische Semantik) für die jeweilige Sprache ermöglicht. Im heutigen WWW ist Sprachidentifikation notwendig, weil die Sprache der meisten Dokumente nicht angegeben ist. In der Zukunft wird die Sprache eines Dokuments durch den Server oder im Dokument selbst angegeben.
Benutzerschnittstelle:Sprach-Optionen Die Benutzerschnittstelle erlaubt die Angabe von drei Sprach-Optionen: 1. Anfragesprache Automatische Sprachidentifikation für Anfragen ist problematisch, weil Anfragen oft sehr kurz sind und Eigennamen enthalten können. 2. Sprache der zu suchenden Dokumentebevorzugte Sprache(n), akzeptable Sprache(n) 3. Sprache der BenutzerschnittstelleSprache in der Anweisungen und Hilfetexte angeboten werden
Sprach-Voreinstellungen • Standardmäßig ist die Frage der Anfrage die Sprache der Benutzerschnittstelle. • Dokumente werden standardmäßig in den Sprachen gesucht, die der Benutzer in seinem Web-Browser angegeben hat.
Interaktive Suche und Navigation Heutige Systeme sind noch nicht in der Lage, Mehrdeutigkeiten in Such-Anfragen zuverlässig aufzulösen. Daher ist Interaktion mit dem Benutzer zur Auflösung der Mehrdeutigkeiten und zur Verfeinerung der Anfrage notwendig. Einschränkung der Suche Der Benutzer kann die Suche nach folgenden Kriterien einschränken: • Sprache der Dokumente • Themengebiet • Top-level domain (de, fr, at, com, edu ...) • Protokoll (http, ftp, gopher ...)
Darstellung von Suchergebnissen Um die Suchergebnisse möglichst informativ und benutzerfreundlich darzustellen, wurde ein psychologisches Experiment mit 84 Versuchspersonen durchgeführt. Für jedes Suchergebnis wird die folgende Information angeboten: • Sprache(n) des Dokuments • Zusammenfassung • Thematische Klassifikation • Titel, Größe, URL, Anzahl von Links und Bildern
Evaluation und Anwendung Wissenschaftlich-technische Evaluation gemäß eingeführten und neu entwickelten Standards (z.B. TREC) Evaluation der Benutzbarkeit durch: • Installation in den WWW-Services der Benutzer • Befragungen von Endbenutzern durch Fragebogen und Interviews • Analyse von Logfiles zum besseren Verständnis des Benutzerverhaltens • Psychologische Experimente zur Benutzerschnittstelle (Oktober 1997)
Projekt TWENTYONE • Ziel ist die Entwicklung eines Transaktions- und Verbreitungswerkzeugs für Multimedia-Information. • Verbreitung und Retrieval von multilingualen Dokumenten über nachhaltige Entwicklung (Local Agenda 21) • Bearbeitung von Bildern, Video, elektronischen Texten und von gescannten Papierdokumenten (einschließlich OCR) • Dokumentübersetzung wird für sprachübergreifendes IR verwendet • Partner: Getronics (nl), Univ Twente (nl), Univ Tübingen (de), XEROX (fr), DFKI (de), TNO (nl), MOOI (nl), VODO (be), Friends of the Earth (be), Environ Trust (uk), Klimabündnis (de) • Förderung durch EU (TAP Information Engineering), Laufzeit 1996 -1998
Projekt POP-EYE • Multilinguales Erschließungssystem für Videomaterial mit Indexierung auf Basis von Untertiteln und partieller Übersetzung • Anwendung durch Produzenten bei Rundfunkanstalten zum Auffinden von Video- und Filmausschnitten für neue TV-Produktionen wie Dokumentationen und Trainingsmaterialien. • Erkennung von Untertitel, natürlichsprachliches Indexieren und partielle Übersetzung werden verwendet um vollständige Skripts aus Untertieln zu extrahieren und multilinguale Indizes aufzubauen. • Partner: TROS (nl), BBC (uk), BRTN (be), SWF (de), TNO (nl), DFKI (de), Univ Twente (nl), Univ Tubingen (de), van Doesburg Automatisiering (nl) • Förderung durch EU (TAP Language Engineering), Laufzeit1997 - 1999
Projekt PARADIME • PARADIME entwickelt eine parametrisierbare Kernmaschine für Anwendungen im Bereich der Informationsextraktion • Grundlage ist das Saarbrücken Message Extraction System (SMES) • Das linguistische Kernsystem und die fortgeschrittenen Verfahren der flachen Analyse werden in Abdeckung und Effizienz weiter entwickelt. • (Semi-)automatische Verfahren der Wissensakquisition werden zum Lernen von Lexikon und Grammatik aus Textbeispielen verwendet • (Semi-)automatische Adaption an Spezialaufgaben auf Grundlage von Korpusanalyse • Systematische Evaluation von Informationsextraktions-Systemen • Anwendungen: Textklassifikation, Indexierung, partielles Textverstehen • Förderung durch das BMBF, Laufzeit1997 - 1999
Schwerpunkte des Projekts • Agentenbasierte Suche zur personalisierten Informationsfilterung • Kombination mit Technologie zur Informationsextraktion • informative Präsentation von Suchergebnissen • Kombination von Suche, Übersetzung und Zusammenfassung Im Vergleich mit anderen Projekten im Bereich des sprachübergreifenden Information Retrieval setzt MULINEX die folgenden Schwerpunkte: