220 likes | 349 Views
LOIS: Juristische Ontologien und Thesauri IRIS 2005. Erich Schweighofer, Doris Liebwald Universität Wien, Abteilung Völkerrecht Arbeitsgruppe Rechtsinformatik. Überblick. eContent Project LOIS Ziel, Methoden, Status Thesaurus und multilinguales IR Vom Thesaurus zur Ontologie
E N D
LOIS: Juristische Ontologien und Thesauri IRIS 2005 Erich Schweighofer, Doris Liebwald Universität Wien, Abteilung Völkerrecht Arbeitsgruppe Rechtsinformatik
Überblick • eContent Project LOIS • Ziel, Methoden, Status • Thesaurus und multilinguales IR • Vom Thesaurus zur Ontologie • Projekt: Vernetzung Thesaurus – wissensbasiertes System als Zwischenschritt zur Ontologie • Konklusionen ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
eContent Project LOIS I(Lexical Ontologies for legal Information Sharing) • Ausgangspunkt: WordNet/Miller, EWN (BalkaNet, GlobalWN, ...) • Ziel: Juristische WordNets in 6 Sprachen basierend auf EWN Technologie • Multi-lingualer Zugang zu europäischen juristischen Datenbanken - sowohl für Experten als auch für den Laien • Soll: 5000 Synsets (2 Jahre) • Italienisch, Niederländisch, Portugiesisch, Deutsch, Tschechisch, Englisch • Technik: • Ähnliche Begriffe in verschiedenen Sprachen sind in Synsets organisiert; jedes Synset wird durch eine ILI-Glosse beschrieben • Umfangreiche Auswahl an lexikalen Relationen für ein cross-linking der Synsets zur Abbildung semantischer Bedeutungen • Nationale Begriffsmodelle können als sog. „Literals“ (kurze Beschreibungen, Definitionen) eingebracht werden (Meta Information) ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
eContent Project LOIS II • Module • Lexikalische Datenbestand • Basis: Italian Legal WN (JWN) • Überschneidung Italian JWN und Eurodicautom • Mapping der Englischen Literals auf WordNet 2.0 • Manuelle Überarbeitung/Integration • Normen-Datenbestand • EU-Rechtsquellen (Volltext / extrahierte Legaldefinitionen) • Nationale Umsetzungen (nationales Recht) • Legal Document Index (eindeutige IDs) • Legal Topics Index (Fundstellennachweis des geltenden Gemeinschaftsrechts) ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
eContent Project LOIS III • Relationen • Innerhalb einer Sprache: primär Synonymie/Antonymie und Hyperonymie/Hyponymie • Äquivalenzrelationen zwischen den verschieden sprachlichen Synsets werden über den ILI abgebildet; spezielle Relationen für den Bereich Legaldefinitionen • Testcorpus Consumer Protection Law • Ausschöpfung der in EWN zur Verfügung stehenden Relationen • Demonstrator: DocDigger 3.0/CLIR (CELI s.r.l.) ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
Thesaurus und multilinguales IR (1) • Thesaurus: geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlich-sprachlichen) Bezeichnungen zum Indexieren, Speichern und Wiederauffinden • Dokumentationssprache: präzise und komprimierte Zusammenfassung des Dokumentinhalts und dessen präziser Darstellung • Multilinguale Thesauri – zB EUROVOC • LOIS: Bezeichnung (Header), Definition (Glosse), Beziehungen • Gleichsetzung der Begriffe in 6 europäischen Sprachen • Thesaurus mit Potential für multilinguales IR • Einfach: Suche mit allen Bezeichnungen in verschiedensprachigen Textfassungen • Schwierig: Einbeziehung des Kontextes; hier der Glossen • Problem: Übereinstimmungsrate ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
Thesaurus und multilinguales IR (2) • LOIS • Tests sind für Mitte 2005 geplant, vorerst nur mit Bezeichnungen (Headers) • Analyse der Testresultate • Verbesserung des Thesaurus erforderlich? • Einbeziehung der Glossen/Kontexte für exaktes Resultat erforderlich? • Einbeziehung der Glossen • Vektorvergleiche der Kontexte der Begriffsausprägungen • Lexikon aller (der wichtigsten) Wörter der Sprache mit Übereinstimmungstabellen in allen Sprachen • Elektronische Wörterbücher • Einbeziehung statistischer Gewichtung • Welche Wörter haben die größte Bedeutung? • Kontextgröße offen • Welche Gewichtung: Basis TF/IDF, intellektuelle Verbesserung ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
Thesaurus und multilinguales IR (3) • Verbesserte bzw erweiterte Glossen durch korpusbasierte Kontextforschung • Begriffsausprägungen, automatische Beschreibung und Klassifikation • KONTERM: semi-automatisch, Begriffe sind zu bestimmen; hohe Qualität der Kontextbeschreibungen • GHSOM: vollautomatisch, Begriffe zur Beschreibung der Dokumente + Beschreibungen der Begriffe werden selbständig gewählt; ausreichende Qualität bei juristischen Texten? ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
Vom Thesaurus zur Ontologie (1) • Begriff der Ontologie • Explizite Formalisierung des Rechts • Formales Modell des Rechts • Computergerechte Verarbeitung • Vernetzung mit existierenden Weltbeschreibungen (Ontologien der Informatik) • Wiederverwendung • Umsetzung in IT-Anwendungen • Gemeinsame Nutzung von Wissen, Überprüfung einer Wissensbasis, Notwendigkeiten des Software Engineering, Wissensakquisition, Repräsentation und Wiederverwendung des Wissens ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
Vom Thesaurus zur Ontologie (2) • Weiterentwicklung von Thesauri zu Ontologien • Konzeption einer Ontologie • Einordnung der Begriffe in dieses ontologische System • Wissensrepräsentation für Informatikanwendungen • Gruber: „formal, explicit specification of a shared conceptualization“Uschold: „shared understanding of some domain of interests“ • Formale Festlegung von Begriffshierarchien, Relationen und Attributen • Vom Deskriptor zu vielschichtigen Attributen • Ausbau von Begriffshierarchien und Relationen ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
Konzeption einer umfassenden Ontologie (1) • Reale Welt • Beschreibung durch existierende Ontologien (zB WordNet) • Personen - Subjekte (Agenten) • Sachen - Objekte • Prozesse - Handlungen und Unterlassungen • Rechtssystem als (gewollte, akzeptierte und erzwungene) Normenordnung: sozioökonomische Gestaltung durch Recht mit Risikominimierungsziel • Beschreibung durch Rechtsontologie mit Option der Rechtsautomation • Basis: LRI core (Uni Amsterdam) • Ausgangspunkt: Rechtsinformationssystem ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
Konzeption einer umfassenden Ontologie (2) • Vom Rechtsinformationssystem (Textarchiv) zur Rechtsontologie • Publizierte, kommunizierte und dokumentierte Rechtsordnung • Texte + Zeichen + Bilder • Früher: Gesetzesblätter, heute: Rechtsdokumentations- und Rechtssuchmaschine • Analyse und Beschreibung: • Kommentar und System (konventionelle Methode) – nicht IT-verwendbar • Elektronischer Kommentar - wissensbasiertes System (AI Forschungen): IT-nutzbar ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
Konzeption einer umfassenden Ontologie (3) • Normen • Materielle Regeln • Formelle Regeln • Rechtserzeugung und –fortbildung • Wie komme ich zu einer möglichst umfassenden Normenabbildung mit der Option weiterer Attribute? • Normattribute • Klassifikation der Normen • Oberbegriffe des Thesaurus • Relationen der Normen • Sachverhalt: Sachbegriffe • Recht: Rechtsbegriffe, Relationen des Thesaurus • Normen untereinander: Verweise ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
Projekt: Vernetzung Thesaurus – wissensbasiertes System (1) • Umformung eines Rechtsinformationssystems (eines Teiles davon) zu einem hybriden wissensbasierten System • Quasi-logische Regeln (zB AustLII) • Verweise der Normen (zB AustLII) • Klassifikation der Normen (zB GHSOM, LabelSOM) • Verbesserung des Thesaurus • Korpusbasierte Begriffsanalysen (zB KONTERM) • Automatische Textbeschreibung (zB GHSOM) • Verlinkung des Thesaurus mit diesem hybriden wissensbasierten System ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
Projekt: Vernetzung Thesaurus – wissensbasiertes System (2) • Ziel: strukturierte Darstellung anwendbarer Normen zu bestimmten Rechts- oder Sachdeskriptoren • Strukturierte Verlinkung • Form eines „Rohkommentars“ • Aufwand • Programmtools weitgehend vorhanden, Integration erforderlich • Mengenrestriktionen erforderlich wahrscheinlich Beschränkung auf kleineres Rechtsgebiet • Zeitplan • Start Sommer 2005; Abschluss Anfang 2006 ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
Konklusionen • LOIS Projekt: wichtiger Schritt zum multilingualen Retrieval • Thesaurus hat Kernfunktion • Thesaurus kann als 1. Schritt zur Ontologie gesehen werden • Ontologie als neue Form eines wissenschaftlichen juristischen Kommentars • Projekt: Vernetzung des Thesaurus mit dem hybriden wissensbasierten System ARI Arbeitsgruppe Rechtsinformatik, Universität Wien
Kontakt Erich Schweighofer, Doris Liebwald Universität Wien Arbeitsgruppe Rechtsinformatik Wiener Zentrum für Rechtsinformatik erich.schweighofer@univie.ac.at doris.liebwald@univie.ac.at http://www.univie.ac.at/RI ARI Arbeitsgruppe Rechtsinformatik, Universität Wien