260 likes | 360 Views
Einführung in XML und Techniken. Entwicklung von XML. XML eXtensible Markup Language Subset von SGML Standard Generalized Markup Language Jedes XML Dokument ist ein SGML Dokument aber nicht umgekehrt. Entwicklung von XML. HTML Formale Strukturierung von Texten
E N D
Einführung in XML und Techniken U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Entwicklung von XML • XML • eXtensible Markup Language • Subset von SGMLStandard Generalized Markup Language • Jedes XML Dokument ist ein SGML Dokumentaber nicht umgekehrt U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Entwicklung von XML • HTML • Formale Strukturierung von Texten • Darstellung der Dokumente im Vordergrund • Statische Tag Definitionen - keine Modifikationendurch den Benutzer • DTD nicht individuell sondern nur für Versionen • begrenzte inhaltliche Erschließung von Dokumenten U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Entwicklung von XML • XML • Zwischen SGML und HTML • einfacher als SGML • umfassender als HTML • insbesondere für Anwendungen im Internet • Anwendungen • für die Speicherung und Strukturierung vonDokumenten • als Austauschformat bei Kommunikationsstandards U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Entwicklung von XML • Entwicklungsziele von XML • Programme zur Verarbeitung von XML Dokumenten sollen leicht zu entwickeln sein • Ziel - eine Woche Trainingszeit für Studenten • Optionale Variationen sollten so gering wie möglich gehalten werden - ideal keine • XML Dokumente sollen in gleicher Weise für Mensch und Maschine lesbar sein • Konzepte für XML Dokumente sollen einfachen Regeln folgen und kurz und bündig sein U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Grundlagen von XML • XML Dokumente bestehen aus • Markup • start-tags, end-tags, empty-element tags • entity references, character references • comments, • CDATA section delimiters (nicht die Inhalte) • document type declarations • processing instructions • Character Data • alles andere • auch Attributwerte, sofern Typ als solcher deklariert U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Grundlagen von XML • Markup von Elementen • eingeschlossen in < > • Anfangs - Markup <Diagnose> • Ende - Markup </Diagnose> • Anfangs- und Ende - Markup sind stets erforderlich- wesentlicher Unterschied zu SGML - • Markup von leeren Elementen • ohne Ende Markup <Diagnose/> U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Grundlagen von XML • MARKUP in XML • MARKUP mit & verweisen auf ersetzbare Informationsobjekte (Entities)< &chap1; • mit & gekennzeichnete Verweise sind entweder in XML definiert (<) oder müssen im DTD definiert werden (&chap1) • Document Type Deklarationen werden in < > Markup eingeschlossen <!DOCTYPE Document SYSTEM [ ]> U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Grundlagen von XML • MARKUP in XML • MARKUP beginnt stets mit < oder &und endet mit > • Diese Zeichen dürfen daher im Text nicht erscheinen < - < & - & • Diese Zeichen sollten ebenfalls nicht verwendet werden > - > ‘ - &apos “ - " U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Grundlagen von XML • XML Dokumente Ein Informationsobjekt ist ein XML Dokument wenn es entweder genügt • den in einer Dokument Type Definition beschriebenen Anforderungen - Valid document - • den allgemeinen Anforderungen an XML Dokumente - wellformed document - U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Grundlagen von XML • Document Type Definitions (DTD) • definieren die Struktur des Dokuments • enthalten Hinweise für die Verarbeitung • XML Parser • prüfen die Verträglichkeit des Dokuments mit der DTD - Valid Document • ersetzen (sofern verarbeitbar) die sogenannten Entitäten U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Grundlagen von XML • Zeichensatz in XML Dokumente • Unicode (ISO 10646) als Standardzeichensatz • Default Zeichensatz ist ISO 10646 UTF-8 • andere Zeichensätze müssen deklariert werden( encoding =“UTF-16“ ) • schließt ASCII Zeichensatz unverändert ein • umfaßt alle internationalen Zeichensätze • UTF 16-2 kann auch symbolorientierte Sprachen darstellen U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Grundlagen von XML • Kommentare in XML • <!--Dies ist ein Kommentar--> • Beginnen mit <!-- • Enden mit --> • -- innerhalb von Kommentaren nicht erlaubt U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Grundlagen von XML • Verarbeitungs- (Processing) Instruktionen • <?AUDIO ‘Herztöne‘? > • Beginnen mit <?Name • Enden mit ?> • werden an die Applikation übergeben • „Name“ darf nicht mit „xml“ beginnen<?xml für System reserviert • jedes XML Dokument beginnt mit der Verarbeitungsanweisung<?xml version=“1.0“ ?> U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Grundlagen von XML • CDATA Bereiche • <![CDATA [ <tag1><tag2> ] ] > • Beginnen mit <! [CDATA [ • Enden mit ] ] > • keine Verarbeitung durch XML Prozessoren • benutzt für Beispiele, Quellcode etc. • keine hierarchische Strukturierung (nesting) möglich U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
XML und zugehörige Techniken • Problem Präsentation • Darstellung von Inhalten • Problem Analyse / Abruf von Information • Wie beschreibe ich Zugriffswege? • Problem Manipulation • standardisiertes API • Problem Vielfalt • semantische Vergleichbarkeit vs. Vielfalt von Tags und Attributen • Problem Struktur • Einschränkungen der DTD Ausdrucksmöglichkeiten U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
XML und zugehörige Techniken XSLT Transformation XPath XSL-FO Präsentation XLink Namespace XML Inhalt XPointer Struktur DOM XML SCHEMA XQL Abfrage RDF U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
XML und zugehörige Techniken • XML Techniken (Auswahl) • Standardisierte Methoden für die Manipulation von XML Dokumenten (Document Object Model, DOM), • Verknüpfen von XML Dokumenten (XLink), • Abfragen von Informationen in XML Dokumenten (XPointer, XPath, XQL, XML-QL), • Umformen von XML Dokumenten (XML style language and transformation XSLT) • Darstellung von Information mit sog. Style Sheets (XSL-FO, CSS). • Standardisiert (Recommendation): • u.a. XML, DOM Level 1, XPath, XSLT • http://www.w3.org U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Namespaces • Ziele • Sollen ermöglichen, daß Dokumente aus verschiedenen Quellen gemeinsam verarbeitet werden können • Zur Vermeidung von Überschneidungen der Element, Attribut etc. Bezeichnungen werden vor die lokalen Namen Präfixe gesetzt, die die lokale Anwendung identifizieren - Qualified Names • Namespace Deklaration wird als Attribut in einer der Eröffnungsdeklarationen definiert und gilt für das gesamte Dokument U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
XML Schema • DTD‘s haben sich bei XML Anwendungen als zu inflexibel erwiesen. • Datentypen konnten nicht definiert werden • Abfolge von Elemente war relativ fixiert und nur über Kardinalitätsoperatoren zu beeinflussen • DTD‘s konnten nicht in XML beschrieben werden - eigene Sprache U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
XML Schema • XML Schema • Teil 1 - Struktur von Dokumenten • erweiterter und flexiblerer „DTD“ Ansatz • Schema Import und Einfügung vorgesehen • Teil 2 - Datentypen • Primitive Datentypen • Built-in Derived Datatypes • User Derived Datatypes U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
XPath - XLink - XPointer • XPath • Zugriff auf Teile (Knoten) eines Dokumentes • Grundlage für / Verwendung in weiteren Techniken (XLink, XPointer, XSLT) • XLink • Zugriff auf andere Dokumente • Anker <a> nicht notwendig • unterstützt auch mehrdirektionale Links • XPointer • kann auch Bereiche markieren U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
XML Stylesheet Language (XSL) • XSLT - Transformation Language • Umformung von XML Dokumenten in andere Dokumente (XML, HTML, Text) • Nahezu alle Formen der Umformung zugelassen(Änderung der Reihenfolge, Weglassen und Hinzufügen von Daten und Texten etc.) • XSL - Formatting Language • Zuordnung eines Ausgabeformates zu einem XSLT Dokument U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Einführung in XML in Übungen • Elemente von XML-Dokumenten • Unterschied XML / HTML • Einsatzmöglichkeiten • Beschreibungsmöglichkeiten • Verarbeitungsmöglichkeiten U. Altmann, Institut für Medizinische Informatik, Gießen, 2000
Einführung in XSLT und XPath • Zentrale Rolle von XPath • Rolle von XSLT in der Zusammenführung unterschiedlich strukturierter Dokumente ähnlichen Inhalts • Festigung des Verständnisses von XML-Strukturelementen • Abgrenzung zu Document Object Model (DOM) U. Altmann, Institut für Medizinische Informatik, Gießen, 2000