240 likes | 416 Views
Archivierung von Multimedia-Daten. W. D. Ihlenfeldt Computer-Chemie-Centrum Universität Erlangen-Nürnberg D-91052 Erlangen. Digitale Dissertationen und Archive .
E N D
Archivierung von Multimedia-Daten W. D. Ihlenfeldt Computer-Chemie-Centrum Universität Erlangen-Nürnberg D-91052 Erlangen
Digitale Dissertationen und Archive • Gewinn durch Originalaufzeichnungen (Audio, Video) Originaldaten Visualisierungen Dynamic Content Erschließung über Multimedia-Content • Relevanzspanne u.U. Jahrzehnte und mehr
Zukünftiger Zugriff auf Multimedia-Daten • Zukunftssicherheit erfordert • Verwendung von zukunftsfesten Formaten • und/oder • Nachkonvertierung der Daten
Standard Multimedia-Typen • Bilder • Audio • Video • Interaktive Texte • Dynamic Content • Anbindung von Software
Wissenschaftliche Multimedia-Typen • Vektorzeichnungen • Animationen • 3D Szenen • 2D Tabellen und Zeitreihen • Multidimensionale Messdaten • Chemie-spezifische Sonderformen (Strukturen, Reaktionen, Spektren)
Anforderungen • Nutzbar nach Jahrzehnten • Voll dokumentiert • Verbreitet • Plattformunabhängig • Theoretisch und praktisch konvertierbar • Unlimitierter Vollzugriff • Nutzbar ohne Lizenz- und Patentfragen
Erstrebtes Eigenschaftsprofil • Verbreitete Formate • Standardisierung (International mit breiter Unterstützung) • Multiple Source – Unterstützung durch mehrere Hersteller • Format und Varianten automatisch erkennbar • ASCII/Unicode mit Mark-Up bevorzugt • Integration in Datensysteme (XML)
Konvertierbarkeit • Voll dokumentiertes Format • Eindeutig erkennbares Format • Verlustlose Datenkompression • Möglichst keine Verschlüsselung, Watermarks • Gutes Zeichen: Open-Source-Format • JPEG, MPEG, Quicktime, MP3: etc.: Kompression verlustbehaftet!
Überformate • Kein einfaches Format, sondern Hülle • Multiple CODECs • Nicht nutzbar ohne spezifischen CODEC • Beispiele: AVI, Quicktime
Regeln zur Aufnahme von Multimedia-Content • Einfachste Formate, die noch den Zweck erfüllen und alle notwendigen Informationen enthalten • Keine undokumentierten, programmspezifischen Dateien • Keine ausführbare Software • Lieber mehr Speicherplatz als Lossy Compression
Die IRIS Showcase Story • Powerpoint-ähnliches Format auf SGI • Bis vor einigen Jahren in der Chemie recht beliebt • Support von SGI eingestellt • Läuft nicht mehr auf neueren IRIX-Versionen • Proprietäres, undokumentiertes, binäres Format • Kein Support durch Konkurrenzprodukte • Keine Freigabe des Formats wg. Rechtsstreitigkeiten
Multimedia: Bilder • GIF: Patentfragen, Farbtiefe, Maximalgröße • JPEG: Verlustbehaftete Kompression • XBM, BMP, XPM: Schlechter Support, groß • TIFF: Überformat, Gefahr unüblicher CODECS • EPS: Riesige Dateien • PNG: Derzeit wohl bester Kompromiss
Multimedia: Audio • Samplingraten variabel, evtl. SW-Probleme • Verlustbehaftete Kompression • Multikanal-Problematik • AIFF, WAV, AU: Nur leicht reversibel komprimiertes Signal • MP3, OV, RAM: Hoch und verlustbehaftet komprimiert • MIDI: Im Prinzip Noten
Multimedia: Video • Datenvolumen erfordert verlustbehaftete Kompression • Evtl. Animation statt Video zu empfehlen • Zahlreiche proprietäre CODECs • MPEG: Standardformat • QT, AVI: Überformate • Motion-JPEG für Spezialanwendungen
Multimedia: Vektorzeichnungen • CGM: Standard, aber mit Variationen • DXF: Komplex, mit zahlreichen Erweiterungen • WMF: Proprietär, undokumentiert • EPS: Groß, schwierig zurückzulesen • In Zukunft: SVG, XML-basiert
Multimedia: 2D Animationen • Animated GIF: Groß, begrenzt, Patentfrage • VRML, X3D, Video: Overkill • Macromedia Flash/Shockwave: Jetzt offengelegt, wohl aktueller Standard • In Zukunft: SVG
Multimedia: 3D Szenen • Standard: VRML 1.0 und VRML 97 • Animationen in 3D möglich • Guter Export-Support, Import über Java3D • VRML Weiterentwicklung eingestellt • Nachfolger X3D noch nicht einsatzreif
Multimedia: Tabellen • Proprietäre Spreadsheet-Formate indiskutabel • TSV, CSV: Verlust von Meta-Information • SYLK, DIF: Standardformate • Mangelnde Codierung von Formeln • MathML evtl. Lösung in der Zukunft
Multimedia: Multidimensionale Daten • Tabellenformate ungeeignet für Volumendaten, hierarchische Daten etc. • Proprietäre Formate generell nicht akzeptabel • HDF, netCDF sind Standards
Multimedia: Chemiedaten • Strukturen, Spektren, Reaktionen, Sequenzen • Dutzende von proprietären Formaten • Missbrauch von Standardformaten (PDB) • Komplexe Überformate (CXF, CIF) • Empfehlung: SDF, JCAMP, RXN • In der Entwicklung: CML, XML-basiert
Multimedia:Präsentationen • Verknüpfung von Text, Audio, Video zu interaktiven Präsentationen • Zahlreiche proprietäre, undokumentierte Formate • SMIL als Standard, aber noch mit Akzeptanzproblemen
Multimedia: Anwendungsprogramme • Hinterlegung von Quellcode unproblematisch • Wartung von compilierter Software i.A. kaum zu realisieren • Denkbare Möglichkeit: Java-Bytecode • Noch keine Langzeiterfahrungen
Multimedia: Indexierung • Erschließung des Textkorpus über nicht-textuelle Suchverfahren auf Multimedia-Content • Daneben klassische Metadaten von MM-Objekten • Etabliert in der Chemie für Strukturen, Spektren, Reaktionen, Sequenzen • Sonstige Anwendungen Forschungsfelder (Bildinhalt, Musikphrasen, Szenenanalyse, Formelanalyse)
Weitere Informationen • W. D. Ihlenfeldt • wdi@ccc.chemie.uni-erlangen.de • http://www2.ccc.uni-erlangen.de/wdi/