330 likes | 489 Views
PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller verfasst von: Jana Köllmann. Inhalt. 1.Das Adobe Grafikmodell 2. Das Dateiformat PDF 3. Wege zur PDF 4. Grenzen von PDF 5. Tagged PDF
E N D
PDF und PDF/AUniversität zu KölnHistorisch Kulturwissenschaftliche InformationsverarbeitungWS 2011/2012Digitale LangzeitarchivierungDozent: M.Thallerverfasst von: Jana Köllmann
Inhalt 1.Das Adobe Grafikmodell 2. Das Dateiformat PDF 3. Wege zur PDF 4. Grenzen von PDF 5. Tagged PDF 6. Warum PDF/A? 7. Wege zur Archiv-PDF 8. Welche Datenformate sind archivtauglich? 9. Was tun mit „alten“ Archivformaten? 10. Quellen
Das Adobe Grafikmodell • Bildet Grundlage der Kerntechnologie von PDF • Zusätzlich Grundlage für Modelle anderer Softwareentwickler • Modell ist gerätunabhängig → ohne Bezug auf Eigenschaften des Geräts → Graphiken werden in abstrakter Beschreibung gespeichert und von Acrobat wieder hergestellt • Basiert auf Berechnung von Vektorgraphiken
Eigenschaften der Basiselemente • Vektorgraphiken: alle Elemente, die aus Linien und Kurven gebildet werden können • Text: Untermenge der Vektorgraphik • Rastergraphiken: Rechteckiges Fläche mit Pixeln
Warum Text nicht als Vektorgraphik speichern? • Verarbeitungsgeschwindigkeit zu gering, da jeder Buchstabe immer wieder berechnet werden müsste • Hoher Anspruch an Ausgabegenauigkeit, da Menschliches Auge sehr sensibel
Zusatzfunktionen • Farbseparation • Farbverläufe • Maskierung von Bildern • Transparenz und Alphakanal
Zusatzfunktionen • Farbverläufe
Technische Eigenschaften • Kompression: Einzelne Objekte der Datei werden selektiv komprimiert, da nicht jede Kompression für jeden Datentyp sinnvoll • Wiederverwendbare Grafikmodelle: Durch einmalige Speicherung und Wiederverwendung von Grafiken kann die Dateigröße optimiert werden
Schriften in Acrobat • Schriften könnenin PDF eingebettet werden → stehen auch Benutzern zu Verfügung wenn sie nicht auf dem Rechner installiert sind • Fontdeskriptor: beschreibt die wichtigsten Strukturen einer Schrift (z.B. Serifen, Ober-/Unterlänge) • Mit diesen Angaben kann Acrobat eine Ersatzschrift generieren
Wege zur PDF • Acrobat Distiller: Umwandlung von PostScript zu PDF • Acrobat PDFWriter: - Druckertreiber für Windows und Mac - Einschränkungen zu Distiller (kann z.B. kein PostScript verarbeiten) - meist schlechte Qualität, da mit Bitmap-Fassung der Graphik gearbeitet wird
Wege zur PDF • Acrobat Web Capture: - Konvertierung von Webseiten zu PDF - Wandelt HTML zu PDF um mit internen Mitteln der Software • Konvertieren von Bilddateien: in Acrobat über das „Datei“-Menü möglich, hat jedoch viele Nachteile
Wege zur PDF • Konvertierung gescannter Seiten mit Acrobat Paper Capture: - ist für Umwandlung gedruckter Dokumente zuständig - Software versucht Gescanntes als Text zu erkennen und umzuwandeln
Direkte Erzeugung mit Anwenderprogrammen • Immer mehr Software unterstützt die Exportmodeule für PDF • Oft ist nicht der komplette Funktionsumfang von PDF unterstützt • In vielen Programmen läuft die Konvertierung versteckt über Distiller
Grenzen von PDF • Text aus PDF selten weiterverwendbar • Weiterverwendung durch fehlende Strukturinformationen zusätzlich erschwert • Inhalt eines PDF-Dokuments schwer für Sehbehinderte zugänglich, da Screenreader sie nicht verarbeiten können
Unicode • Internationales Codesystem • Langfristig wird für jedes bestehende Schriftzeichen ein digitaler Code festgelegt • Ziel ist die unterschiedliche und inkompatible Kodierungen aus verschiedenen Ländern zu beseitigen • Mittlerweile sind 109.242 Zeichen aus 93 Schriftsystemen genormt
Tagged PDF • Kündigt an Probleme der PDF zu lösen • Screenraeder sollen Text Problemlos auslesen können • zuverlässige Konvertierung von PDF in andere Dateiformate • Dynamische Umformatierung am Bildschirm
Tagged PDF liegt vor, wenn:... • Dokument enthält PDF-Strukturbaum • Bedeutungen aller Zeichen sind bekannt und Unicode-Zuordnung • Dokumentinhalte sind nach Wichtigkeit geordnet • Lesereihenfolge ist dokumentiert
Warum PDF/A? • Erforderliche Schriften MÜSSEN eingebettet werden • Einige PDF Elemente beeinträchtigen die Beständigkeit (z.B. Ebenen, interaktive Elemente) • PDF-Dokument das bestimmte Anforderungen der DLZA erfüllt
Informationen zu PDF/A • Erster Standard besteht seit 2005, zugrunde liegt PFD-Version 1.4 • Zweiter Standard aufgrund von Version 1.7 besteht seit Frühjahr 2011 Spezifiziert zwei Übereinstimmungsgrade für Version 1: PDF/A_1a, PDF/A_1b Spezifiziert drei Übereinstimmungsgrade für Version 2: PDF/A_2a, PDF/A_2b, PDF/A_2u
PDF/A_1b • Betrifft die visuelle Integrität • Jede PDF/A_1a-Datei entspricht auch dem nicht so strengen Standard der PDF/A_1b-Datei • Referenzen auf Resorsen ausserhalb des Dokuments sind nicht erlaubt • Transparenz darf nicht verwendet werden • Eindeutige Farbdarstellung • Verschlüsselung ist untersagt
PDF/A_1a • Bezieht sich auf semantische Korrektheit und Struktur • Struktur basiert auf Tagged PDF • Schriftzeichen müssen Unicode-Entsprecchung haben • Lesbar durch den Screenreader
Wege zur Archiv-PDF • PDF/A aus Dateien oder Daten: - Über Export durch Ursprungsprogramme, Distiller oder PDF Konverter - auch Programme zur „Massenabvertigung“ erhältlich • Gescannte Papiervorlage zu PDF/A - Text wird durch OCR durchsuchbar gemacht - Durch das Scannen mit Acrobat Professional umwandelbar (ab Version 8)
Wege zur PDF/A • PDF/A aus PDF: - Acrobat 8 Professional erledigt dies - kann ausserdem prüfen ob zugesannte Datei wirklich PDF/A und nicht PDF ist - weitere zahlreiche andere Software ist in der Lage zu konvertieren
Wer kann von PDF/A profitieren? • Emails als PDF/A um den Umstieg zwischen Mailkonten zu erleichtern • Online PDFs alternativ als PDF/A speichern • Pläne, kartographische Werke, Konstruktionszeichnungen, da sie oft über Jahrzehnte aufbewahrt werden müssen • Signierte digitale Verträge • Sichere Farbe in Bilddokumenten • Druckvorlagen • Barrierefreie PDF-Dateien
Was tun mit „alten“ Archivformaten? • Beliebt zur Archivierung waren bei Bildern bisher vor allem JPEG oder TIFF-G4 • Man kann permanent oder temporär umwandeln: permanent: besonders bei überschaubaren Datenmengen von Vorteil temporär: bei vielen Daten sinnvoll, Daten können bei Aufruf „on the fly“ umgewandelt werden
Quellen • Merz, Thomas; Drümmer, Olaf: Die PostScript- & PDF-Bibel, dpunkt Verlag, 2. Auflage, 2002. • http://de.wikipedia.org/wiki/Unicode • http://www.callassoftware.com/callas/doku.php/de:pdfakompakt:start • http://unicode.org/ • http://de.wikipedia.org/wiki/PDF/A • http://www.einfach-fuer-alle.de/artikel/pdf-barrierefrei-umsetzen/