730 likes | 866 Views
Digitalisering ontrafeld. Technische aspecten van digitale reproductie van archiefstukken. Mini-symposium. 25 april 2006. Context: ontwikkeling Archiefbank. Archiefbank: raadplegen en leveren van Archiefstukken via internet. Kwaliteit en kosten: leesbaar en goedkoop.
E N D
Digitalisering ontrafeld Technische aspecten van digitale reproductie van archiefstukken Mini-symposium 25 april 2006
Context: ontwikkeling Archiefbank Archiefbank: raadplegen en leveren van Archiefstukken via internet
Kwaliteit en kosten: leesbaar en goedkoop Primair doel: raadplegen van tekstuele informatie Gebruikskopieën Kwaliteitseis reproducties: leesbaarheid Ervaring leert dat klanten een lage prijs belangrijk vinden Kwaliteit en kosten worden bepaald door: A. Werkprocessen: organisatie reproductieproces en controle B. Technische aspecten: kwaliteit en bestandsgrootte Onderzoek: technische aspecten Beperking: tekstdocumenten
Doel en opzet: basiskennis en rekenvoorbeeld Uitleg over algemene begrippen en bestandsformaten Inzicht verschaffen in technische aspecten: kwaliteit en kosten Realistische opties getest: omvangrijk, representatief inventarisnummer
Presentatie 1. Resolutie 2. Kleur 3. Beeldbewerking 4. Compressie 5. Compressie en duurzaamheid 6. Overzicht bestandsformaten 7. Rekenvoorbeeld 8. Conclusies
1. Resolutie Digitalisering volgens rastertechniek (scanning) Hoe fijner het raster (oftewel: hoe hoger de resolutie), hoe meer informatie, hoe hoger de detaillering Resolutie in sterke mate bepalend voor de bestandsgrootte:
Resolutie 300 dpi 200 dpi 150 dpi Voorbeelden
1. Resolutie Bij 150 dpi: kleine bestanden en nog prima leesbaar Maar, is het verstandig om hier bij digitaliseren van uit te gaan? Gebruikskopieën, niet meer dan dat. Over enkele jaren wellicht met betere technologie opnieuw scannen. Maar niet voldoende wanneer we ze voor de langere termijn willen bewaren en op basis van deze images in een hogere kwaliteit willen leveren, OCR toe willen passen en/of willen converteren naar betere compressie- en bestandsformaten. Keuze o.a. afhankelijk van middelen, doelstellingen, aantallen
2. Kleur Kleur kan betekenis hebben Potloodaantekeningen in rood: kleur heeft betekenis Vergeelde drager: geen betekenis, wel gevoel van authenticiteit Reproductie van kleur kan dus ook gevoel van authenticiteit verhogen
Kleur 24 bits 256 kleuren 16 kleuren 8 kleuren (a) 8 kleuren (b) Voorbeelden
2. Kleur Ook met een beperkt aantal kleuren nog een goede reprodictie Minder informatie, dus kleinere bestandsgrootte Maar, niet toepasbaar binnen JPEG
3. Beeldbewerking Bepaalde beeldbewerkingen kunnen de leesbaarheid vergroten Heeft positieve of negatieve invloed op de bestandsgrootte Effect meestal onomkeerbaar
Beeldbewerking Verscherpen + 35% Uitstippen - 12% tot - 40% Oppervlakte vervagen tot - 45% Voorbeelden
3. Beeldbewerking Twee opties: A. Images bewerken en opslaan als gebruikskopieën B. Onbewerkte images opslaan voor de langere termijn. Vanaf onbewerkte images worden gebruikskopieën gegenereerd
4. Compressie Methode waarmee de informatie efficiënter beschreven kan worden Compressie Woorden coderen Effect: bestandsgrootte neemt af Opslaan: 48 letters
4. Compressie Resultaat Opslaan: 12 letters
4. Compressie Twee soorten compressie: A. Lossless (exact omkeerbaar) Er gaat geen informatie verloren B. Lossy (niet exact omkeerbaar) Bepaalde informatie wordt weggegooid
Lossy compressie JPEG kwaliteit 10 (300 dpi) JPEG kwaliteit 4 (300 dpi) JPEG kwaliteit 4 (200 dpi) JPEG 2000, part 6 Voorbeelden
5. Compressie en duurzaamheid Veelgehoorde stelling: Gecomprimeerde bestanden hebben een grotere kans om corrupt te raken dan niet gecomprimeerde bestanden. Daarom mag er geen datacompressie worden toegepast. Om deze stelling te toetsen is een aantal proeven uitgevoerd:
5. Compressie en duurzaamheid Proef 1: één bit beschadigd Alle bestanden waren zonder foutmelding in Photoshop te openen Op de JPEG en gecomprimeerde TIFF was een smalle streep zichtbaar Dit was niet zichtbaar op de ongecomprimeerde TIFF en JPEG 2000 Proef 2: 5% van alle bits beschadigd Alle bestanden behalve TIFF LZW in Photoshop te openen Beschadiging in alle gevallen zichtbaar TIFF LZW wel te openen in Gimp (open source applicatie) Alleen bij JPEG2000 de hele tekst nog te lezen
5. Compressie en duurzaamheid Conclusies Stelling “ongecomprimeerde bestanden hebben een grotere kans om corrupt te raken” is discutabel en meer onderzoek is op z’n plaats Andere oplossingsrichting: redundantie in opslag Juist gecomprimeerde bestanden lenen zich hier goed voor Ontwikkelingen JPEG2000 op de voet volgen