170 likes | 344 Views
Langtidslagring av elektroniske dokumenter. For Høgskolen i Oslo, avdeling JBI Martin Bould Rådgiver, avdeling for elektronisk arkiv. Forskjellen mellom arkivmateriale og biblioteksmateriale.
E N D
Langtidslagring av elektroniske dokumenter For Høgskolen i Oslo, avdeling JBI Martin Bould Rådgiver, avdeling for elektronisk arkiv
Forskjellen mellom arkivmateriale og biblioteksmateriale • Arkiv består unike eksemplarer av dokumenter som blir til som ledd i utøvelsen av en virksomhet. Et arkiv kan bestå av trykte eksemplarer av dokumentet • Dokumentet er pr definisjon ikke mangfoldiggjort eller publisert. • Det håndskrevne bokmanuset – versus den trykte boken • Stortingsmeldingen – forarbeidene rånotater og underlagsmateriale
Lagringsmedier • Elektronisk arkivmateriale som avleveres eller overføres til Riksarkivet skal normalt overføres på CD-R plater. • Reglene sier i dag at det skal være 2 kopier og at platene skal være standard 74 minutter 650 MB (dette kan endres) CD-R plater kopieres hvert femte år. • Vi kan etter avtale også godta båndformater så lenge det er lesbart med utstyret vårt. • Lagringsmedier er ikke viktig – alternative strategier vil være lagringsnettverk…..
Hva er et elektronisk arkiv? • Et arkiv er en samling informasjon som er mottatt eller skapt av et organ eller en person/familie som ledd i utøvelsen av en aktivitet/virksomhet. • Informasjonen må bestå av tilstrekkelig innhold, form, struktur og kontekst til at den kan dokumentere at aktiviteten har funnet sted. • Informasjonen kan være på et hvilket som helst format og lagret på et hvilket som helst medium (papir, tegning, foto, film, harddisk, magnetbånd osv.) • Informasjonen i et elektronisk arkiv er produsert ved hjelp av IT-verktøyer og lagret i et binært format på elektroniske medier.
Eksempler på elektroniske arkiver • De aller fleste administrative IT-systemer hos en arkivskaper er i følge definisjonen elektroniske arkiver. Dette kan for eksempel være: • Internadministrative systemer: • Journal- og arkivsystemer, dvs. systemer som styrer arkivering og gjenfinning av saksdokumenter. • Andre: Regnskapssystemer, Lønns- og personalsystemer. • Fagsystemer, dvs. systemer som ivaretar det spesielle fagområdet til den enkelte virksomhet: • Svært mange fagsystemer i offentlig forvaltning er saksbehandlings- eller klientsystemer. • Grunnlagsregistre, dvs. registre som inneholder nøkkel-informasjon til bruk i saksbehandligen. Mange av disse er felles for en hel etat eller for hele forvaltningen.
Strategier for bevaring av elektronisk informasjon • Teknologibevaringsstrategien:Vi bevarer både maskiner, programmer og data i orginalformat. • Urealistisk, depotene ville ende opp som tekniske museer. • Emuleringsstrategien: Vi bevarer programmer og data i originalformat. Egne programmer som emulerer (etterligner) operativsystemet på den opprinnelige maskinvaren må da utvikles (jf. Jeff Rothenburg). • Slike programmer finnes ikke i dag. • Migrasjonsstrategien:Vi bevarer bare data som er konvertert til et standardisert format. Dette format kan leses av programmer og maskinvare også i framtiden. • Vi må stadig konvertere (migrere) til nye formater etter hvert som teknologien utvikler seg.
Hva skal bevares – funksjonalitet eller transaksjoner? • Er det viktig å bevare funksjonaliteten i det opprinnelige systemet? • Ved langtidslagring skal vi ikke lenger registrere eller oppdatere informasjon i systemet. Det viktigste er at vi fortsatt kan søke i informasjonen. • David Bearman hevder at vi ikke bevarer arkiver med bevisverdi dersom målet med langtidslagring er å opprettholde (muligheten) for opprinnelig funksjonalitet. • Det er transaksjonene som er det egentlige arkivet. Men hva er transaksjoner? • I et personalsystem kan dette være f.eks. når du ble ansatt, forfremmet, pensjonert, de enkelte lønssutbetalingene osv.).
Logiske og fysiske enheter • Logiske enheter inneholder informasjon som naturlig eller arkivmessig hører sammen. • F.eks. saksdokumenter - saker - emner - serier - arkiver. • Fysiske enheter kan man se og ta på. • F.eks. papirark - omslag - mapper - arkivbokser. • Ved papirbaserte arkiver er det ofte sammenfall mellom de logiske og fysiske enhetene. • F.eks. kan en sak bestå av papirark lagt inn i et omslag. Ett emne (etter arkivkoden) består av omslag lagt inn i en mappe. • Ved elektroniske arkiver finnes det ingen slik tilknytning til fysiske enheter. Elektroniske arkiver er kun logiske (”virtuelle”).
Hva er et (elektronisk) dokument? • Et dokument er den minste enheten i et arkiv. • Engelsk arkivterminologi skiller mellom record og document. Norsk oversettelse: Arkivdokument, saksdokument. • I elektroniske systemer kan dokumenter lagres som enkeltfiler (f.eks. i Word- eller PDF-format). • Men dokumenter kan også lagres i databaseformat. • Fremstår som et dokument på skjermen, men er lagret som mange forskjellige felter i en database. • Hvordan skal vi langtidslagre dokumenter som er lagret i en databaseform? • Består egentlig ”rene” databasesystemer av dokumenter i det hele tatt?
Dokumenter og metadata • Arkiver (engelsk: records) består av følgende integrerterte komponenter: • Innhold (selve ”teksten”) • Form (layout, fonter, skriftstørrelse, innrykk osv.) • Struktur (den indre orden) • Kontekst (forholdet til omgivelsene) • Innholdet og formen er først og fremst knyttet til selve dokumentene. • Struktur og kontekst kalles ofte metadata. • I et elektronisk arkiv- og dokumenthåndteringssystem (som f.eks. er basert på Noark-4) er metadata ofte den informasjonen som er lagret i selve databasen (”journalen”).
Langtidslagring av elektronisk informasjon • IT-systemer kan ikke langtidslagres. • Dagens programvare ikke vil være kjørbar på framtidens datamaskiner. • Vi kan bare langtidslagre et uttrekk av dataene. • Dette uttrekket kan utgjøre all informasjon (innhold) som er lagret i systemet i form av tabeller eller dokumentfiler. Men vanligvis vil det dreie seg om et utvalg data (f.eks. hoved-tabellene eller eldre, uaktuell data som skal saneres). • Informasjon som er bundet til selve programvaren kan ikke langtidslagres. • Måten form, struktur og kontekst presenteres for brukerne på, er for en stor del avhengig av programvaren, og vil dermed ikke kunne bli bevart.
Forskjellige typer uttrekk • Tabelluttrekk: én tabell eksporteres til én fil. • Dette er den vanlige formen for avlevering. Dersom databasen har en komplisert oppbygning med mange tabeller blir tilgjengeliggjøring svært problematisk. • Dokumenter: ett dokument eksporteres til én fil. • Disse er enkle å håndtere hver for seg. Men antallet filer vil ofte bli svært stort. Dokumenter må alltid avleveres sammen med tilhørende databaseuttrekk (som da utgjør metadata). • Forenklede databaseuttrekk: informasjon fra flere tabeller blir eksportert til én eller noen få filer. • Kan gjøres i form av joins av tabeller eller være spesialdefinert. Slike uttrekk blir langt enklere å tilgjengeliggjøre. • Rapporter: én rapport skrives ut til én fil. • Filene tas ut i ”utskriftsformat” og er dermed umiddelbart tilgjengelig.
Rutiner for å håndtere avleveringer • Allerede når et system designes og programmeres bør det legges opp til rutiner for produksjon av avleveringsuttrekk. • Et system som stadig oppdateres og overskrives, kan f.eks. produsere et avleveringsuttrekk hvert år. Viser status på et gitt tidspunkt (”årgangsnitt”). • Overskrevet informasjon kan overføres til egne historiske logger, som det gjøres uttrekk av. • Dersom eldre poster etter hvert blir uaktuelle, kan det med jevne mellomrom oppstå behov for å sanere databasen. Avleveringsuttrekket består da av disse sanerte dataene.
Dokumentasjon (tekniske metadata) • Informasjon om form, struktur og kontekst i det opprinnelige systemet kan delvis opprettholdes ved at det avleveres dokumentasjon eller tekniske metadata i tillegg til selve datauttrekket. • Den viktigste dokumentasjonen er innholds- og strukturbeskrivelsen av uttrekket. Dette må dokumenteres detaljert og helt nøyaktig. • I tillegg må også selve IT-systemet dokumenteres, f.eks. i form av en datamodell. Den administrative sammenhengen, hovedrutinene i systemet, utveksling av data med andre systemer osv. bør også beskrives. • Denne dokumentasjonen kan f.eks. finnes i system- og driftshåndbøker, samt i brukerhåndbøkene.
Arkivformater for uttrekk fra databaser Datauttrekk fra databaser og registre kan langtids-lagres som tekstfiler (ASCII-kode) hvor poster og felter er strukturert på følgende måte: • Fast format • Fast felt og postlengde. Vanligvis ikke noe postskilletegn. • ”Kommaseparert” format • Feltene skilles med et spesialtegn (f.eks. semikolon). Postskilletegn er oftest linjeskift. • ”Tagget” format (SGML eller XML) • Skal foreløpig bare brukes ved avleveringer fra Noark-4.
Arkivformater for dokumenter • Ren tekst - ISO 8859-1: 1998, Latin-1, eventuelt ISO 8859-4: 1998, Latin-4 for samiske tegn • TIFF – Tag Image File Format, versjon 6 (Aldus/Adobe, 1992) • PNG – Portable Network Graphics • XML – Extensible Markup Language og subset-formatet XHTML • PDF – Portable Document Format. (PDF-A fra 2005) • For lyd- og video-sekvenser aksepteres følgende formater: • For digital lyd: MP3 (ISO 11172-3) • For digital video: MPEG2 (ISO 13818-2)
Avlevering fra Noark-systemer • Informasjon fra journal-databasen (tabellene): • Avleveres som tekstfiler i XML-format, strukturen i databasens tabeller opprettholdes med ”tagger”. • Hver tabell skal eksporteres til en egen fil. • En egen fil (NOARK.IH) inneholder overordnede opplysninger om tabellene som er avlevert. • De elektroniske dokumentene: • Avleveres i ett av de fire arkivformatene. Hvert dokument skal avleveres som en egen fil. • Fra tabellene skal de være en referanse (link) til dokumentene vha. dokumentenes filnavn (ISO 9660). • Elektroniske rapporter (utskrifter): • Avleveres også i XML-format. • Saks- og dokumentoversikt. • Kronologisk journal.