1 / 45

Open Access 정보자원의 장기보존 전략

Open Access 정보자원의 장기보존 전략. 2004. 11. 19. 이규철 충남대학교 컴퓨터공학과 kclee@cnu.ac.kr. User/Application Level. User. Search. 부가가치 서비스. 메타데이터 수확. OAI Harvester. Service Provider Level. 통합 메타 DB. Results. Service Provider Interface. Query. Data Provider Level. Local Repository. Remote

Download Presentation

Open Access 정보자원의 장기보존 전략

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Open Access 정보자원의 장기보존 전략 2004. 11. 19. 이규철 충남대학교 컴퓨터공학과 kclee@cnu.ac.kr

  2. User/Application Level User Search 부가가치 서비스 메타데이터 수확 OAI Harvester Service Provider Level 통합 메타 DB Results Service Provider Interface Query Data Provider Level Local Repository Remote Repository institutional Repository 메타데이터 노출 OAI Repository OAI 아키텍처

  3. 장기 보존(Long-Term Preservation): 개념 • 기계가 읽을 수 있는 컴퓨터 파일의 사용할 수 있는 기간을 연장하고, 무용화 되는 것을 막기 위해 고안된 다양한 행위 • 비트 스트림(Bit Stream)의 장기 유지 • 파일의 내용에 대한 지속적인 접근성 제공

  4. 장기 보존(계속) • 기능 • Viability • 비트 스트림 유지: 저장 미디어로부터 정보를 읽어 올 수 있음을 의미 • Renderability • 인간 사용자에게 보여질 수 있거나 컴퓨터에 의해 처리될 수 있는 폼으로 비트 스트림을 변환할 수 있는 가능성 • Understandability • 사용자에 의해 해석되고 이해 될 수 있도록 충분한 정보를 제공 • 비트 스트림과 컨텐츠, 폼, 스타일, 모양, 기능성을 보존

  5. 디지털 기록물의 기본 특성 • 기록물 : 기록 보관인들이 보존, 정리, 저장, 접근(열람) 가능하게 만드는 객체 • 종이 기록물 • 특정 시간에 한 장소에서만 접근 가능 • 기록물 보존 = 기록 개체(기록 재료 : 종이)의 보존 • 기록의 열람을 원하는 경우 직접 접근 • 원본성(originality) 존재 • 디지털 기록물 • 기술(technology)를 통해 접근 • 열람을 위해 하드웨어와 소프트웨어로 조합된 도구 사용 • 디지털 기록물 = 기술 + 데이터 ≠ 물리적 개체 • 열람 가능한 기록물 = 원본 복사본(original copy) • 원본성(originality) 부재

  6. 디지털 기록물의 실행 모델 • 프로세스(process) • 원시자료로부터 의미를 표현하기 위해 요구되는 기술(technology) • 디지털 기록물의 원시자료는 데이터 파일

  7. 디지털 보존의 문제들 • 디지털 기록물 보존 업무 • 원시자료와 프로세스의 보존 • 요청 시 원시자료와 프로세스가 실행될 수 있도록 하는 것 • 보존의 현실성 • 원시자료의 보존은 가능 • 프로세스의 보존은 비현실적 • IT의 역동적 발전 • 기술(technology)의 생명주기가 점점 짧아짐 • 저장매체의 급격한 퇴화 • 디스크, 테이프, 카트리지 등 • 짧은 수명 : 매체 재수록(refreshment) 전략으로 극복 • 실행모델의 시사점 • 진본성을 가진 기록물의 실행을 위해 소스와 프로세스 모두 원본성을 가질 필요는 없다. • 실행의 필수 부분들이 복제 된다면 소스와 프로세스는 대체 가능

  8. 디지털 보존 접근 방법들 • 마이그레이션(migration) • 하나의 데이터 포맷(format)으로부터 다른 데이터 포맷으로 변환하는 것 • 예 : MS 워드 8.0버전에서 Adobe사의 PDF로의 변환 • 일반적으로 소프트웨어가 구형화될 때 디지털 기록물의 접근가능성을 보장하는 방법으로 이용 • 실행모델에서 원시 자료 객체를 쓸모 없는 구형 데이터 포맷(format)으로부터 현재의 데이터 포맷으로 변환하는 것 • 현재의 프로세스(하드웨어 및 소프트웨어 결합체)가 새로운 원시자료를 표현 • 디지털 객체의 일부 속성은 마이그레이션 과정에서 소실될 수 있음 • 마이그레이션 이후의 실행은 예전과 동일하지 않을 수 있음 • 데이터 손실 정도에 영향을 주는 요소 • 보존처리 횟수, 선택한 마이그레이션 방법, 새로운 데이터 포맷, 사람의 개입 정도, 마이그레이션 이후 기술(記述)작업

  9. 에뮬레이션(emulation) • 원시 자료 객체를 원래(original) 데이터 포맷으로 보존 • 프로세스의 일부 또는 모두를 현재 사용하는 컴퓨터에서 재현 • 기록물의 ‘외형과 느낌(look and feel)' 보존 • 원래(original) 프로세스의 기능을 올바르게 재생산하는 것만이 최선의 방법 • 기록물의 내용, 실질적인 외형(표현모습)을 모두 유지 • 단점 • 사용자들이 적절한 에뮬레이션 환경에 접속하지 못하는 경우 접근이 어려움 • 기록물 열람자가 기록물이 생산된 시기의 컴퓨팅 환경을 배워야 함. • 예 : 2050년에 살고 있는 기록물 열람자가 1990년대 초에 생산된 기록물을 열람하기 위해서는 DOS의 시스템 명령어를 익혀야 함 • 에뮬레이션(emulation) : 마이그레이션(migration)= “외형과 느낌(Look and Feel)”중시 : “실제 내용(Content)”중시

  10. 본질(essence)의 개념 • 기록물이 의미를 유지하는데 필요로 하는 “필수적인 보존 특성” • 예 • 워드프로세스 문서 = 원문 내용(textual content) + 문서 형태 정보(글꼴, 색상, 문서 레이아웃 등) • 본질(essence) • 원문 내용(textual content) • 업무 활동의 법정 증거 제공 • 실행 특성을 모두를 보존할 경우 • 기록물 영구 보존 의미에 부합하지 않는 요소들을 보존하는데 많은 비용을 요구 • 기록물의 의미를 유지하는데 필수적인 본질(essence) 결정 • 본질을 보존하는데 중점을 둬야 함

  11. 디지털 기록물 보존 원리(principles) • 디지털 보존프로그램은 디지털 기록물을 생산한 애플리케이션, 시스템, 저장포맷 등에 관계없이 보존할 수 있어야 함 • 디지털 기록물의 영구보존 가치 • 생산, 사용했던 맥락(context) 보존 • 최고의 기록관리 : 영구보존 자료를 보다 쉽게 확인토록 해주는 것 • 디지털 보존프로그램이 포괄적이기 위해서는, 모든 환경으로부터 이관되는 기록물을 보존할 수 있어야 함. • 디지털 보존프로그램은 디지털 기록물의 본질(essence)을 결정, 보존하여야 하며, 언제든지 필수 실행요소들을 재생산해야 함

  12. 디지털 기록물 보존 원리(계속) • 디지털 보존프로그램은 비-독점기술을 기반으로 하여야 함 • 독점 데이터포맷은 디지털 기록물의 장기보존 및 접근용으로는 부적절 • 독점 포맷으로 구성 된 디지털 기록물에 대한 열람은 궁극적으로 지적재산권 소유자의 권한 • 기록물의 무결성에 대한 위험을 줄이기 위하여, 보존프로그램은 각 디지털 기록물에 적용하는 보존처리의 횟수를 최소화해야 함 • 높은 적용비용 • 기록물 무결성에 잠재적인 위협 • 디지털 보존프로그램은 기록물 열람자들의 접근방법을 강제하지 않아야 함 • 기록물이 어떤 컴퓨터 플랫폼을 통해서도 접근할 수 있어야 함

  13. ISO 14721 : OAIS(Open Archival Information System) • 전자 정보 영구 보존을 위하여 개발된 보존 시스템에 대한 권고사항 • 정보(Information)의 정의 • 정보를 정보 패키지(Information Package)로 표현 • OAIS에서의 단계별에 따른 각각의 정보패키지 정의 • OAIS에서의 기능적 모델 제시 • 보존전략 제시 • Open • 공개용으로 어느 기관이나 사람들이 사용할 수 있는 참조 모델 표준 • Archival Information System • 정보를 생산, 보존, 전달하는 신뢰할 수 있는 하드웨어,소프트웨어, 사람

  14. OAIS 개발 기관 • National Space Science Data Center • NASA의 첫 번째 디지털 아카이브 • Consultative Committee for Space Data Systems • 국제적 항공 우주 기관 • 아카이브 표준을 ISO 제안 • 항공 우주와 관련된 데이터 제안 • 디지털 데이터를 장기 보존하는 방법 제안

  15. OAIS 표준화 과정 • 1995년 10월 첫 번째 심포지엄 개최 • 전자정보 영구 보존을 위한 참조 모형 개발 필요성에 동의 • 1999년 5월 Red Book 발표 • CCSDS의 권고 초안 • 2002년 1월 Blue Book 발표 • 2003년 3월 1일 Blue Book이 ISO 14721 국제 표준으로 제정

  16. 정보 객체의 정의 • 정보의 정의 • 교환할 수 있는 모든 유형의 지식 • 표현 정보를 사용하여 해석한 데이터 표현정보를 이용하여 해석 데이터객체 (Data Object) 표현정보 (Representation Information) 산출 정보객체 (InformationObject)

  17. 내용정보(Content Information) 보존설명정보(Preservation Description Information) 패키징정보 (Packaging Information) 패키지(Package) 패키지 설명정보(Descriptive Information about Package 1) 정보 패키지 • 정보 패키지 구성 • 내용정보 (CI) • 내용 정보 자체 • 내용정보 생산 이유 • 다른 내용정보객체와의 관계 정보 포함 • 보존설명정보 (PDI) • 내용정보의 식별자 • 패키징정보 • 내용정보와 보존설명정보를 하나의 묶음으로 보호 • 패키지 설명정보 (DI) • 내용정보를 가진 패키지를 검색할 때 이용

  18. 정보 패키지 • 정보 패키지 종류 • 제공 정보 패키지 (SIP) • 생산자와 OAIS 사이의 협의 • 생산자가 OAIS에게 보내는 정보 • 영구 보존 정보 패키지 (AIP) • 보존하기 위한 정보 패키지 • 내용 정보와 PDI로 구성 • 보급 정보 패키지 (DIP) • 하나 이상의 AIP 전체나 일부분을 포함 • OAIS가 열람 요청자에게 보내는 정보 • 정보 패키지를 3가지로 나눈 이유 • 생산자가 제공하는 표현 정보가 OAIS의 보존요구를 충족시키지 못하는 경우 발생 • 생산자가 제공하는 표현 정보의 구성이 OAIS의 것과 다른 경우 발생 • 열람요청자에게 OAIS에서 영구 보존하는 모든 정보를 제공할 필요가 없기 때문에

  19. 단계별 정보 패키지의 흐름 생산자 (Producer) Legend 제공정보패키지 (Submission Information Packages) = 객체 Information Package 종류 = OAIS = 데이터 흐름 영구보존정보패키지 (Archival Information Packages) 질 의 결과집합 보급정보패키지 (Dissemination Information Packages) 주 문 열람요청자 (Consumer)

  20. Archival Information Package 영구 보존정보 패키지 패키지 설명 패키징 정보 보존설명정보 내용 정보 인증정보 데이터 객체 표현 정보 참조 정보 물리객체 전자객체 구조정보 의미정보 출처정보 문맥정보

  21. 설명 정보 설명 정보 AIP AIP OAIS 기능적 모델 보존 계획(Preservation Planning) 생 산 자 열 람 요 청 자 데이터 관리 (Data Management) 질의 결과 집합 접근 (Access) 흡수(Ingest) 주문 SIP 보존 (ArchivalStorage) DIP 운영 (Administration) 관리자 (Management)

  22. OAIS 기능적 요소 • 흡수 • 제공정보패키지 (SIPs)를 받아서 처리하는 기능을 제공 • 보존 • 영구보존정보패키지(AIPs)의 저장, 유지, 검색을 위한 기능 및 서비스를 제공 • 데이터 관리 • 보존 정보를 확인 • 아카이브를 운영하는데 필요한 모든 행정정보를 유지하고 이에 접근하는 서비스와 기능 수행 • 운영 • 아카이브 시스템의 전반적인 운영 담당 • 보존 계획 • OAIS 전체를 모니터링 및 장기 보존을 위한 계획 및 방법을 제시 • 접근 • OAIS에서 저장하고 있는 정보의 가용성, 위치, 설명 정보, 존재 여부를 결정하여 열람 요청자에게 제공

  23. 보존 계획 • 보존 계획의 핵심 기능 2가지 • 보존전략과 표준을 개발 • 패키지 디자인과 마이그레이션 계획 개발 • 보존 대상 • 내용정보, 보존설명정보, 패키지 정보, 보존 정보 패키지 • OAIS에서 취하는 마이그레이션 의 유형 • 갱신(Refreshment) : 보존저장 객체의 모든 H/W나 S/W를 다른 것으로 대체 • 복제(Replication) : 정보패키지를 같거나 다른 매체로 복제 • 재패키징(Repackaging) • 내용정보, 보존 설명 정보의 비트들이 한 CD 내에서 3개의 다른 파일에 담겨 있는 경우 • 3개의 파일 내용을 새로운 디렉토리와 다른 파일로 이전 • 패키지 정보가 변하게 됨 • 변환(Transformation) • 내용정보나 보존 설명 정보의 변화가 필요한 경우

  24. 보존 계획 기능 관리자 영구보존정보/보급정보 패키지 템플릿영구보존정보/보급정보 패키지 리뷰마이그레이션 패키지요구조건 맞춤 권고 권고사항추천 열람 요청자 요구사항 목록 표준 선택마이그레이션 목적 기술 정보외부 데이터 표준프로토 타임 결과목록 패키지 디자인과마이그레이션 계획개발 보존 전략과표준을 개발 결과물 권고사항 프로토타입 결과 영구 보존요구 사항 포로토타입 요청 새로운 표준의등장에 필요한 요구사항 기술 모니터링 제공자 모니터링 조사 포로토타입 요청 열람 요청자 서비스요구사항 제품 기술 조사 생산자

  25. CEDARS (CURL Exemplars in Digital ARchives) • CURL (Consortium of University Research Libraries ) • 1998.4. – 2002.3. • 연구 영역 • 디지털 보존과 관계된 현실적인 방법 및 전략 수립 • 디지털 보존 전략과 기술 발견 • 컬렉션 개발과 권한 관리와 관계된 연구 진행 • 디지털 정보 객체를 보존 하기 위해 요구되는 메타데이터 정의 • 도서 기록물 관리 및 보존을 위한 방법 및 고려사항 등을 제공 • OAIS를 기반으로 분산형 구조를 채택 • 기록물 보존 방법 • 에뮬레이션 : CAMiLEON 프로젝트

  26. 메타데이터 • CEDARS 디지털 아카이브에서 사용하기 위한 스킴 • 개발되거나 개발중인 보존 메타데이터 표준과의 호환성을 위한 메타데이터 • 디지털 리소스의 장기간 보존을 위한 메타데이터 • 디지털 컨텐트의 의미를 표현하기 위한 메타데이터 • 기술적, 관리적, 설명적 요소를 모두 기술할 수 있는 메타데이터

  27. 메타데이터 종류 • 기술적메타데이터 • 보존 전략을 제공하기 위한 H/W와 S/W의 환경에 관한 기술 정보를 기록 • 권한 관리 메타데이터 • 기록물의 권한 및 협약 사항들을 기록 • 지적 보전 메타데이터 • 무결성과 진본성을 보존하기 위해 • 자원 발견 메타데이터

  28. 메타데이터 항목 • 보존 설명 정보 • Reference Information • Resource description • Existing metadata • Context Information • Related information objects • Provenance Information • History origin • Management history • Rights management • Fixity Information • Authentication indicator

  29. 메타데이터 항목 • 내용정보 • Representation Information • Structure Information • Underlying abstract form description • Transformer objects • Render/analyze/covert object • Semantic Information • Render/analyze objects • Data object

  30. 도서 기록물 관리 과정

  31. 도서 기록물 권한 관리 • 정보 패키지에 대한 메타데이터를 포함 • OAIS 보존 설명 정보 부분을 기반으로 함

  32. CAMiLEON • Creative Archiving at Michigan & Leeds: Emulating the Old on the New (CAMiLEON) • 연구 영역 • S/W 의 영구성 • 에뮬레이션 • Migration on Request • CAMiLEON 에뮬레이션 연구 참여기관 • Universities of Michigan (USA) • Leeds (UK) • JISC와 NSF 재정적 지원

  33. CAMiLEON의 에뮬레이션 방법 • 추진단계 • 1999년 10월 1일 시작 • UK : 2002년 12월 31일에 끝날 예정 • USA : 2003년 9월 30일에 끝날 예정 • 목적 • 에뮬레이션의 효과 및 구현 가능 여부 검증 • 에뮬레이션을 실질적인 보존 전략으로 활용하기 위한 실험 수행

  34. CAMiLEON의 에뮬레이션 방법(계속) • 방법 • 1970년대와 1980년대 생산된 자료들을 중심으로 어떻게 아키텍처로 매핑 되는지를 실험

  35. The OCLC and RLG • 2000년 Preservation Metadata 워킹 그룹을 구성하기 위해 협조하기로 결정 • OAIS 정보 모델 • 메타데이터 보존을 위한 광범위한 분류체계 제공 • 정보 형태는 실제 구현에 적합한 메타데이터 요소의 리스트로 제공하지는 않음 • 2001년: 현재의 Preservation Metadata for Digital Object 기술에 대한 검토서 작성 • 2002년: 실제적인 메타데이터 프레임워크 개발

  36. 메타데이터 프레임워크 • 메타데이터 보존 영역에서 향후 작업을 위한 기반 제공 • 메타데이터 보존을 구현하기 위한 전략과 Best Practice를 포함 • 다양한 형태의 디지털 보존 행위에 요구되는 풍부한 설명의 정도를 평가 • 자동화된 보존 메타데이터를 생성하기 위한 알고리즘 개발 • 도서관의 보존 프로세스 관리를 가능케 함 • 실질적인 접근 방법

  37. 메타데이터 항목 : 내용 정보 • 내용 데이터 객체 • 표현 정보 • Content data object description • Underlying abstract from description • Structural type • Technical infrastructure of complex object • File description • Installation requirements • Size • Access inhibitors • Access facilitators • Significant properties • Functionality

  38. 메타데이터 항목 : 내용 정보(계속) • Description of rendered content • Quirks • Documentation • Environment description • Software environment • Rendering programs • Transformation process • Display/access application • Operating system • OS name • OS version • Location, documentation

  39. 메타데이터 항목 : 내용 정보(계속) • Hardware environment • Location • Computational resources • Microprocessor requirements • Memory requirements • Documentation • Storage • Storage information • Documentation • Peripherals • Peripheral requirements • Documentation

  40. 메타데이터 항목 : 보존 설명 정보 • Reference Information • Archival system identification • Global identification • Resource description • Context information • Reason for creation • Relationships • Manifestation • Intellectual content

  41. Provenance Information Origin Event Pre-ingest Event Ingest Event Archival retention Event Rights management Event Fixity Information Object authentication 메타데이터 항목 : 보존 설명 정보(계속)

  42. 전자기록물 영구보존 기반기술 용역 과제- 국가기록원 & 한국정보과학회 -

  43. 1차년도 추진 계획 외국 선진 사례 분석 전자기록물 영구보존 방안 분석, 정의 (법/제도, 기록관리, 시스템 측면) 전자기록물 요소 분석 ↓ 영구보존 항목 추출방안 이상적 보존 체계 제시 기생산된 전자 문서의 보존 방안 제시 디지털 아카이브 발전을 위한 로드맵 제시

  44. 2차년도 추진 내용 영구 보존 포맷 등 보존 방안 구체화 및 적용 방법 제시 영구보존포맷 보존메타데이터 보존매체 보호 및 인증 법적증거/저작권 보존방안 표준화 및 적용 시험 기록보존 ITA 틀 정의 전자기록물 지식자원화 방안 현시스템을 디지털 아카이브로 발전방안 디지털 아카이브 기능분담 모델 (기능, 정보구조, 운용시나리오)

  45. 용역 수행 조직: 국가기록원의 실무추진팀과 상시 협의 총괄 이규철 기록관리 팀 XML 팀 데이터 저장/관리 기술팀 서혜란 이규철 송병호 연구(보조)원 연구(보조)원 연구보조원 연구원 : 김종원 정양모 이영선 연구원 : 서은경 연구원 : 설문원 이지연 황윤영 임혁수 이태경

More Related