200 likes | 542 Views
CAM for Lustre filesystem. 정보과학회 HPC 연구회 2013. 1 . 29 명지대학교 최규영 kychoi@cray.com. HSM ( Hierarchical Storage Management ). Filesystem I/O. APP. OS. Loacal Disk. HSM ( Hierarchical Storage Management ). Backup SW 를 통한 Tape Library I/O. APP. OS. Loacal Disk. External Disk.
E N D
CAM forLustrefilesystem 정보과학회HPC 연구회 2013. 1. 29 명지대학교 최규영 kychoi@cray.com
HSM (Hierarchical Storage Management) • Filesystem I/O APP OS Loacal Disk
HSM (Hierarchical Storage Management) • Backup SW를 통한 Tape Library I/O APP OS Loacal Disk External Disk Tape Library Backup SW
HSM (Hierarchical Storage Management) • HSM에 의해 자동으로 자주 사용하지 않는 자료는 Tape Library로 이동 APP OS Local Tier 0 Tier 1 Tape Library HSM Backup SW
LustreFilesystem • 특징 • 여러 장비에서 동시에 접근 가능한 공유 파일 시스템 • 자료를 여러 저장장치에 분산 저장하는 병렬 파일 시스템 • 여러 개의 병렬 저장장치와 이를 관리하는 서버들로 구성 • TOP500 슈퍼컴퓨터의 TOP30 중 15곳에서 사용 • Cray, Dell, HP, BULL, SGI 등에서 사용 중 • 주요 벤더:Xyratex, DDN, Dell, NetApp
LustreFilesystem • 대용량 공유 파일 시스템 A A A A A … Server 0 Server 1 Server N B B B B B C C C C C LUNN LUN1 LUN3 LUN2 LUN0 D D D D D Controller E E E E E F F F F F G G G G G H H H H H P P P P P … P P P P P
LustreFilesystem • Lustre구성 LUN LUN LUN LUN LUN LUN LUN LUN System(s) LUN LUN LUN LUN LUN LUN LUN LUN LUN LUN LUN LUN LUN LUN LUN LUN … … … … … … … … MDT OST1 OSTN-1 OST0 mirror OST1 OST0 OSTN LustreFilesystem MDS OSS 0 OSS 1 OSS N …
Lustre HSM 대안 • 대안 1 • HSM 기능을 제공하는 새 스토리지와HSM 관리 서버 추가 • 사용자는 Linux 명령어로 자주 사용하지 않는 고용량 자료를 새 스토리지로 이동 • 이동된 자료는 HSM 관리 정책에 따라 관리됨 • HSM 복구 정책에 따라 사용자가 이동된 자료를 필요로 할 시 제공된 명령어를 통해 Lustre FS로 복구 • 문제점 • Lustre FS과 새 스토리지간 자료 이동시 많은 시간 소요 • archive 할 자료를 사용자가 직접 새 스토리지로 이동 • archive 된 자료를 사용하기 전 사용자가 직접 제공되는명령어로 복구 • 계층 관리될 자료를 사용자가 직접 지정해야 한다면 backup/restore로 사용자가 직접 Tape Library로 이동/복구 시키는 것과 무엇이 다른가?
Lustre HSM 대안 • 대안 2 (CAM) • HSM 관리 서버 추가 • 관리서버에서 Lustre를 마운트 하여 Lustre내 파일들을 직접 제어 • HSM 관리 정책에 따라 archive 할 대상을 선정하여 Tape Library로 이동 • Lustre에 archive 되었음을 알려주는 메타파일 생성 • 문제점 • archive 된 자료를 사용하기 전 사용자가 직접 제공되는명령어로 복구
Lustre HSM 대안 • 비교 • 사용자가 직접 제어해야 하는 구간 • 대안 1 : archive 대상 선정, 새 스토리지로 이동, 복구(restore) • 대안 2 (CAM) : 복구(restore) • 자료 이동 • Archive • HSM : HSM 스토리지 → Tape Library • 대안 1 : Lustre→ HSM 스토리지 → Tape Library • 대안 2 (CAM) : Lustre → Tape Library • Restore • HSM : Tape Library → HSM 스토리지 (Interrupt driven) • 대안 1 : Tape Library → HSM 스토리지 → Lustre • 대안 2 (CAM) : Tape Library → Lustre (Manual)
CRAY ARCHIVING MANAGER • 구성도 User Server Management Server CAM CAM archive BKSW backup CAM scan Lustre FS Tape Library MySQL DB arc_cp USER CAM restore BKSW restore arc_restore rtrexec
CRAY ARCHIVING MANAGER • CAM 구조 • HW 구성 • Lustre mountable Management Server • Tape Library within VTL • SW 구성 • Management Server • mysql : 아카이브된 파일들에 대한 정보 저장 • CAM : Lustre와 Tape Library간 자료 이동 및 관리 • rtrexec server • Backup Software • User Server • User Interface Scripts: arc_cp, arc_restore • rtrexec client
CRAY ARCHIVING MANAGER • 사용자 인터페이스 • arc_restore • 아카이빙 된 파일을 테이프에서 디스크로 리스토어 시키는 명령어 • 세부기능 : • 현재 파일명, 원본 파일명 모두 사용 가능 • 띄어쓰기를 구분자로 사용하여 여러 파일 동시 수행 • 절대 경로, 상대 경로 혼합 사용 가능 • 모든 리눅스 용 와일드카드 사용 가능 : * ? [] 등 • “-r” 옵션을 사용하여 디렉토리 단위 지정 가능 • “--file=파일이름” 옵션을 사용하여 특정 파일에 저장된 목록을 리스토어 • arc_cp : • 지정된 파일을 리스토어 하여 지정된 곳으로 복사 시키는 명령어 • 세부기능 : 리눅스“cp” 명령어와 동일
CRAY ARCHIVING MANAGER • 아카이빙 대상 선정정책 [fullpath] HIGH=85 LOW=80 { size >= 500 force >= 100 atime >= 15 ctime > 5 ignore [fullpath] ignore [fullpath] ignore [fullpath] } [fullpath] [high] [low] { …. }
CRAY ARCHIVING MANAGER • 프로세스 구조 설정 • CAM-scan • SCAN-MAX_CORE • SCAN_THREAD_PER_CORE • SCAN_FILE_PER_THREAD • CAM-archive • ARC-MAX_TASK • ARC-FILE_PER_TASK # MAXIMUM is 15 • CAM-restore • RES-MAX_TASK
CRAY ARCHIVING MANAGER • CAM-archive • CAM-scan을 호출하여 아카이빙 대상 선정 -> MySQL DB에 저장 • DB로부터 ARC-FILE_PER_TASK 수의 파일을 묶어 아카이빙 프로세스 호출 • 아카이빙 • 백업 전 파일정보 조사 • 파일리스트를 backup SW를 사용하여 Tape Library에 저장 • 저장 전 파일정보와 비교하여 변경 여부 확인 • 변경되었으면 원본파일 유지 • 원본 파일(파일시스템)를 제거 • 원본파일이 아카이빙 되었음을 알려주는 메타파일 생성 • Timestamp.원본파일명.archived • DB정보 갱신
CRAY ARCHIVING MANAGER • CAM-restore • 파일당 한 개의 리스토어프로세스 호출 • 리스토어 • DB로부터 아카이빙 정보 조사 • Backup SW를 사용하여 원본경로/.working 에 복구 • 복구가 완료되면 원본경로로 이동 • 해시파일 제거 • DB정보 갱신
향후 계획 • 무결성 검사 데몬 • CAM archive / restore 수행결과 검사 • Lustre, Tape Library, DB 간 무결성 검사 • 리스토어 데몬 • CAM restore 사용환경 분석 • CAM restore 사용현황 GUI 표출 • Auto Tape Recycling