990 likes | 2k Views
災難復原規劃 (Disaster Recovery) 實務製作. 中華電信數據通信分公司 公眾數據處 - 蔡其宏 humphery@cht.comt.tw TEL:02-23443378#135. 大綱. 災難復原計畫如何規劃? 災難復原計劃之關鍵 資料 / 資料備份 如何選擇資料備份 / 備援方式? 資料儲存方式 DAS/NAS/SAN 資料備份策略 各種資料儲存架構之在地及異地備份 / 備援 系統快速備份及回復的方案. 2. 災難復原計畫如何規劃?. 災難復原程序. Detection 災難發生 Diagnosis/Decision
E N D
災難復原規劃(Disaster Recovery)實務製作 中華電信數據通信分公司 公眾數據處-蔡其宏 humphery@cht.comt.tw TEL:02-23443378#135
大綱 災難復原計畫如何規劃? 災難復原計劃之關鍵 資料/資料備份 如何選擇資料備份/備援方式? 資料儲存方式 DAS/NAS/SAN 資料備份策略 各種資料儲存架構之在地及異地備份/備援 系統快速備份及回復的方案 2
災難復原程序 • Detection • 災難發生 • Diagnosis/Decision • 發生什麼災害? • 該選擇哪個回復時間點? • 回復的策略–部分系統或全部系統 • Restoration • 資料回復階段-從備份磁碟或磁帶進行資料還原 • Recovery • 應用程式啟用
災難復原計畫如何規劃? • RPO – Recovery Point Objective • 備援系統取代原有系統開始提供服務時,在資料上所能回復到的可用時點 • 也就是災難發生前,最近一次資料備份/複製成功的資料時點(可容忍的資料損失, data loss) • RTO – Recovery Time Objective • 備援系統取代原有系統開始提供服務,所需的時間 • 也就是災難發生、系統中斷服務後,直到系統恢復所需時間(可容忍的系統中斷服務時間, recovery speed)
RPO&RTO Expect Recovery Time Outage RPO RTO 開始備份 災難宣告復原啟動 Backup Time Window 備份時間
LDAP DNS Web NAS Security Device Web/AP SAN Network Device Storage Network OS Physical Link Storage HW Server HW IT資訊系統架構中的各個組成 Power HVAC Building Any component’s outage will cause interrupt of service. Every component needs backup/recovery. 7
災難復原計劃之關鍵 Any component’s outage will cause interrupt of service. Every component needs backup/recovery. Which component goes first? Data ! Data Backup!!! 8
資料保護規劃問題 • 什麼是最重要的呢? • Backup Windows (speed of backup) • Recovery: RTO (speed of recovery, cost of downtime) • Recovery: RPO (amount of lost data) • 在RTO, RPO與Cost間找 Solution!! • RTO, RPO與Cost成反比,需要找一個折衷點 • three factors—recovery speed, data value, and cost. • 這個折衷點就是公司或企業所能夠接受的風險或損失 9
如何選擇資料備份/備援方式? Outage Expect Recovery Time RPO RTO 開始備份 復原啟動 備份時間 週 日 時 分 秒 分 時 日 週 Tape Backup Tape Restore Replication/Mirror Asynchronous/Synchronous Continuous Data Protection Bare Metal Restore Continuous Data Protection Reinstall Clustering Business needs must drive the technology choices!
如何考量資料備份/備援的需求? • 需要Storage Consolidate嗎?採用的是 NAS 或 SAN? • 端視AP應用系統 • 需要多少的資料儲存空間做為資料異地備援? • 評估目前的使用空間以及未來成長,備援演練模式 • 選擇那一種的效能? • Fiber Channel, Ultra-SCSI, S-ATA, Gigabit or Fast Ethernet? • 需要磁帶備份嗎? • 採用remote replicate/backup? Synchronous or Asynchronous? • 需要高可用性嗎( high availability)? • Network redundant (Fiber Channel/SCSI, TCP/IP/Ethernet)? Controllers redundant? RAID 1 or 5? NAS heads redundant (File Servers Redundant), …
Storage Network Hierarchies • DAS • SCSI- and Fibre Channel-based • NAS • Ethernet-based • SAN • Fibre Channel-based Clients and Servers Client TCP/IP Network FC Host System Optimized Server FC-based Network File System NAS App/Filer File System FC SCSI or FC SCSI, FC, or Both FC FC Storage Storage Storage Storage
現有環境:每一部伺服主機 SCSI是DAS環境中最常使用的 Fibre Channel為point-to-point 使用DAS的限制 距離(SCSI 25m, FC 10km) 設備分享 單點失效問題 擴充性問題 備份管理問題 優點 價格較便宜 容易使用 廣泛的使用 Direct Attached Storage (DAS) Server DAS Disk Array
Network Attached Storage (NAS) • Network Attached Storage (NAS) • Ethernet-based • Local or remote client access • 預先載入檔案系統,可提供異質環境進行檔案分享 • Windows (CIFS), UNIX (NFS), Web (HTTP), FTP • File-level I/O applications • Scale from GBs to TBs • 管理設定與診斷軟體 • Fault Tolerant Features • Dual, Redundant, Hot Swap元件 • Data Protection Technology • Data Protection with RAID, Backup to Disk/Tape Windows Clients UNIX Clients IP/ Ethernet Front-End Network NAS Gateway(With external storage media) FC NAS Appliance (With integrated storage media) FC SCSI SAN
Storage Area Network (SAN) Fibre Channel-based 網路中的主機或儲存設備均連線到FC hubs或switches 主機可存取此網路上多個儲存設備,或是新增加之儲存設備 主機與儲存設備可視為獨立元件,主機可直接存取儲存設備不需透過其他之協助或服務 Block-level I/O to storage Storage Area Network (SAN) Clients NAS Server SAN Client Tape Storage
SAN or NAS的效益 (Storage Consolidation) • 共享儲存空間,減少儲存空間的切割損失(fragmentation lost),可用儲存資源最大化 • 線上擴充儲存空間,減小系統服務中斷時間 • 集中共享備份設備,減少備份設備成本以及人力成本 • 集中管理儲存空間,減少人事管理成本 • 可輕易複製一份資料作為測試或備份用途, 而不影響原伺服主機的工作效能 • 所以在地或是準備進行異地備份時,往往需要進行Storage Consolidation
High Availability for SAN and NAS HA architecture of SAN HA architecture of NAS Unix Servers Windows Servers Unix Servers Windows Servers NICs driver for redundant HBAs driver for redundant Two Ethernet SWs for redundant Two FC SWs for redundant Two Ctlrs for redundant Two FSs for redundant Intelligent Storage Ctlr RAID 1, 3, 5 RAID 1, 3, 5 RAID Controller RAID Controller N+1 Disks N+1 Disks JBODs JBODs HDS/EMC/IBM/HP/Sun /NetApp NAS Storage HDS/EMC/IBM/HP/Sun SAN Storage 18
NAS與SAN的比較 Storage AreaNetworks (SAN) Network Attached Storage (NAS) Block I/O File I/O 資料型態 High availability Intermediate 可用性 應用 資料庫: Data warehousing, imaging, graphics, etc. 辦公前端應用: Word processing, e-mail, web content, etc. Ethernet Fibre Channel 存取方式 受限於 TCP/IP網路位址以及乙太網路之限制 Limited only by practical physical and performance limitations of FC fabric 可擴充性 低延遲時間(latency)以及專屬存取頻寬 優點 使用已知通訊協定並可整合現有設備
SAN or NAS ? • 在考慮Storage Consolidation時,沒有絕對的孰優孰劣! • 要看應用的環境與架構 • 只有最適當的架構,而不談最便宜或最好的架構!
Storage Consolidation問題 • IT人員的痛 • 如何做? • 何時進行? • 既有設備該如何處理? • 做完是否順利OK? • 後續會有一籃子雞蛋的風險問題! • 風險集中 21
Full and Incremental Backup • 完整備份(Full Backup) • 所有資料都備份到磁碟或磁帶,可完整回復資料 • 消耗大量資源(時間、頻寬、磁帶等) • 增量備份(Incremental Backup) • 從上次完整或增量備份時間點到目前的異動資料 • 降低備份所需資源 Sunday Backup Server Monday Tuesday Wednesday Thursday Friday Saturday Incremental Backup Full Backup Clients Disks and Tapes
備份策略的設計 • 磁帶備份之挑戰 • 速度與可用性 • 管理問題 • 花費成本 • 資源分享 • 評估 Local DR 的需求性 • 本地單一伺服器當機時,需要服務復原的時間性 • Tape Backup 加上 OS reinstall 所需時間通常要 4~8小時 • os install + AP + Patch + Data reinstall…….. • 運用 SAN Storage 建構快速備份 • File level backup or Raw device backup
Backup vs.Replication • Backup • 透過保持多版本資料進行資料保護動作 • 如tape, VTL, CDP, snapshot… • 何時使用? • 需要多個RPO • 需要從資料毀損時進行回復 • 進行檔案archiving或是indexing • Replication/Mirroring • 當資料有變動的時候,即對資料進行即時複製。一般可分為同步(Synchronous)或非同步(Asynchronous)複製 • 何時使用? • Disaster RTO • 資料搬移
Traditional LAN Backups • 應用程式受到儲存設備存取影響 • 當設備數量成長時,設備與管理成本太高 • 網路受到備份資料影響 One Server n Servers Backup Software Backup Software or tar/cpio utility Backup Agent Backup Tape Backup Tape DAS Backup Server
LAN-free Backups • 集中進行資料備份,減少管理成本 • 減少網路流量,降低對應用程式影響 • 提升備份效能,減少資料備份時間 File Read/Write After Before LAN LAN Backup Server Backup Server File Servers File Servers File Read/Write Backup Tape Backup Tape Disk Arrays Disk Arrays 27
Serverless Backups • 集中進行資料備份,減少管理成本 • 降低對前端應用程式影響 • 提升備份效能,減少資料備份時間 After Before Disk Read/Write LAN LAN Backup Server Backup Server n Servers n Servers Backup Software or utility Disk Read/Write SAN Storage SAN Storage Tape Tape
如何評估備份的需求 • SAN Backup • LAN-free and Serverless backup • 80% 都是用 LAN-free Backup • 因為門檻較低,費用也較合理 • 為什麼 Serverless backup 不夠受歡迎 • 因為費用高,技術門檻較難 • Tape Backup vs. Disk Backup • Tape backup 資料備份與資料復原需要較久的時間 • Disk Backup 有兩種 Virtual Tape Library/ Asynchronous Replication • VTL 是用磁碟陣列來做資料備份,備份軟體一樣需要不變 • Asynchronous Replication 是做資料複製 • 資料 recover 快,可以做 remote boot • 搭配一套備份軟體就可以完成 Serverless backup,價錢便宜,技術門檻低
遠端資料複製 透過非同步/同步方式進行遠端資料複製 建立第二份資料 比備份更快速進行資料回復機制 Active Server Backup Server WAN/MAN Network Tape SAN SAN Tape Asynchronous / Synchronous Remote Data Replication Primary Site Remote Site
非同步資料複製 • 應用程式資料寫入主要機房之主要磁碟中 • 主要磁碟回復應用程式寫入完成 • 主要磁碟將資料透過網路傳送到遠端磁碟中 • 遠端磁碟回復主要磁碟寫入完成 Server 1 2 4 WAN/MAN Network Primary Site Remote Site 3 31
同步資料複製 • 應用程式資料寫入主要機房之主要磁碟中 • 主要磁碟將資料透過網路傳送到遠端磁碟中 • 遠端磁碟回復主要磁碟寫入完成 • 主要磁碟回復應用程式寫入完成 Server 1 4 3 WAN/MAN Network Primary Site Remote Site 2 32
資料複製差異比較 • 非同步(Asynchronous)資料複製 • 使用較少網路頻寬 • 對於應用程式效能影響較小 • 同步(Synchronous)資料複製 • 需使用較多網路頻寬 • 須等候遠端儲存設備回應才完成資料寫入 • 資料較接近災難發生前狀態
DAS的備份與異地複製做法 在地備份 異地複製 One Server Backup Software or tar/cpio utility WAN Backup Software or tar/cpio utility NAS or VTL Backup Tape DAS DAS n Servers Virtual Tape Backup Software WAN Backup Agent Bandwidth not enough ? Need consolidate! Backup Tape Backup Server NAS
NAS的備份與異地複製做法 在地備份 異地複製 n Servers File Read/Write WAN Backup Tape NAS Server NAS Server Replication Software Base on File or Disk Level Backup Software or tar/cpio utility NAS or VTL
SAN的備份與異地複製做法 n Servers Disk Read/Write WAN Backup Tape SAN Storage with Backup SAN Storage Replication Software LAN SAN Storage Backup Server n Servers Backup Software or utility Disk Read/Write SAN Storage Tape
異地備援衍生頻寬分析 • 單位時間之資料異動量 • 總資料量 • 資料增長量 • 資料反向頻寬保留 • Swap / Page file • 由其是如果晚上要做batch,其異動量更高
備援或備份之考量 • 在地備份、在地備援、異地備份、異地備援、異地互援 • 在地備份/備援 • 異地備份/備援 • 異地互援:從「異地機房只能備而不用」到「如何發揮異地機房的最佳效益」 • 要做異地備份或回復時,仍必須從營運不中斷的角度來評估,才能找到最適合自己的做法
什麼是CDP (Continuous Data Protection)概念 • 對 CDP 的定義 • 持續監控所有磁碟寫入動作 • RPO為持續的 • Continuous Data protection 一種技術可以將 RPO 以及 RTO 降低到接近零, 並且允許 file system 資料復原到某個時間點 (recovery point) • 不中斷備份機制(系統&資料庫) • 最短的回復時間 • 符合Disk 2 Disk 2 Tape的整體解決方案機制
HiNet CDP Service 的架構 • 備份軟體 • DiskSafe:硬碟備份 • FileSafe:檔案備份 • DB Agent:確保資料庫備份正確 • First time full backup, and then incremental backup • 備份路徑 • Ethernet網路 • Fibre Channel SAN網路 • 備份標的 • CDP Backup Appliance • 備份版本自動保存(TimeMark) • 資料復原 • Recovery CD + TimeView from any TimeMark • DiskSafe備份狀態下,可透過SAN Boot復原運作(包括OS, AP及Data) C:\ C:\ C:\ DB DB D:\ DiskSafe + DB Agent FileSafe LAN/SAN 在地備份 異地備份 CDP Backup Appliance
傳統DAS備份 vs. CDP Solution 在地備份 PC NB Server n Servers Backup Software DiskSafe + DB_Agent FileSafe DiskSafe Backup Agent LAN/SAN 在地備份 Backup Tape Backup Server 磁帶更換磁帶壽命磁帶管理備份Time WindowsTape Restore Testing Backup Tapes CDP Backup Appliance 異地備份 異地備份 CDP Backup Appliance 磁帶運送 43
Why CDP? PC NB Server • Client端備份軟體 • 由Client端主導備份 • 自動備份(週期性、近同步性) • DB Agent確保資料庫資料的可用性 • 資料不需進行集中化(不更動既有架構,降低IT人員的痛) • Backup Appliance集中備份管理 • RAID硬碟保護 • 多版本資料保護(TimeMark) • 多版本資料復原(TimeView) • Ethernet網路備份(可選FC架構) • 成本低廉、易於管理 • 簡易且快速的資料復原程序 • Recovery CD + TimeView • Remote Boot • 快速且簡易的備份資料驗證 • Mount TimeView Disk for rehearsal DiskSafe + DB_Agent FileSafe or DiskSafe FileSafe or DiskSafe LAN/SAN 在地備份 CDP Backup Appliance 異地備份 CDP Backup Appliance 45
DiskSafe不中斷資料保護機制 • Windows 主機安裝DiskSafe agent • 如有Database需另外安裝DB Agent • CDP Appliance 先提供一樣大小硬碟給主機 • 設定DsikSafe將本機硬碟為Source ,CDP為Target • 設定DiskSafe備份排程 • 持續更新機制 (Mirror/Sync) • 排程機制(Scheduled) • 可提供最多256份Snapshot機制 資訊室 C:\ C:\ C:\ NAS Server Mail Server SQL Server DB DB D:\ 2Gb HBA iSCSI HBA FC/Switch Gigabit Switch FalconStor CDP Applinance C:\ C:\ C:\ DB DB D:\ 9:00 9:00 9:00 10:00 TimeMark保護系統及資料256份版本 10:00 10:00 11:00 11:00 11:00
CDP 系統及資料回復方法 • 5分鐘快速回復機制(Boot form CDP Appliance) • Fibre Channel HBA • iSCSI HBA • 從CDP回復系統及資料庫至本機硬碟 • IP 回復機制 • 利用Recovery CD 來進行系統及資料回復 • 檔案回復機制 • 利用Snapshot 來回復單一檔案或目錄
系統快速回復(System reboot from CDP Appliance) • 發生災難 • 硬碟/RAID Card 壞 • 中毒&人為因素 • 系統重新開機,選擇遠端CDP的開機磁區 • 直接提供系統服務,中斷時間約5分鐘 • 可選擇任一時間版本開機 Crush 資訊室 NAS Server Mail Server SQL Server 2Gb HBA iSCSI HBA FC/Switch Gigabit Switch FalconStor CDP Applinance C:\ C:\ C:\ DB DB D:\ 9:00 9:00 9:00 TimeMark保護系統及資料256份版本 10:00 10:00 10:00 11:00 11:00 11:00
回復系統至本機硬碟(Restore from CDP Appliance) • 硬碟準備好 • 直接從CDP 建立新的Policy Resync 系統 • 不需重新安裝 • 作業系統 • 資料庫 • 應用程式 • 相關系統設定 • 選本機硬碟重新開機 • 調整硬碟Sync的機制 資訊室 C:\ NAS Server Mail Server SQL Server DB 2Gb HBA iSCSI HBA FC/Switch Gigabit Switch FalconStor CDP Applinance C:\ C:\ C:\ DB DB D:\ 9:00 9:00 9:00 TimeMark保護系統及資料256份版本 10:00 10:00 10:00 11:00 11:00 11:00
Recovery CD(reboot from Recovery CD) Crush • 發生災難 • 硬碟/RAID Card 壞 • 中毒&人為因素 • 利用Recovery CD開機設定網路IP • 連接至CDP Appliance • 進行回復並可選擇任一時間版本 • 回復時間約1分鐘1GB 資訊室 RecoveryCD NAS Server SQL Server Gigabit NIC Gigabit Switch FalconStor CDP Applinance C:\ C:\ C:\ DB DB D:\ 9:00 9:00 9:00 TimeMark保護系統及資料256份版本 10:00 10:00 10:00 11:00 11:00 11:00