280 likes | 439 Views
Data Domain. DeDuplication Speicher Systeme Gründung: 2001/ Hauptsitz in Santa Clara (CA) / +600 Angestellte Umsatz: 2006 ca. $52 M. / 2007 ca. $122 M. / 1 HJ 2008 ca. $114 M. Weltweite Support Infrastruktur (1.630 Stützpunkte) + 5.500 installierte Systeme weltweit + 2.100 Kunden
E N D
Data Domain • DeDuplication Speicher Systeme • Gründung: 2001/ Hauptsitz in Santa Clara (CA) / +600 Angestellte • Umsatz: 2006 ca. $52 M. / 2007 ca. $122 M. / 1 HJ 2008 ca. $114 M. • Weltweite Support Infrastruktur (1.630 Stützpunkte) • + 5.500 installierte Systeme weltweit • + 2.100 Kunden • + 600 Petabyte Daten • Zeitlinie 2005 2003 2004 2006 2007 2008 First Dedupe NAS First Dedupe Gateway Largest Dedupe Array First Dedupe Volume Replication First Dedupe Directory Replication First Dedupe VTL First Dedupe Nearline Storage
COS Tape Automation Marktbetrachtung: Capacity Optimized Storage (COS) 2006 Revenues $M “When viewed through the data deduplication lens, Data Domain took a lion’s share of the market with 53% of the storage with data deduplication in 2006, according to our estimates.” Source: Arun Taneja, SearchStorage.com, May 2, 2007 Source: Taneja Group - Next Generation Data Protection Market Profile, December 2006 Data Domain has enjoyed the market leadership position in the midrange data deduplication space for at least two years now. We believe that Data Domain today continues to hold a 9 to 12 month technology lead over its nearest competitor. Meanwhile the company is aggressively expanding its products both up and down the performance spectrum. Source: RBC Capital Markets Corp. - Enterprise Systems Perspectives Deduplication: Proliferation and Confrontation Ahead, June 2008
Data Domain – Hauptmerkmale • Integration: Einfache Einbindung in bestehende Umgebungen • Technologie: DeDuplizierung • Sicherheit: “Data Invulnerability” Architektur • Effizienz: Replikation für DR
Integration CIFS, NFS, NDMP OST FC = VTL Replikation 3U (15) 500 GB SATA drives RAID-6 NVRAM N+1 Fan 1 - 4 Ports 5.4 to 21.6 TB with Shelves File System (Gateway: EMC, HDS, Nexsan, Pillar, NetApp, 3PAR, LSI, IBM, HP) … Nearline Applikationen
Pointer Technologie im Detail D7DC8B93 3FB0734C 5B2B36AC842194A3214DCF8947 3FB0734CD7DC8B935B2B36AC842194A3214DCF8947
Pointer Technologie im Detail 3FB0734C 5B2B36AC842194A3214DCF8947 5B2 B36AC8421 3FB0734C 94A3214DCF8947
Technologie im Detail A3214DCF8 5B2 947 94 3FB0734C 94A3214DCF8947
Technologie im Detail 3FB0734C5B294947 5B2 947 94 3FB0734C
Variable Segmente vs. Blocklevel • Segmemte von variabler Größe haben entscheidende Vorteile ! • Feste Blockgröße versagt bei den meisten Veränderungen Variable Startpunkte verbessern das Auffinden von Dubletten Startpunkte Redundante Segmente
Thurs Incr A C K Friday Full Backup Second Friday Full Backup Mon Incr A B H A B C D A E F G B C D E F L G H Weds Incr Tues Incr C E G B I J A B C D E F G Daten-DeDuplizierungseffekt BACKUP DATA LOGICAL ESTIMATED PHYSICAL REDUCTION FRIDAY FULL 1 TB 2- 4x 250 GB Monday Incr 100 GB 7-10x 10 GB Tuesday Incr 100 GB 7-10x 10 GB Wednesday Incr 100 GB 7-10x 10 GB Thursday Incr 100 GB 7-10x 10 GB 2nd FRIDAY FULL 1 TB 50-60x 18 GB TOTAL 2.4 TB 7.8x 308 GB H I J K L
Daten-Deduplizierungseffekt BACKUP DATA LOGICAL ESTIMATED PHYSICAL REDUCTION Week 1 Jan 31 8.4 TB 11x 714 GB Week 2 Feb. 28 12.8 TB 14x 890 GB Week 3 März 31 15.2 TB 16x 940 GB Month 1 April 7 18.0 TB 18x 980 GB Month 2 April 14 19,4 TB 18x 1050 GB Month 3 April 21 21.5 TB 19x 1130 GB Month 4 April 28 23.4 TB 20x 1178 GB TOTAL 23.4 TB 20x 1178 GB Längere Aufbewahrungszeiten mit der selben Diskkapazität !
Online-DeDuplizierung • Online Erkennung von Redundanzen IO basierender Prozess benötigt CPU & RAM • Leseverifizierung der Daten direkt beim Schreiben • Asynchrone Replikation der Daten während dem Backup • 1 X Schreiben auf primärer DD; 1 x Lesen für Replikation
Online-DeDuplizierung 4 TB 4 TB 4 TB Backup Replikation • Kein zusätzlicher Plattenbedarf geringere Stromkosten • Keine Software-Upgradegebühren für z.B. NetWorker notwendig • Replikation kann unmittelbar mit dem Backup angestoßen werden DR fähig
Online versus Post - DeDuplizierung • Festplatten I/O basierende Architektur • Backup erfolgt direkt auf VTL Device und wird in Native Format abgelegt • Wenn genügend System Ressourcen vorhanden sind beginnt die Deduplizierung • Nach Abschluss der Deduplizierung beginnt die Replikation • Kritisch im Bezug auf die Überwachung des Systemzustands • Kritisch im Bezug auf die Systemperformance und Datenkonsistenz • Benötigt zusätzliche Diskkapazität • 1 x Schreiben Native; 1 x Lesen für DeDup; 1 x schreiben DeDup; 1 x Lesen für Replikation
Post-DeDuplizierung 10 TB 4 TB 4 TB 4 TB Backup DeDup Replikation • Zusätzlicher Platzbedarf höhereStromkosten • Zusätzliche Software-Upgradegebühren für z.B. NetWorker notwendig • Extrem I/O-lastig • Anfällig für Datenkonstistenzprobleme / hohe Wahrscheinlichkeit für Diskfragmentierung • Replikation kann erst nach Post-Deduplizierung angestoßen werden DR fähig ?
Klassische Lösungen haben Nachteile gegenüber CPU bassierender DeDuplizierung Mehr Geschwindigkeit nur durch mehr Festplatten Verschwendung von Plattenplatz Höherer Managementaufwand / Kosten Performance: CPU vs. HDD Source: http://seagate.com/docs/pdf/whitepaper/economies_capacity_spd_tp.pdf
Data Domain FC Drives: 2x SATA Geschw. 3-5x SATA Preis 10 50 100 200 Durchsatz: CPU-centric Design Durchsatz SATA Drives 300 MB/sec Most Dedupe Vendors 100 MB/sec 50 MB/sec Laufwerke • Mit jeder Verdopplung der # “Cores” erhöht sich bei DD der Durchsatz um ~50% • SISL™ (Stream Informed Segment Layout) CPU-centric Design
Recovery: “Data Invulnerability” Architektur Datenüberprüfung Check-Summe DeDup, auf Platte schreiben Verifizieren Selbstheilendes file system Cleaning Defrag Verifizieren • Zusätzlicher Schutz • RAID-6 • NVRAM • Snapshots Trust but verify – hope is not a strategy !
home DIR A Replikation: WAN–Effizienz 95- 99% Bandbreitenreduzierung 1- 5% 1- 5% WAN Backup Daten 1- 5% home Ziel: Data Center Hub Backup Daten Backup Daten Backup Daten Quelle: Remote Sites Echtes DR; reduziert WAN–Kosten; verbessert SLAs !
Backup Daten Archiv Daten Backup Daten WAN Archiv Daten Backup Daten • SnapShot für Datenintegrität • Effiziente Replikation für DR Archiv Daten home Einheitliche Plattform für Archiv- und Backupdaten • Archiv und Backup auf einem System • eine Plattform für mehrere Applikationen
Skalierbarste Inline Deduplication Systeme DD500 Appliance Series Gateway Series DD690g DD580g DD690 System DDX Array Series DD120 Für Außenstellen Bis zu 16 Kontroller interner oder externer Storage Replicator, VTL, Open Storage, Retention Lock Software Optionen
Data Domain – 10 Vorteile auf einen Blick ! • Problemlose Einbindung in die vorhandene Backup-Software und Vereinfachung des Managements • Datenreduktion von über 90% möglich (variables SI auf Segmentebene) • Reduzierung von Wiederherstellungszeiten durch viel längere Aufbewahrung der Backupläufe auf Disk • Extreme Datensicherheit durch eingesetzte Technologie z.B. RAID 6, Replikation, permanente Überprüfung der Daten auf Korruption (physisch und logisch) • Einfache Umsetzung von DR-Konzepten durch Replikation • Außenstellen mit Replikation über WAN-Leitung anbinden • Performantes Backup/Recovery gerade auch in unternehmenskritischen Umgebungen und bei Datenbanken • Optimal auch in virtuellen Umgebungen mit VMware • Kosten für weniger benötigte Dokumente reduzieren (Speicherung von Archiv- und Backup-Daten auf der gleichen Data Domain Appliance) • Green-IT: drastische Reduktion der Stromkosten, des Platzbedarfes und der Klimakosten
Was beim Thema DeDup berücksichtigt werden sollte • Ist die Datenstruktur DeDup fähig ? • Gibt es Referenzen mit meiner Applikation ? • Können Außenstellen mit eingebunden werden ? • Kann ein Leistungsfähiges DR–Konzept erstellt werden ? • Technologie: Online oder Postprozess / CPU- oder Platten-basiert / fixe oder variable Blöcke? • VTL oder Filesystem ? • Managementaufwand & Sicherheit des Systems (bspw. Metadaten, Datenkorruption, Selbstheilung, RAID-Typ, Gegenmaßnahmen zur Fragmentierung) ? • Implementierungsaufwand ?
Fortune 1000 Kunden Source: Data Domain
Kunden in Deutschland EMC NetWorker Gateway mit EMC Clariion Speicher 4 TB Daten Oracle, Mail und Flat File 4 Wochen retention SAN
Kunden in Deutschland “Data Domain hat unsere Erwartungen mehr als erfüllt, in dem bei hoher Performance sehr gute DeDuplication Werte erreicht werden und der Betrieb absolut problemlos und zuverlässig läuft” (Peter Langwieder)
Kunden in Deutschland “Die Betreuung und der Know-How Transfer … hat sehr gut funktioniert und durch den Test konnte schon im Vorfeld die hervorragende Funktionsweise der DeDuplication der Data Domain Lösung ermittelt werden. Dies hat sich mittlerweile im produktiven Praxisbetrieb bestätigt.” (Ljudevic Katovic)