Linux

High Availability & Linux Projektgruppe SAP R/3 auf Linux Cluster

Gliederungdes Vortrages • Einleitung & Begriffe • Reliability & Availability • Performance • Strategien • Turbo Linux Cluster • Oracle 8i R2 Projektgruppe SAP R/3 auf Linux Cluster

Single Points of Failure (SPOF) Ein Single Point of Failure bewirkt den Ausfall des Gesamten Systems - Ein einfaches Netzteil - Ein einfaches Netzwerk oder Netzwerkkarte - Ein einfacher SCSI-Adapter oder Kabel - Eine ungespiegelte Festplatte - Ein einfacher Computer-Raum - Ein einzelnes Gebäude Quelle:Linux HA Vortrag German Unix User Group Projektgruppe SAP R/3 auf Linux Cluster

Der Weg ... zu hoch verfügbaren Systemen: - Alle Single Points of Failure aufspüren - Wo nötig redundante Komponenten einsetzen - Automatische Fehlererkennung (Umschaltung) - Software-Updates müssen zur Laufzeit eingespielt werden - Administration darf das System nicht (ganz) unterbrechen Quelle:Linux HA Vortrag German Unix User Group Projektgruppe SAP R/3 auf Linux Cluster

High Availiability/Fault Tolerance Hoch verfügbare Systeme können teilweise ausfallen, sind aber so aufgebaut, daß sie in kürzester Zeit wieder komplett laufen. - Typische Ausfallzeiten liegen unter 5 Minuten - Es treten keine Datenfehler auf - Transaktionsorientierte Software verliert keine Daten Fehlertolerante Systeme sollten überhaupt nicht ausfallen, sind aber sehr teuer - Spezielle Hardware wird benötigt - Alles muß redundant ausgelegt werden - Computer-Räume und Gebäude sind trotzdem SPOF‘s Quelle:Linux HA Vortrag German Unix User Group Projektgruppe SAP R/3 auf Linux Cluster

Anwendung von HAC / HPC High Performance Clustering (HPC) - Grand Challenge Applications - Hohe Geschwindigkeit - Anwendung High Availiability Clustering (HAC) - For Mission Critical Applications - Hohe Verfügbarkeit - Anwendung Projektgruppe SAP R/3 auf Linux Cluster

$10.000.000 $1.000.000 $100.000 $6.500.000 $10.000 $2.600.000 $1.150.000 $113.000 Kosten bei System-Ausfall Financial Brokerage Operations Financial Credit Card Sales Media Pay-per-View Retail Home Shopping (TV) Retail Catalog Sales Transportation Airline Reservations Average Cost per Hour of Downtime Quelle:Compaq „Architecting and Deploying High-Availability Solutions“ Projektgruppe SAP R/3 auf Linux Cluster

Avaliability Relevanter Bereich Internet/Intranet Company Alpha Router HUB Netzwerk HDD Service Server Projektgruppe SAP R/3 auf Linux Cluster

Beispiel zur Berechnung der Reliability 91,6 83,9 91,6 Gerät MTBF Reliability %p.a. Netzwerk 100.000 Server 50.000 HDD 100.000 Gesamt: ?? 24.955 70,3 MTBF= Mean Time Between Failure R(t) = e-at a=1/MTBF Auf ein Jahr bezogen: 24 Stunden * 365 Tage= 8760 Stunden R(8760) = e - 0,00001*8760 = 91,6 % Quelle: Distributed Information Systems , Erroly Simon Projektgruppe SAP R/3 auf Linux Cluster

Avaliability Relevanter Bereich Internet/Intranet Company Beta Router Server A Backup A HUB HDD (gespiegelt) Netzwerk Standby Interface Service Interface Projektgruppe SAP R/3 auf Linux Cluster

Berechnung der Reliability Reliability no backup with backup Netzwerk 91,6 % Server 83,9 % HDD 91,6 % Gesamt: 70,3 % 99,29 % 97,40 % 99,29 % 99,88 % Rbackup = 1-(1 - Rno backup)2 Rbackup = 1- (1 - Netzwerk )2 = 1- ( 1- 0,916)2 = 0,9929 Roverall = 1-(1 - R1) (1 - R2)*...*(1 - Rn) Roverall = 1- (1 - Netzwerk ) (1 - Server ) (1 - HDD) = 1 - (1 - 0,916)(1 - 0,839)(1 - 0.916) = 0.9988 Quelle: Distributed Information Systems , Erroly Simon Projektgruppe SAP R/3 auf Linux Cluster

Berechnung der Availability MTTR= Mean Time to Repair A = MTBF / MTBF + MTTR A(t) = (b / a+b) + (a /a+b)* e - (a+b)t Aoverall = 1-(1-A1)(1-A2)*...*(1-An) MTBF MTTR Availability System Alpha 24.955 2 (No Backup) System Beta 7.295.619 !! 2 (with Backup) 99,9919862 % 99,9999726 % bei Alpha: 99,9919 % >>> bei 100.000 Anfragen ist das System 81 mal unavailable bei Beta: 99,9999 % >>> bei 100.000 Anfragen ist das System nur 1 mal unavailable Quelle: Distributed Information Systems , Erroly Simon Projektgruppe SAP R/3 auf Linux Cluster

Main Bottleneck (Flaschenhals) Annahmen: - 1 Client request/second = 6 packets per/ second network traffic - 2 disk I/O per second on a server/client Estimated maximum throughput = 25 client requests/second Estimated main bottleneck = Server disk I/O Quelle: Distributed Information Systems , Erroly Simon Projektgruppe SAP R/3 auf Linux Cluster

Disk A Disk B Disk C Disk A Disk B RAID Redundand Array of Inexpensive Disks Techniken: Daten -striping -mirroring -parity Daten Projektgruppe SAP R/3 auf Linux Cluster

Striped Disk Array without Fault Tolerance min. 2 Harddisks high I/O performance very simple design not a "True" RAID because it is NOT fault-tolerant the failure of just one drive will result in all data in an array being lost Should never be used in mission critical environments RAID Level 0 • Used for: • Video Production and Editing • Image Editing • Pre-Press Applications • Any application requiring high bandwidth Projektgruppe SAP R/3 auf Linux Cluster

100% redundancy of data means no rebuild of data is necessary in case of disk failure, just a copy to the replacement disk Simplest RAID storage subsystem design Highest ECC (Error Checking/Correction) disk overhead of all RAID types (100%) – inefficient Hardware implementation recommendend RAID Level 1 Mirroring and Duplexing For Highest performance, the controller must be able to perform two concurrent separate Reads per mirrored pair or two duplicate Writes per mirrored pair. min. 2 Harddisks Used for: Accounting Payroll Financial Any application requiring very high availability Projektgruppe SAP R/3 auf Linux Cluster

min 3 Harddisks highest Read data transaction rate medium Write data transaction rate low ratio of ECC (Parity) disks to data disks means high efficiency most complex controller design difficult to rebuild in the event of a disk failure (as compared to RAID level 1) RAID Level 5 • Used for: • File and Application servers • Database servers • WWW, E-mail, and News servers • Intranet servers • Most versatile RAID level Independent Data disks with distributed parity blocks Each entire data block is written on a data disk; parity for blocks in the same rank is generated on Writes, recorded in a distributed location and checked on Reads. Projektgruppe SAP R/3 auf Linux Cluster

Strategien Internet/Intranet Company Beta Router Backup A Server A HUB HDD (gespiegelt) Netzwerk Projektgruppe SAP R/3 auf Linux Cluster

Idle Standby Quelle:Linux HA Vortrag German Unix User Group Projektgruppe SAP R/3 auf Linux Cluster

Mutual Takeover Quelle:Linux HA Vortrag German Unix User Group Projektgruppe SAP R/3 auf Linux Cluster

Software Komponenten Heartbeat Watchdog Cluster Manager Daemon Event Scripts Configuration Tool Syslog Hooks Quelle:Linux HA Vortrag German Unix User Group Projektgruppe SAP R/3 auf Linux Cluster

Der Turbo-Linux Cluster Projektgruppe SAP R/3 auf Linux Cluster

TurboCluster Architecture Service Cluster Advanced Traffic Manager Projektgruppe SAP R/3 auf Linux Cluster

Der Turbo-Linux Cluster Projektgruppe SAP R/3 auf Linux Cluster

Oracle 8i R2 Cluster Solution Quelle:Oracle Projektgruppe SAP R/3 auf Linux Cluster

Oracle 8i Cache Strategie Quelle:Oracle Projektgruppe SAP R/3 auf Linux Cluster

Oracle 8i Load Balancing Quelle:Oracle Projektgruppe SAP R/3 auf Linux Cluster

Oracle Failover Feature Quelle:Oracle Projektgruppe SAP R/3 auf Linux Cluster

ENDE Der Referent sagt Vielen Dank! Projektgruppe SAP R/3 auf Linux Cluster

Linux

Linux

Presentation Transcript

Linux

Linux

Linux

Linux

Linux