300 likes | 394 Views
Reprises sur Pannes d'une BD. Witold Litwin. Pannes d'une BD. Matériel RAM ou CPU données sont perdues Disque données sont perdues ou corrompues Coupures de alimentation il faut "shut-down" la BD proprement Logiciel tout peut arriver. Reprises sur pannes. Panne régulière
E N D
Reprises sur Pannes d'une BD Witold Litwin
Pannes d'une BD • Matériel • RAM ou CPU • données sont perdues • Disque • données sont perdues ou corrompues • Coupures de alimentation • il faut "shut-down" la BD proprement • Logiciel • tout peut arriver
Reprises sur pannes • Panne régulière • reprise à partir du journal et du checkpoint • Panne catastrophique • reprise à partir d'une sauvegarde (copie globale) de la BD • A froid (règle générale) • l'accès des usagers à la base est arrêté • A chaud • l'accès à la base continue • préférable dans une BD répartie
Principes généraux de reprise • Une transaction = unité de reprise • l'effet de toute transaction commise doit être restauré • l'effet de toute transaction avortée doit être annulé • Un fichier dit journal (log file) doit survivre aux pannes sur une mémoire stable • bande ou disque CT OP AT CT ChP BT temps
Articles du journal • TID (début) • TID (commit/abort) • TID, Op, TupleId, BeforeImage, AfterImage • BeforeImage = Null pour un Insert • AfterImage = Null pour un Delete • Log physique contient l'image-après physique • Log logique permet de le déduire de Op • Checkpoint record • timestamp t • copie du cache au moment t • TIDs des transactions en cours au moment t
Reprise à partir du journal • Les checkpoints sont pris aux intervalles réguliers • Tout article du journal est écrit avant l'op. corresp. • write-ahead protocol • Et quand une reprise est à faire:
Algo général de reprise • on trouve le dernier checkpoint • on restaure le cache • on crée deux listes vides UNDO et REDO • On lit le journal en arrière, et la liste des TIDS dans l'article checkpoint : • si Commit T, alors REDO := REDO + T ; • si Abort T, alors UNDO := UNDO + T ; • si Begin T et T REDO, alors UNDO := UNDO + T ; • Défais les transactions dans UNDO • Refais les transaction dans REDO
C T1 T2 A T6 C T3 C T4 T5 panne checkpoint REDO = ? UNDO = ?
Journalisation & cache • L'algo de reprise discuté ne marche que si toute opération est dans le journal avant d'être sur le disque • Mais, écrire chaque opération dans le journal tout-de-suite est cher • On utilise le log-buffer et on écrit sur le disque dans le journal • à chaque commit • quand le log-buffer est plein
Journalisation & cache • Problème: • la gestion du cache (ex. LRU) pourrait écrire une page de données non-commises sur le disque avant le log-buffer • le log-buffer pourrait se perdre durant la panne • l'algo de reprise ne marcherait plus • Solution typique (une variante de log-ahead) • LSN - Log Sequence # est donné à chaque enr. du journal • on n'écrit une page de données du cache sur le disque que si • LSN-max dans la page < LSN-min du log-buffer
Tolérance aux pannes • Possibilité de fonctionnement malgré les pannes • en général avec une reprise à chaud • Approche traditionnelle • duplication en miroir du matériel et des données • avantage suppl. : le partage de charge • ex. Tandem Non-Stop SQL
Tolérance aux pannes • Duplication des CPU avec l'accès croisé aux disques est difficile à réaliser sur le matériel de grande diffusion • Deux techniques en vogue pour ce matériel • enregistrements en miroir sur les disques • RAID 1 • enregistrements partiellement redondants • RAID 2,..
Miroirs • Tout enregistrement est fait en n - copies sur des disques indépendants • par le SGBD • par le SGF • le SGBD n'écrit que la copie primaire • le SGF propage l'enregistrement aux copies • Les lectures sont réparties sur les copies • pour maximiser la charge possible • en général on reparti l'accès uniformément • n copies permettent à la BD de survivre sans perte toute panne simultanée de (n - 1) volumes n = 2 en général
Miroirs • Si une panne arrive à un volume, alors on lit une autre copie de l'enregistrement • Le gestionnaire de reprise recrée alors le volume en panne sur un autre disque • en général à chaud
Miroirs • Coût • n fois plus d'espace mémoire • n fois plus d'accès en MAJ • temps allongé d'une transaction • si le SGBD gère tous les accès • une incohérence temporaire entre les copies • si le SGF gère les copies • Avantage • probabilité de panne totale décroît en facteur pn • les perf. I/O en lecture croient en facteur n • si le CPU n'est pas saturé
RAID • Redundant Arrays of Independent Disks • Plusieurs disques de petite taille et de grande diffusion • coûtent moins qu'un grand disque d'une même capacité • offrent plus de parallélisme • sont plus fiable dans l'ensemble • R. Katz & D. Patterson, UC Berkeley • RAID-1 - les miroirs • RAID-2 - voir la littérature
RAID-3,4,5 • RAID-3 • bit-interleaving + parity • RAID-4 • block-interleaving + parity • RAID-5 • block-interleaving + rotated parity • RAID-6 • dual-redundancy • invention commerciale
RAID-4 Segment de parité Segments de données 101... 001... 111... 100... 111... ... ... Write le tuple 101... 001... 111... 100... ...
RAID-4 Segment de parité Segments de données 101... 001... 111... 100... 111... ... ... Read le tuple 101... 001... 111... 100... ...
RAID-4 Segment de parité Segments de données 101... 001... 111... 100... 111... ... ... Read 101... 001... 111... 100... le tuple
RAID-4 Segment de parité Segments de données 001... 111... 100... 111... Reconstruction sur un disque nouveau (spare disk)
RAID-4 Segment de parité Segments de données spare disk 101... 001... 111... 100... 111... Reconstruction sur un disque nouveau (spare disk)
RAID-5 S1,1 S1,2 S1,3 S1,4 P1 S2,2 S2,3 S2,4 P2 S2,1 P3 S3,1 P4 P5 Segments de données Segment de parité
RAID • Avantages RAID - 3 / RAID-1 • moins de mémoire additionnelle • combien ? • I/O + rapide • - de transfert • parallélisme • moindre coût • disques bon marchés • Limitation (peu importante en pratique) • La BD ne survie que la panne d'un volume à la fois Technologie en vogue
Multiordinateurs • On peut stocker les données redondant d'une BD sur plusieurs sites • même distants • données d'une SDDS • Structure de Données Distribuée et Scalable • Une meilleure protection contre une panne catastrophique • explosion, panne de courant, grève... • Une meilleure sécurité • il peut être nécessaire de pénétrer plusieurs sites pour avoir une donnée
Multiordinateurs • Deux SDDSs haute-disponibilité connues • LH*M stocke la BD en miroirs • LH*S stocke la BD en segments, comme RAID • mais en général en RAM distribuée • et sur un nombre scalable de sites • securité accrue • l'accès pirate à un site amène des données partielles • un bit sur n si l'on distribue sur n segments • Un domaine de recherche • W. Litwin, M.-A. Neimat. High-Availability LH* Schemes with Mirroring. COOPIS-96, Bruxelles, Juin 1996. • W. Litwin, M-A Neimat. Scattered LH* files for high availability and security. Tech. Rep HPL & GERM, Sept. 1995
Conclusion • Les SGBDs peuvent tomber en panne • La sauvegarde et reprise fiable d'une BD est un problème capital pour un SGBD • Toute donnée commise doit être préservée • On peut restaurer les données à partir du journal • On peut aussi prévenir la perte de données par le stockage redondant • RAID tout particulièrement • et SDDS haute-disponibilité