250 likes | 363 Views
Gestion de Fichiers. Stockage Secondaire: Bandes Magnétiques et CD-ROMs. Plan du cours d’aujourd’hui. Description des systèmes à bande magnétique Organisation des données sur bandes à neuf pistes Estimation de la longueur de bande requise Estimation du temps de transmission des données
E N D
Gestion de Fichiers Stockage Secondaire: Bandes Magnétiques et CD-ROMs
Plan du cours d’aujourd’hui • Description des systèmes à bande magnétique • Organisation des données sur bandes à neuf pistes • Estimation de la longueur de bande requise • Estimation du temps de transmission des données • Disques versus bandes magnétiques • Organisation physique des CD-ROMs • Avantages et désavantages des CD-ROMs • Le voyage d’un octet • Gestion de la mémoire tampon • Entrée/sortie en unix (voir tutorial)
Systèmes à bande magnétique • Pas d’accès direct, mais accès séquentiel rapide • Compactes, résistantes aux conditions environementales difficiles, facile à sauvegarder et transporter, meilleur marché que les disques • Autrefois utilisees pour données d’applications • Désormais tout d’abord utilisées comme stockage d’archives • StorageTek (http://www.storagetek.com) est un leader mondial en système de BMs
Systèmes à bande magnétique (suite) • Exemples de cartouches (“cartridge”) de BMs: ModèleCapacitéTaux de transfers StorageTek Redwood SD3 50 GB 10 MB/sec StorageTek SDLTP 110 GB 11 MB/sec StorageTek VOLSER 200 GB ?? MB/sec • Exemples de lecteurs (“tape drive”) de cartouches: - TimberLine 9490 - T9840B - T9840A - T9940B • Plus de détails disponibles sur le site de StorageTek
Utilité des systèmes à BMs • Une grande proportion d’information critiques d’une entreprise est stockée dans des sytèmes de messagerie électronique. • Un systèmes de messagerie typique de 3000 utilisateurs génère jusqu’à un teraoctet de données par an ! • Un admistrateur de sytème peut prendre jusqu’à 5-6 heures par semaines juste pour retrouver de vieux courriels, et environ 8 heures pour sauvegarder les couriels courants. • Ainsi donc des systèmes d’archivage performant sont requis pour résoudre ce problème de flots de courriels. Et les BMs sont souvent utiles ici.
Organisation des donnéessur BMs à neuf pistes • Sur une bande la position logique d’un octet dans le fichier correspond directement à sa position physique relative au début du fichier. • La surface d’une bande typique est un ensemble de piste paralleles (Fig. 3.11). • Chaque piste représente une séquence de bits. Ces bits correspondent à 1 octet, plus un bit de parité. • Un octet est une tranche de BM de largeur 1 bit appelée cadre (“frame”).
Organisation des données sur BMs à neuf pistes (suite) • En parité impaire, le bit supplémentaire prend la valeur qui rend le nombre total de bits égal à 1 dans le cadre impair. Ceci est fait afin de vérifier la validité des données. • Les cadres sont organisés en des blocs de données de taille variable et séparés par des espaces inter-blocs (qui sont assez long pour permettre au système à bande de s’arreter et repartir).
Estimer la longueur de bande requise • Soit b = longueur physique d’un bloc de données g = longueur d’un espace interbloc n = nombre de blocs de données s = montant d’espace requis pour stocker un fichier avec un nombre donnée d’enregistrements • Nou avons: s = n X (b + g) • b est calculé comme suit: b = (taille d’un bloc (octets par bloc))/ (densité de la bande (octets par pouce))
Estimer la longueur de bande requise (suite) • Le nombre d’enregistrements sauvegardés dans un bloc physique s’appelle le facteur de bloc(“blocking factor” -- bf). • La densité d’enregistrement effective est une mesure générale calculant l’effet d’un choix de taille de blocs différents: erd = (# octets par bloc) / (# pouces requis pour stocker un bloc) • Conséquence: l’utilisation de l’espace (erd) dépend de la taille relative des blocs de données et des espaces interblocs: plus grand est le bf, et plus grand sera le erd.
Estimer le temps de transmission • Taux de transmission nominal des données: nr =(densité de la bande (bpi)) X (vitesse de la bande (ips)) • En prenant aussi les espaces interblocs en consideration, on obtient letaux de transmission effective: er = (erd (bpi)) X (vitesse de la bande (ips)) • Autres facteurs influant sur la performance: taille de l’espace interbloc, vitesse de la bande, densité de stockage, etc. • Cependant, la taille du bloc est le facteur majeur car il est sous contrôle de l’utilisateur
Disque versus bande magnétique • Autrefois: aussi bien les disques que les BMs étaient utilisés pour le stockage secondaire. Les disques étaient préferés pour l’accès direct et les BMs étaient meilleures pour l’accès séquentiel. • Maintenant (1): Les disques sont principalement utilisés pour le stockage secondaire, à cause du coût décroissant des disques et de la mémoire primaire. • Maintenant (2): Les BMs sont utilisées pour le stockage tertiaire car elles sont très bon marché et car il est facile de transferer de large fichiers ou ensembles de fichier entre une BM et un disque.
Introduction aux CD-ROMs • Un seul disque peut contenir plus de 18 gigabytes de données (~ 12000 livres de la taille de note manuel). • Un CD-ROM est un disque optique de lecture seule. C’est-à-dire, c’est un medium de publication plutôt qu’un pour stockage de données pour entrée et sortie comme les disques magnétiques. • Avantages des CD-ROMs: grande capacité de stockage, bon marché, durée. • Désavantages des CD-ROMs: performance de recherche (seek) très lente (entre ½ seconde et 1 seconde). D’où des structures de fichiers intelligentes sont absolument indispensables ici.
Organisation physique des CD-ROMs • Les CD-ROMs sont des descendants des disques compacts audio. Comme écouter de la musique est une tâche séquentielle, elle ne demande pas d’accès au hazard (random accès) aux données rapide. • Lire les creux et les plateaux (“pits and lands”): Les CD-ROMs sont reproduits a partir d’un disque maître en verre dont la couverture peut être changée par un rayon laser. Lorsque la couverture est developpée, les regions touchees par le rayon laser deviennent des creux (“pits”) tout au long de la piste suivie par le rayon. Les régions inchangées entre les creux sont des plateaux (“lands”).
Organisation physique des CD-ROMs (suite) • Pour lire la copie imprimée du disque, un rayon laser est projetée sur la piste qui se déplace sous le rayon. Les creux dispersent le laser, mais les plateaux le réflettent presque entièrement jusqu’à sa source. L’alternance de réflection de grande et petite intensité est utilisée comme signal pour reconstruire l’info. digitale originale. • Les 1’s sont representés par la transition d’un creux à un plateau et vice-versa. Les 0’s sont representés par le lapse de temps entre les transitions. Plus il y a de temps entre deux transitions, plus il y a de 0s à cet endroit précis des données.
Organisation physique des CD-ROMs (suite) • Dans ce procedé, il n’est jamais possible d’avoir deux 1s adjacents: les 1s sont toujours séparés par des 0s. En fait, à cause des limitations physiques du procedés, il doit toujours y avoir au moins deux 0s entre une paire de 1s. • Les motifs non traités de 1s et 0s doivent être traduits afin d’obtenir des motifs de huit bits (un motif de 1s et de 0s) qui forment les octets des données originales.
Organisation physique des CD-ROMs (suite) • L’encodage EFM (“Eight to Fourteen Modulations”) transforment les octets de données originaux en des motifs étendus de 14 bits qui peuvent être représentes dans les creux et les plateaux du CD (Voir Fig. 3.12 pour un exemple – “look up table”). • Puisque les 0s sont representés par la longueur de temps entre deux transitions, le disque doit revolver à une vitesse précise et constante. Ceci affecte négativement le temps de recherche d’un CD-ROM.
CLV versus CAV • Les données sur un CD-ROM sont sauvegardées dans une seule piste organisée en spirale. Ceci permet aux données d’être rangées de façon aussi serrée que possible puisque tous les secteurs ont la même taille (qu’ils soient au centre ou sur les bords du disque). • Dans l’”arrangement regulier” (sur un disque magnétique), les données sont rangées de manière plus dense au centre que sur les bords. De l’espace est ainsi perdu sur les bords. • Puisque la lecture des données nécessite un passage de la piste sous le systeme optique à une vitesse constante, le disque doit tourner plus lentement lorsque le bord du disque est lu que lorsque son centre est lu.
CLV versus CAV (suite) • Le format CLV a une part importante de responsabilité dans la mauvaise performance de recherche des unités de CD-ROMs: il n’y a pas de moyen direct de saute d’un endroit à un autre. Une partie de ce problème est la nécessite de changer de vitesse de rotation. • Afin de lire les informations sur les addresses qui sont sauvegardées sur le disque avec les données de l’usager, il faut faire tourner la piste sous l’oeil optique à la bonne vitesse. Mais afin d’ajuster la vitesse, on doit être capable de lire l’information sur les addresses pour savoir où ces données sont placées. Comment se debarasser de ce cercle vicieux? Par essais et erreurs Ceci ralentit la performance du disque.
L’Addressage • Différent de la méthode de disque magnétique. • Chaque seconde du temps d’écoute d’un CD est divisé en 75 secteurs. Chaque secteur contient 2 Kilooctets de données. Chaque CD-ROM contient au moins une heure d’écoute. • Le disque est capable de contenir 60 min * 60 sec/min * 75 secteurs/sec * 2 KiloOctet/secteur = 540,000 KiloOctets. • Il est, en fait, souvent possible de sauvegarder plus de 600,000 Kilooctets. • Les secteurs sont addressés par min:sec:secteur. Par exemple: 16:23:34.
Avantages/désavantages des CD-ROMs • Performance de recherche: três mauvaise • Taux de transfer des donnees: pas trop mauvais, pas excellent non plus; acceptable • Capacité stockage: excellente • Bénéfice: cela nous permet de construire des indexes et d’autres structures de support qui peuvent nous aider à surmonter certaines des limitations associées avec la mauvaise performance des CD-ROMs • Accès de lecture seulement: la structure du fichier ne changeant pas, il est facile d’optimiser la gestion des fichiers • Pas besoin d’interaction avec l’usager
Le Voyage d’un Octet Que se passe-t-il lorsque une instruction de programme comme write(textfile, ‘P’, 1) est executée? Comment un octet destiné être tocké sur un disque magnétique passe-t-il du programme à son emplacement définitif sur le disque? • L’instruction appelle le système d’exploitation (OS) qui surveille l’opération. • Le gestionnaire de fichiers (s’occuppe de l’entrée/sortie): • vérifie que l’opération est permise • trouve la location physique à laquelle l’octet sera mis en stockage (l’unité de disque, le cylindre, la piste, le secteur) • regarde si le secteur contenant le ‘P’ est déjà en mémoire (sinon, appelle la mémoire tampon Entrée/Sortie). • met ‘P’ dans la mémoire tampon Entrée/Sortie • garde le secteur en mémoire pour voir si d’autres octets vont aller dans le même secteur.
Le Voyage d’un Octet (suite) • Le processeur d’entrée/sortie attend qu’un chemin de données externe se libère (l’unité centrale est plus rapide que les chemins de données, il y aura des delais) • Controlleur de disque: • Le processeur d’entrée/sortie demande au controleur de disques si l’unité de disque est prête à l’écriture. • Le controleur de disque donne des directives à l’unité de disque pour qu’elle déplace sa tête de lecture/écriture jusqu’à la bonne piste et le bon secteur. • Le disque révolve jusqu’au bon endroit et l’octet est écrit.
Gestion de la mémoire tampon • Qu’arrive-t-il aux données voyageant entre la région des données d’un programme et le stockage secondaire? • L’utilisation de mémoire tampon: La mémoire tampon permet de travailler avec une large quantité de données en mémoire primaire de manière à ce que le nombre d’accès au stockage secondaire puisse être réduit.
Limitations de la mémoire tampon • Supposons que le système a une seule mémoire tampon et alterne entre une opération d’écriture et une opération de lecture. • Dans ce cas, le secteur contenant le caractère à lire est constamment effacé par le secteur contennant l’emplacement dans lequel le caractère sera ècrit et vice-versa. • Dans un cas pareil, le système a besoin de plus d’une mémoire tampon: au moins une pour l’entrée et l’autre pour la sortie. • Déplacer les données jusqu’au disque ou du disque à la mémoire prend beaucoup de temps et les programmes peuvent devenir limités par l’entrée/sortie (IO Bound). Il faut donc trouver de meilleures stratégies afin d’éviter ce problème.
Strategies pour les mémoires tampon • Mémoires tampon multiples • Mémoires tampon double (Fig. 3.22) • Mise en commun (“pooling”) de mémoires tampon • Mode de déplacement (“move mode”): copier les données de l’espace de données du programme dans le tampon • Mode de répérage (“locate mode”): manipuler directement l’espace tampon • Disperse/regroupe Entrée/Sortie (“scatter/gather”)