870 likes | 1.58k Views
Cours Administration de bases de données. Tuan-Loc NGUYEN Université Paris 6 -Paris 12. Dictionnaire. Cours : proposper Administration de bases de données Administration Bases Données Université Tuan-Loc NGUYEN (dico viet-franco) Tuan : beau, intelligent Loc: bonheur
E N D
Cours Administration de bases de données Tuan-Loc NGUYEN Université Paris 6 -Paris 12
Dictionnaire • Cours : proposper • Administration de bases de données • Administration • Bases • Données • Université • Tuan-Loc NGUYEN (dico viet-franco) • Tuan : beau, intelligent • Loc: bonheur • Nguyen: nom de la famille royale -> Tuan-Loc NGUYEN: un homme beau,intelligent,bonheur dans la famille royale
Contenu du cours 1 • Définition de bases de données • Définition de SGBD • SGBD: • Caractéristiques • Pourquoi • Modèles de modélisation des données • Objectif du SGBD • Architecture • deux niveaux • trois niveaux • répartie • Gestion d’accès • Concepts de base • Organisations par hachage • Organisations indexées • Organisations multi-attributs
Résumé • Bases de données, définition: • Collection de fichiers reliés par des pointeurs multiples, bien organisés, répondre efficacement des demandes variées • Collection d’informations via la modélisation du monde réel
SGBD - Qu’est-ce c’est ? • SGBD (DBMS): Databases Management System Système de Gestion de Bases de Données • Définition de SGBD: • Logiciel: • données persistantes • accès efficace (Ullman) • Ensemble de logiciels systèmes permettant de stocker et d’interroger un ensemble de fichiers indépendants. Il est aussi un outil permettant de modéliser et de gérer des données (G.Gardarin)
SGBD: Caractéristiques • Manager des données persistées • Accéder aux larges données avec efficacité • Supporter modèles de données • Transaction • Permettre de définir des données(structure, accès, manipuler) • Recouverte de données • Control d’accès
Objectif du SGBD • Assurer l’indépendance des programmes aux données (architecture 2-tiers) • What non How • Indépendance: • Physique des programmes aux données • Logique des programmes aux données • Administration facile • Permettre de manipuler par langages query (SQL)
1. Objectifs des SGBD (1) • INDÉPENDANCE PROGRAMMES/DONNÉES • Indépendance physique • Indépendance logique • ACCÉS PAR DES LANGAGES ASSERTIONNELS • Recherche (le quoi et non le comment) • Insertion (en groupes, calculées) • Mise à jour (basée sur la recherche) • EFFICACITÉ DES ACCÈS • Temps de réponse
SGBD logique données physique
Objectifs des SGBD (2) • SUPPORT DE TRANSACTIONS • Atomique (tout ou rien) • Cohérente (respect de l'intégrité) • PARTAGEABILITÉ ET SÉCURITE DES DONNÉES • Simultanéité lecture/écriture maximum • Accès transactionnels & décisionnels • Confidentialité (authentification, droits d'accès, cryptage) • Restauration après pannes (journaux, sauvegardes) Introduction
Objectifs des SGBD (3) • CONCEPTION FACILITÉE DES APPLICATIONS • Conception visuelle des BD (diagrammes E/R, objets) • Conception des traitements (diagrammes de flux entre modules) • Dictionnaire de données (objets BD, graphiques, applicatifs) • ADMINISTRATION SYSTÈME FACILITÉE • Visualisation des plans d ’accès • Élaboration de statistiques Introduction
Conceptuel description des entités et associations du monde réel Interne implémentation physique des entités et associations dans les fichiers Externe (vues) description des entités et associations vues par un utilisateur (ou un groupe d’utilisateurs) Niveaux de schémas Introduction
Architectures Client-Serveur • Définition • modèle d'architecture applicative où les programmes sont répartis entre processus clients et serveurs communiquant par des requêtes avec réponses. • Une répartition hiérarchique des fonctions • données sur le serveur partagées entre N clients • interfaces graphiques sur la station de travail personnelle • communication par des protocoles standardisés • distribution des programmes applicatifs afin de minimiser les coûts Architecture Client-Serveur
Pourquoi le Client-serveur ? • Évolution des besoins de l'entreprise • Augmentation de productivité, de réactivité • Utilisation des micros assurant flexibilité et faibles coûts • Besoin de décisionnel et transactionnel sur gros volumes • Évolution des technologies • Systèmes ouverts permettant l'usage de standards • Environnements de développement graphiques • Explosion de la puissance des micros et des serveurs • Solutions techniques séduisantes • Les données partagées enfin accessibles simplement • Mise en commun des services (règles de gestion, procédures) • Gestion de transactions et fiabilité au niveau du serveur
Architecture 1e génération SGBD règles NT, UNIX, NOVELL SERVEUR Données GCOS, VMS, MVS REQUETE RESULTAT Windows NT UNIX CLIENTS APPLICATIONS APPLICATIONS APPLICATION Architecture Client-Serveur
Le C/S de 2e génération Application Outil Applicatif Client • Procédure stockée • Procédure accomplissant une fonction de service sur les données • Exemple : Entrée ou sortie de stock • Architecture orientée services plutôt que requêtes • Distribution des traitements • Peut être automatisée • Évolution et passage à l'échelle • Possibilité de serveurs multiples, avec redondances • Possibilité de données privées sur les clients Outil de connectabilité Protocole Réseau Requêtes de services Résultats Protocole Réseau Outil de connectabilité Serveur Procédures Stockées Serveur BD base de données
Intérêt du C/S de 2e génération • Réduction des transferts réseaux • non nécessité de monter les données dans le client pour les modifier • appel de services plus compact • Distribution automatique des applications • développement sur le poste de travail • partitionnement par tirer-déposer (drag & drop) • Simplification des outils de développement • principe de la fenêtre unique • modélisation uniforme des objets applicatifs • invisibilité du modèle de données à l'extérieur du serveur
Vers le 3e génération • Intégration du Web et du client-serveur • navigateur à présentation standard pour le client • possibilité de petites applications (contrôles) sur le client • très grande portabilité (Intranet, Internet) • Architecture à 3 strates (3-tiered) • Base de données avec procédures stockées • Services applicatifs partagés et objets métiers (EJB, ActiveX) • Présentation hypertexte multimédia avec contrôles • Support de l'hypermédia • types de données variées et extensibles (texte, image,vidéo) • hypertexte et navigation entre documents et applications
Méthode d’Accès • 1. Concepts de base • 2. Organisations par hachage • 3. Organisations indexées • 4. Organisations multi-attributs
1. Concepts de Base • Le gestionnaire de fichiers est la couche interne d'un SGBD, souvent intégrée au système opératoire. Gestionnaire de fichiers
Structures des Disques • Notion 1: Volume (Disk Pack) • Unité de mémoire secondaire amovible.
Notion de fichier • Notion 2: Fichier (File) • Récipient d'information caractérisé par un nom, constituant une mémoire secondaire idéale, permettant d'écrire des programmes d'application indépendants des mémoires secondaires. • Un fichier se caractérise plus particulièrement par : • UN NOM • UN CREATEUR • UNE DATE DE CREATION • UN OU PLUSIEURS TYPES D'ARTICLE • UN EMPLACEMENT EN MS • UNE ORGANISATION
Quelques notions de base • Notion 3: Article (Record) • Elément composant d'un fichier correspondant à l'unité de traitement par les programmes d'application. • Notion 4: Organisation de fichier (File organization) • Nature des liaisons entre les articles contenus dans un fichier. • Notion 5: Méthode d'accès (Acces Method) • Méthode d'exploitation du fichier utilisée par les programmes d'application pour sélectionner des articles. • Notion 6: Clé d'article (Record Key) • Identifiant d'un article permettant de sélectionner un article unique dans un fichier.
Les fichiers sur les volumes • Notion 7: Label de volume (Label) • Premier secteur d'un volume permettant d'identifier ce volume et contenant en particulier son numéro. • Notion 8: Descripteur de fichier (Directory entry) • Ensemble des informations permettant de retrouver les caractéristiques d'un fichier, contenant en particulier le nom du fichier, sa localisation sur disque, etc… • Notion 9: Catalogue (Directory) • Table (ou fichier) située sur un volume et contenant les descripteurs des fichiers du volume.
VOLUME n CATALOGUE LABEL n F1 F2 F3 F4 … F1 F2 F4 F3 Organisation d'un volume
Catalogue Hiérarchisé • Notion 10: Catalogue hiérarchisé • Catalogue constitué d'une hiérarchie de fichiers, chaque fichier contenant les descripteurs des fichiers immédiatement inférieurs dans la hiérarchie. • > PIERRE • > PIERRE > BASES-DE-DONNEES • > PIERRE > BASES-DE-DONNES > MODELES
Allocation de l'espace disque • Notion 11: Région (Allocation area) • Ensemble de zones de mémoires secondaires (pistes) adjacentes allouées en une seule fois à un fichier. • Notion 12: Granule d'allocation (Allocation granule) • Unité de mémoire secondaire allouable à un fichier.
Stratégie d'allocation • Objectifs d'une stratégie • (1) minimiser le nombre de régions à allouer à un fichier de sorte à réduire d'une part les déplacements des bras des disques lors des lectures en séquentiel et d'autre part le nombre de descripteurs de régions associés à un fichier; • (2) minimiser la distance qui sépare les régions successives d'un fichier, de sorte à réduire les déplacements de bras en amplitude.
Stratégie par granule à région fixe • Ces stratégies confondent les notions de région et de granule. Elles sont simples et généralement implantées sur les petits systèmes. • La stratégie du premier trouvé: • le granule correspondant à la tête de liste de la liste des granules libres, ou au premier bit à 0 dans la table des granules libres, est choisi. • La stratégie du meilleur choix: • le granule le plus proche (du point de vue déplacement de bras) du dernier granule alloué au fichier est retenu.
Stratégie à région variable • La stratégie du plus proche choix: • Lors d'une demande d'allocation, la liste des régions libres est parcourue jusqu'à trouver une région de la taille demandée; dans le cas où aucune région de la taille demandée n'est libre, la première région de taille supérieure est découpée. • La stratégie des frères siamois: • Des listes séparées sont maintenues pour les régions libres de dimensions 2**0, 2**1, … 2**K granules. Lors d'une demande d'allocation, une région libre peut être extraite de la liste des régions libres de taille 2**i+1 pour constituer deux régions libres de taille 2**i.
Adressage Relatif • Notion 13: Adresse relative (Relative address) • Numéro d'unité d'adressage dans un fichier (autrement dit: déplacement par rapport au début du fichier). | | | | | | | | | | offset = adresse relative
} METHODES Séquentiel Haché Indexé 1 Indexé 2 D'ACCES } OUVRIR LIRE ECRIRE FERMER ANALYSEUR ADRESSAGE } MODULES ME 1 ME k D'E/S } Disques Magnétiques Architecture d'un SGF
2. Organisations par Hachage • Notion 14: Fichier haché statique (Static hashed file) • Fichier de taille fixe dans lequel les articles sont placés dans des paquets dont l'adresse est calculée à l'aide d'une fonction de hachage fixe appliquée à la clé.
Adresse premier octet libre dans le paquet Iga1 ------------------ Article a1 de longueur lga1 a1 Iga2 ----------------- L Octets Article a2 de longueur lga2 a2 Iga3 ----------------- Article a3 de longueur lga3 a3 Index optionnel Structure interne d'un paquet
Fonction de Clé hachage } ………… ……… Paquets n i 0 1 2 Vue d'un fichier haché statique
Fonction de Hachage • DIFFÉRENTS TYPES DE FONCTIONS : • PLIAGE DE LA CLE • CONVERSION • MODULO P • FONCTION PSEUDO-ALEATOIRE MIXTE • BUT : • Obtenir une distribution uniforme pour éviter de saturer un paquet • Mauvaise fonction de hachage ==> Saturation locale et perte de place • SOLUTION : AUTORISER LES DEBORDEMENTS
Techniques de débordement • l'adressage ouvert • place l'article qui devrait aller dans un paquet plein dans le premier paquet suivant ayant de la place libre; il faut alors mémoriser tous les paquets dans lequel un paquet plein a débordé. • le chaînage • constitue un paquet logique par chaînage d'un paquet de débordement à un paquet plein. • le rehachage • applique une deuxième fonction de hachage lorsqu'un paquet est plein pour placer en débordement.
Problème du hachage statique • Nécessité de réorganisation • Un fichier ayant débordé ne garantie plus de bons temps d'accès (2 + accès disque en écriture, 1 en lecture) • Le nombre de paquets primaires est fixe, ce qui peuT entrainer un mauvais taux de remplissage • Solution idéale: réorganisation progressive • Un fichier ayant débordé devrait rester analogue à un fichier n'ayant pas débordé. • Il serait souhaitable de changer la fonction d'adressage.
Techniques de hachage dynamique • Techniques permettant de faire grandir progressivement un fichier haché saturé en distribuant les articles dans de nouvelles régions allouées au fichier. • LES QUESTIONS CLÉS : • (Q1) Quel est le critère retenu pour décider qu'un fichier haché est saturé ? • (Q2) Quelle partie du fichier faut-il doubler quand un fichier est saturé? • (Q3) Comment retrouver les parties d'un fichier qui ont été doublées et combien de fois ont elles été doublées? • (Q4) Faut-il conserver une méthode de débordement et si oui quelle méthode?
Hachage extensible • (Q1) Le fichier est étendu dès qu'un paquet est plein; dans ce cas un nouveau paquet est ajouté au fichier. • (Q2) Seul le paquet saturé est doublé lors d'une extension • Il éclate selon le bit suivant du résultat de la fonction de hachage appliquée à la clé h(K). Les articles ayant ce bit à 0 restent dans le paquet saturé, alors que ceux ayant ce bit à 1 partent dans le nouveau paquet. • (Q3) Chaque entrée d’un répertoire donne l'adresse d'un paquet. • Les 2**(P-Q) adresses correspondant à un paquet qui a éclaté Q fois sont identiques et pointent sur ce paquet; ainsi, par l'indirection du répertoire, le système retrouve les paquets. • (Q4) La gestion de débordement n'est pas nécessaire.
Fichier haché extensible Paquets Répertoire
Eclatement d'un paquet • L'entrée jumelle est forcée à l'adresse du nouveau paquet créé si elle pointe sur le paquet éclaté, sinon le répertoire est doublé.
Définition du hachage extensible • Notion 15: Hachage extensible (Extended hashing) • Méthode de hachage dynamique consistant à éclater un paquet plein et à mémoriser l'adresse des paquets dans un répertoire accédé directement par les (M+P) premiers bits de la fonction de hachage où P est le nombre d'éclatements maximum subi par les paquets.
Hachage linéaire • (Q1) Le fichier est étendu par paquet dès qu'un paquet est plein. • (Q2) Le paquet doublé n'est pas celui qui est saturé, mais un paquet pointé par un pointeur courant qui parcours le fichier circulairement. • (Q3) Un niveau d'éclatement P du fichier est conservé dans le descripteur du fichier afin de préciser la fonction de hachage. • Pour un paquet situé avant le pointeur courant, (M+P+1) bits de la fonction de hachage doivent être utilisés alors que seulement (M+P) sont à utiliser pour adresser un paquet situé après le pointeur courant. • (Q4) Une gestion de débordement est nécessaire puisqu'un paquet plein n'est en général pas éclaté.
Paquets d'un fichier haché linéaire Xo = H(k) Xi = (xo+i) mod M i= 1,2,…M-1
Définition du hachage linéaire • Notion 16: Hachage linéaire (Linear hashing) • Méthode de hachage dynamique nécessitant la gestion de débordement et consistant à: • (1) éclater le paquet pointé par un pointeur courant quand un paquet est plein, • (2) mémoriser le niveau d'éclatement du fichier afin de déterminer le nombre de bits de la fonction de hachage à appliquer avant et après le pointeur courant.
Comparaison des hachages • Exercice: Comparer entre les hachages ?
3. Organisations Indexées • OBJECTIFS : • 1) Accès rapide a partir d'une clé • 2) Accès séquentiel trié ou non • MOYENS : • Utilisation de tables permettant la recherche de l'adresse de l'article a partir de la CLE • Notion 23: Index (Index) • Table (ou plusieurs tables) permettant d'associer à une clé d'article l'adresse relative de cet article.