550 likes | 697 Views
Conceptualisation : illustration. PERSON ( ssn , name, address) EMPLOYEE( ssn , name, salary, hired-date) MANAGER( ssn , rank, promotion-date, deptno) CUSTOMER( ssn , custid, name, credit) DEPARTMENT( deptno , dept-name, location) PRODUCT( pronum , description)
E N D
Conceptualisation : illustration • PERSON (ssn, name, address) • EMPLOYEE(ssn, name, salary, hired-date) • MANAGER(ssn, rank, promotion-date, deptno) • CUSTOMER(ssn, custid, name, credit) • DEPARTMENT(deptno, dept-name, location) • PRODUCT(pronum, description) • PRICE(pronum, minprice, maxprice) • ORDER(ordid, order-date, prodid, custid) • CARRIER(carrier-id, name, address) • PROJECT(pronum, deptno, budget) • WORK-FOR(ssn, deptno, start-date) • CAN-PRODUCE(deptno, pronum, unit-cost) • SHIPMENT(pack#, ordid, ship-date, carrier-id). Le schéma relationnel initial
Etape 1 : - identification des entités PERSON, EMPLOYEE, MANAGER, CUSTOMER, DEPARTMENT, PRODUCT, PRICE et ORDER. - suspicion d’homonymes ou d’héritages entre les clés de PERSON, EMPLOYEE, MANAGER et CUSTOMER d’une part et PRICE et PRODUCT d’autre part. - recherche d’un identifiant pour la table relationnelle CARRIER
Résultat de la première étape : les lignes discontinues représentent les homonymes ou les liens de généralisation soupçonnés : PERSON EMPLOYEE MANAGER CUSTOMER PRICE DEPARTMENT ORDER PRODUCT
Etape 2 : • Confirmation des relations d’inclusion suivantes • PERSON Ê EMPLOYEE Ê MANAGER et PERSON Ê CUSTOMER • Infirmation des autres • Présomption d'associations entre entités : • - EMPLOYEE (ou MANAGER ou CUSTOMER ou PERSON) et DEPARTMENT , • - deux associations entre DEPARTMENT et PRODUCT , • - une association 1-1 entre PRICE et PRODUCT, • - deux associations entre DEPARTEMENT et PRICE, • - ORDER et une entité à déterminer • Confirmation de Carrier-id comme identifiant de la table CARRIER
Résultat de la deuxième étape : (les ovales représentent des associations et les flèches des liens de généralisation) : PERSON EMPLOYEE CUSTOMER ? work-for ? MANAGER ? PRICE DEPARTMENT project ? 1 ? can-produce ? 1 PRODUCT ? ORDER shipment
Etape 3 : L'application des règles indiquées ci-dessous nous permet de confirmer les associations suivantes : • work-for est une association reliant uniquement les entités EMPLOYEE et DEPARTMENT. • a est une association 1-1 entre les entités PRODUCT et PRICE • L'association can-produce entre DEPARTMENT et PRODUCT est consolidée. • L'association shipment nous conduit à définir une entité organisationnelle appelée PACK. • L'association project existant entre DEPARTMENT et PRODUCT reflète l'existence d'un homonyme contrairement à celle entre DEPARTMENT et PRICE. • L'analyse du DML confirme l’homonymie entre la colonne Pronum de la table PROJECT et la colonne Pronum de la table PRICE ou PRODUCT. Le même raisonnement peut être appliqué à l'autre association project.
Résultat de la troisième étape : PERSON EMPLOYEE CUSTOMER work-for MANAGER ? PRICE DEPARTMENT project ? 1 can-produce 1 PACK PRODUCT shipment ORDER
Itération de l'étape 2 : Association project entre l'entité DEPARTMENT et une autre entité à découvrir Itération de l'étape 3 : Confirmation de la nature de l'entité PROJECT (faible). Résultat :
Etape 4 : Détection de clés étrangères dans les tables relationnelles MANAGER, ORDER et SHIPMENT. Nous obtenons alors les associations 1 : N potentielles. Résultat : le symbole ---‰ représente une clé étrangère potentielle.
Etape 5 : Confirmation de toutes les clés étrangères. L'association shipment doit être transformée en entité.
4.4.3.6. La désoptimisation du schéma physique • Principe : • Examiner les spécifications DDL pour suspecter des opérations d’optimisation • Scanner les spécifications DML pour confirmer ou infirmer ces opérations d’optimisation • S’il y a confirmation, vérifier dans les données pour valider les restructurations • Réitérer le processus tant qu’il y a des opérations possibles • Présenter le schéma logique restructuré au concepteur pour validation • Opérations : jointure, projection, restriction, aplatissement.
L’opération de jointure • Principe : • autorise la construction des relations formées par la concaténation des tuples de deux relations existantes selon le prédicat de jointure, incluant le plus souvent une clé étrangère. • Exemple : • Invoice(Invoice#,Customer#,Amount,Date) • Customer(Customer#,Customer_name,Address) • Incust(Invoice#,Customer#,Amount,Date,Customer_name,Address) • Provoque une dénormalisation du schéma (3FN->2FN,2FN->1FN) • 4 cas de jointure
Jointure : cas 1 • La jointure est faite sur un attribut clé primaire des deux tables : • R1(K, C1,C2,...,Cn) & R2(K, D1,D2,...,Dm) • => R(K, C1,C2,...,Cn,D1,D2,...,Dm) • introduit un grand nombre de valeurs nulles • pas de dénormalisation : si R1 et R2 sont en 3FN, R est en 3FN • Exemple : • Employee(Employee_number,Rank,Salary) • Career(Employee_number,Arrival_date,First_career_job,Starting_sal)
Jointure : cas 2 • La jointure est faite sur un attribut clé primaire d’une table et clé étrangère de l’autre : • R1(K1, C1,C2,...,Cn) & R2(K2, D1,D2,...,Dm,K1) • => R(K2, C1,C2,...,Cn,D1,D2,...,Dm,K1) • génère des données redondantes • dénormalisation : R contient des dépendances fonctionnelles entre non-clés • Exemple : • Invoice(Invoice#,Customer#,Amount,Date) • Customer(Customer#,Customer_name,Address)
Jointure : cas 3 • La jointure est faite sur un attribut clé primaire d’une table et un attribut partie de clé de l’autre table : • R1(K1, C1,C2,...,Cn) & R2(K1,K2, D1,D2,...,Dm) • => R(K1,K2, C1,C2,...,Cn,D1,D2,...,Dm) • génère des données redondantes • dénormalisation : R contient des dépendances fonctionnelles entre partie de clé et non-clés (C1,C2,..,Cn) • Exemple : • Student(Student#,Name,Level) • Result(Student#,Course#,Grade)
Jointure : cas 4 • La jointure est faite sur deux attributs non clés des deux tables : • R1(K1, C1,C2,...,Cn,NK) & R2(K2, D1,D2,...,Dm,NK) • => R(K1,K2, C1,C2,...,Cn,D1,D2,...,Dm,NK) • rare • si R1 et R2 sont en 3FN, R contient des données redondantes • il existe des dépendances fonctionnelles entre une partie de clé (K1) et des non clés (C1,C2,...,Cn,NK). • Exemple : joindre les deux tables suivantes sur la condition Headquarter-city=Production-city • Supplier(Supplier#,Name,Address,Headquarter-city) • Part(Part#,Part-name,Production-city)
L’inversion de l’opération de jointure • Principe : • supprimer la jointure en la remplaçant par les deux relations d’origine • c’est une opération de projection • Détection: • DDL : très peu (ou pas) de clauses NOT NULL • DML : la plupart des requêtes sont des projections sur certains attributs, le plus souvent sur les mêmes attributs. • Données : on détecte des dépendances fonctionnelles et des valeurs nulles
Les règles de rétro-conception • La règle Ru1 correspondant au cas 1 peut être paraphrasée comme suit : • Soit la relation R(K, C1,C2,...,Cn,D1,D2,...,Dm) • SIil n’y a pas d’attribut Ci ou Di défini avec NOT NULL ET/OU • il y a plusieurs requêtes SQL avec les clauses SELECT,WHERE,ORDER BY et GROUP BY portant uniquement sur K et les Ci ET/OU • il y a plusieurs requêtes SQL avec les clauses SELECT,WHERE,ORDER BY et GROUP BY portant uniquement sur K et les Dj ET/OU • il n’y a pas de tuple contredisant la D.F. K->C1,C2,...,Cn ET/OU • il n’y a pas de tuple contredisant la D.F. K->D1,D2,...,Dm ET/OU • il y a des tuples ayant des valeurs nulles pour tous les Ci ET/OU • il y a des tuples ayant des valeurs nulles pour tous les Dj • ALORSMeRCI propose la décomposition de R en deux tables • R1(K,C1,C2,...,Cn) et R2(K,D1,D2,...,Dm)
L’opération de projection • Principe : • simplifie une relation en réduisant sa largeur. • permet de renommer des attributs et/ou de les permuter dans une table. • Exemple : • Employee(Employee#,Rank,Salary,Arrival-date,First-caree-job,Start-sal) • Deux projections peuvent être faites conduisant aux tables suivantes : • Payroll(Employee#,Rank,Salary) • Career(Employee#,Arrival-date,First-caree-job,Start-sal) • Remarques : • Pas de perte de données • Conserve les clés • Ne provoque pas de dénormalisation
L’inversion de l’opération de projection • Principe : • consiste à supprimer les tables obtenues par projection et à les remplacer par la table initiale contenant tous les attributs • Détection: • DDL : plusieurs relations ont des attributs clés primaires ou uniques avec le même nom et le même type de données • DML : certaines requêtes SQL sont des jointures entre les clés des deux relations. • Données : les attributs clés qui ont les mêmes noms ont un grand nombre de valeurs communes
Les règles de rétro-conception • Soit les relations R1(K1, C1,C2,...,Cn) et R2(K2,D1,D2,...,Dm) • SI K1 et K2 ont le même nom ET/OU • K1 et K2 ont le même type de données ET/OU • il y a une ou plusieurs requêtes SQL dont la clause WHERE contient une égalité ou une comparaison avec IN entre K1 et K2 ET/OU • l’intersection des valeurs de K1 et K2 contient un grand nombre de valeurs communes • ALORS MeRCI propose le regroupement de R1 et R2 en une relation • R(K1,C1,C2,...,Cn,D1,D2,...,Dm)
L’opération de restriction • Principe : • forme une relation dont les tuples sont filtrés grâce à un prédicat ou condition de restriction • Exemple : • La relation Customer (Customer#, Customer-name, Address, Turnover) • peut être restreint en deux relations • Large_Customer (Customer#, Customer-name, Address, Turnover) • et Small_Customer (Customer#, Customer-name, Address, Turnover) • selon le montant du Turnover (inférieur ou supérieur à une borne) • Remarques : • Pas de perte de données • Ne provoque pas de dénormalisation
L’inversion de l’opération de restriction • Principe : • supprimer les tables obtenues par restriction et à les remplacer par la table initiale contenant tous les tuples (opération d’union). • Détection: • DDL : plusieurs relations ont le même schémas. Les attributs clés primaires ou uniques sont définis par le même type de données. Les autres attributs ont aussi le même nom, le même type, et éventuellement les mêmes contraintes (FOREIGN KEY,CHECK, etc...) • DML : certaines requêtes SQL sont des unions entre les clés de deux relations (ou plus). • Données : les attributs clés qui ont les mêmes noms ont un ensemble de valeurs disjointes.
Les règles de rétro-conception • Soit les relations R1(K1, C1,C2,...,Cn) et R2(K2,D1,D2,...,Dm) • SIK1 et K2 ont le même nom ET/OU • K1 et K2 ont le même type de données ET/OU • Ci et Dj ont le même nom et/ou le même type de données ET/OU • il y a une ou plusieurs requêtes SQL avec un opérateur UNION entre deux SELECT portant respectivement sur R1 et R2 et une clause WHERE contenant une condition sur K1 liée par OR à la même condition sur K2 ET/OU • l’intersection des valeurs de K1 et K2 est vide • ALORSMeRCI propose de transformer R1 et R2 en une relation unique • R(K1,C1,C2,...,Cn)
L’opération d’aplatissement • Principe : • l’information peut être représentée comme des valeurs d’attributs, des noms d’attributs ou des noms de tables. • l’opérateur d’aplatissement transporte l’information d’un niveau de représentation à un autre : des valeurs aux attributs. • ce n’est pas un opérateur relationnel. • s’applique uniquement aux attributs à type discret et ayant peu de valeurs - aplatit le type de champ dans la structure • Exemple : • La relation Courseplanning (Course#, Course-Day, Course-Name, Course-Hour) peut être aplatie en utilisant le jour : • Course (Course#, Course-Name, Monday-House, Tuesday-Hour, • Wednesday-Hour, Thursday-Hour, Friday-Hour, Saturday-Hour). • Réduit la clé • Ne provoque pas de dénormalisation
L’inversion de l’opération d’aplatissement • Principe : • remplacer plusieurs colonnes ayant le même type par un attribut décrivant ce type. L’inverse de l’aplatissement de R(K,C1,C2,...,Cn, D1,D2,...,Dm) sur les colonnes Ci remplace R par R1(K,K2, C,D1,D2,...Dm). • Détection: • DDL : la table aplatie a plusieurs colonnes de même type avec une partie de nom commune • DML : certaines requêtes SQL ont des clauses WHERE avec le même prédicat sur les différentes colonnes du même type • Données : les valeurs des colonnes qui ont le même type sont identiques.
Les règles de rétro-conception • Soit la relation R(K, C1,C2,...,Cn,D1,D2,...,Dm) • SI les Ci ont une partie du nom commune ET/OU • les Ci ont le même type de données ET/OU • il y a une ou plusieurs requêtes SQL avec une clause WHERE ou SET contenant une condition identique sur les différentes colonnes Ci ET/OU • l’intersection des valeurs des Ci contient plusieurs valeurs communes et une plage de valeurs communes • ALORS MeRCI propose de transformer R en R1(K,K1,C,D1,D2,...,Dm)
Désoptimisation : un exemple American_countries(country_code/char(6);country_name/char(30),restrictiveness/char(30)) Arrival(flight_number/char(6);airport_code/char(6)) Asian_countries(country_code/char(6);country_name/char(30),restrictiveness/char(30)) Departure(flight_number/char(6);airport_code/char(6)) European_countries(country_code/char(6);country_name/char(30),restrictiveness/char(30)) Fares(flight_number/char(6),type_code/char(4),conc_class/char(30),single/decimal(6,2), return/decimal(6,2)) Flights(flight_number/char(6);aircraft/char(30),distance/integer,airline_code/char(3), airline_name/char(30)) Int_Stops(flight_number/char(6),airport_code/char(6);airport_name/char(30),country_code/char(6), stop_number/integer) Restrictions(country_code/char(4), visa_type/char(30); conditions/text) Savers(saver_code/char(3); saver_name/char(30), saver_conditions/text) Season(season_code/char(1); season_name/char(30), start_date/date, end_date/date) Seat_Classes(seat_class_code/char(1); seat_class_name/char(30)) Times(flight_number/char(6);mon_dep/decimal(4,2),mon_arr/decimal(4,2),tue_dep/decimal(4,2), tue_arr/decimal(4,2),wed_dep/decimal(4,2),wed_arr/decimal(4,2), thu_dep/decimal(4,2),thu_arr/decimal(4,2),fri_dep/decimal(4,2), fri_arr/decimal(4,2),sat_dep/decimal(4,2),sat_arr/decimal(4,2), sun_dep/decimal(4,2),sun_arr/decimal(4,2)) Types(type_code/char(4); seat_class_code/char(1), saver_code/char(3), season_code/char(1))
Liste des requêtes principales * (1) insert a new flight (that means, the flight, its times, its stops and its fares) * (2) delete a flight (that means, the flight, its times, its stops and its fares) * (3) modify times of a flight * (4) select the fares for each type for each airline about flights flying from airport A to airport B * (5) select the times of a given flight * (6) select the intermediate stops of a flight * (7) select the restrictiveness for a given country * (8) list the different countries and their continent names * (9) list the different airports and their respective countries * (10) list the different airlines characteristics * (11) select the different flights realized with a given aircraft * (12) what is the distance covered by a given flight
Application des règles aux tables de l’exemple X signifie que la règle peut être appliquée à la table o signifie que la table vérifie certaines conditions de déclenchement de la règle - signifie la règle ne s’applique pas à la table
Le schéma relationnel après la première itération de l’ensemble de règles Airline (airline_code, airline_name) Airport(airport_code; airport_name, country_code) Countries(country_code/char(6);country_name/char(30),restrictiveness/char(30), continent) Dep_arr(flight_number; airport_dep, airport_arr) Fares(flight_number/char(6),type_code/char(4),conc_class/char(30),single/decimal(6,2), return/decimal(6,2)) Flights(flight_number, aircraft, distance) Int_Stops(flight_number, airport_code; stop_number) Restrictions(country_code/char(4), visa_type/char(30); conditions/text) Savers(saver_code/char(3); saver_name/char(30), saver_conditions/text) Season(season_code/char(1); season_name/char(30), start_date/date, end_date/date) Seat_Classes(seat_class_code/char(1); seat_class_name/char(30)) Times(flight_number/char(6),dep_arr;time) Types(type_code/char(4); seat_class_code/char(1), saver_code/char(3), season_code/char(1))
Le schéma relationnel après une seconde itération de l’ensemble de règles Airline (airline_code, airline_name) Airport(airport_code; airport_name, country_code) Countries(country_code/char(6);country_name/char(30),restrictiveness/char(30), continent) Fares(flight_number/char(6),type_code/char(4),conc_class/char(30),single/decimal(6,2), return/decimal(6,2)) Flights(flight_number, aircraft, distance,airport-dep,airport-arr) Int_Stops(flight_number, airport_code; stop_number) Restrictions(country_code/char(4), visa_type/char(30); conditions/text) Savers(saver_code/char(3); saver_name/char(30), saver_conditions/text) Season(season_code/char(1); season_name/char(30), start_date/date, end_date/date) Seat_Classes(seat_class_code/char(1); seat_class_name/char(30)) Times(flight_number/char(6),dep_arr;time) Types(type_code/char(4); seat_class_code/char(1), saver_code/char(3), season_code/char(1))
Le schéma conceptuel résultant Savers saver-code saver-name saver-conditions Seasons season-code season-name start-date end-date 1 Seat Classes seat-class-code seat-class-name 1 n n m Types type-code Fares conc-class single return 1 n n Airline airline-code airline-name 1 Flights flight-number aircraft distance airport-dep airport-arr n n m m Int-Stops stop-number Times day time n m n Countries country-code country-name continent n Visa visa-type Airports airport-code airport-name m 1 n restrictions conditions
4.5. Rétroconception des bases multidimensionnelles • Objectif : extraire le schéma conceptuel d’une base de données multidimensionnelles à partir d’un schéma logique/physique • Raisons : • la modélisation d’une base de données multidimensionnelle joue un rôle important dans la conception d’un datawarehouse • le schéma multidimensionnel d’un datawarehouse offre une vue intégrée des différentes sources de données opérationnelles • le schéma multidimensionnel est dépendant • des besoins des utilisateurs • de la disponibilité des données des systèmes opérationnels • de la structure de ces données
Raisons (suite) : • la plupart des projets de datawarehouse utilise une approche incrémentale • on commence par un prototype offrant certaines fonctionnalités et utilisant un ensemble de données • puis le prototype est affiné suivant les besoins (changeants) des utilisateurs • les besoins des utilisateurs changent • nécessite une adaptation et une évolution du schéma • par conséquent un coût de maintenance élevé • pour offrir une flexibilité et une réutilisation du schéma, le modèle doit être spécifié à un niveau conceptuel : ce n’est pas le cas des datawarehouses actuels
Caractéristiques des systèmes multidimensionnels • Les concepts d’OLAP: • consolidation : les données sont agrégées selon des dimensions hiérarchisées • drill-down : une donnée agrégée est visualisée à un niveau de détail choisi par l’utilisateur • slicing and dicing : les données sont visualisées selon différentes perspectives (par exemple vente par région et canal de distribution) • gestion des alertes et des seuils : des codes de couleur sont utilisés pour attirer l’attention sur certaines données
Caractéristiques des applications OLAP : • un appel à de très grands volumes de données • la présence des données agrégées • la comparaison des données agrégées hiérarchiques et dans le temps • la présentation des données selon différentes perspectives • la réalisation de calculs complexes • la présentation des données sous forme de tableaux croisés facilement manipulables • la consultation des données sans les modifier.
La modélisation des règles de rétroconception • Un méta-modèle du schéma conceptuel cible • Un méta-modèle de la base de données multidimensionnelle • Des règles de production qui opèrent sur les deux méta-modèles auxquelles on associe des facteurs de certitude
Le méta-modèle de la base multidimensionnelle Objet nom Dimension/Relation Variable 0,n Relation relie Dimension Variable mono dimensionnelle Variable multi dimensionnelle 2,2 0,n 0,n fait varier 1,1 2,n comporte
Les règles de rétroconception • Règle de suspicion : une variable multidimensionnelle se rapportant à plus de deux dimensions peut devnir un attribut d’une association entre les entités désignées par ces dimensions. • Règle de consolidation : les attributs des relations binaires M:N sont consolidés s’il existe plus d’un attribut non identifiant à la relation • Règle de confirmation : une dimension devient l’identifiant d’une entité que l’on crée