460 likes | 644 Views
PLAN. Introduction : le problème Critères de classification Techniques de classification Classification automatique de données Un algorithme de classification automatique Classification automatique de schémas E-R Classification automatique de schémas orientés objets orientés
E N D
PLAN • Introduction : le problème • Critères de classification • Techniques de classification • Classification automatique de données • Un algorithme de classification automatique • Classification automatique de schémas E-R • Classification automatique de schémas orientés objets orientés • Intégration vs classification • Autres applications Akoka & Wattiau 2
I- Introduction : le problème • L'efficacité et la qualité du processus de la conception de base de données dépendent principalement d'une bonne communication entre : informaticiens • utilisateurs finaux • managers • Le schéma conceptuel est supposé être un outil pour faciliter cette interaction. Akoka & Wattiau 3
I- Introduction : le problème • Le succès du modèle ER peut s'expliquer principalement par la simplicité de ses concepts et par son formalisme graphique, tous deux facilitant le dialogue entre ces personnes. • Toutefois, dans les applications réelles, le schéma conceptuel n'est pas suffisant pour atteindre une bonne communication parce que : • il est souvent trop grand : il est très difficile d’analyser un schéma contenant une centaine d'entités. • l'information est donnée seulement d'un niveau d'abstraction. Une approche descendante devrait être un moyen plus facile de lire un schéma conceptuel. Akoka & Wattiau 4
I- Introduction : le problème La classification de schémas un sous-schéma 1 un schéma conceptuel un sous-schéma 2 un sous-schéma 3 Comment découper ? sur quels critères ? Akoka & Wattiau 5
II- Les critères de regroupement Les critères doivent s’appuyer sur la sémantique des données et/ou des traitements La définition des critères dépend du modèle conceptuel utilisé Akoka & Wattiau 6
II- Les critères de regroupement 1 - Critères d’agrégation L'agrégation est un groupement sémantique d'entités fondé sur l’existence d'une relation Diplômé de Etudiant Ecole St-numéro st-nom Sc-nom Sc- adresse St-numéro St-nom Sc-nom Sc-adresse Etudiant Akoka & Wattiau 7
II- Les critères de regroupement Professeur Etudiant 1 n 2 - Critères de dominanceLa notion de dominance s’appuie sur le concept d’entité faible n m Cours Classe Section 1 n 1 1 Etudiant Professeur 1 n n m Cours 3.1 Akoka & Wattiau 8
II- Les critères de regroupement 3 - Le groupement par abstraction Personne Professeur Etudiant G Personne 2.1 Akoka & Wattiau 9
II- Les critères de regroupement 4 - Le groupement par contrainte Société Individu Personne 3.4 X contrainte d’exclusion Contrat Contrat Prêt Prêt Akoka & Wattiau 10
III - Techniques de classificationUne technique de classification- s’appuie sur la base d’un ou plusieurs critères - définit la construction des niveaux d’abstraction et les schémas obtenus à chaque niveau Akoka & Wattiau 11
III - Techniques de classification • 1 - Groupement par horizon logique (Feldman & al 86) • L'horizon logique d'une entité E : • contient toutes les entités qui peuvent être identifiées de façon unique à partir de l’entité E • en d'autres termes, toutes les entités sont liées à l'entité E par une (ou plusieurs) 1:N relation(s) appartenant à son horizon logique • Exemple : Horizon logique de l'entité Département Département Professeur Cours 1 n 1 n Akoka & Wattiau 12
III - Techniques de classification1 - Groupement par horizon logique (Feldman & al 86) • Principe du groupement par horizon logique a) Définir les centres de regroupement appelées entités majeures b) Former des groupements d'entités qui sont les horizons logiques de ces entités majeures • Limites a) Procédure fastidieuse parce qu'elle est manuelle b) La définition des entités majeures n’est pas aisée c) La classification utilise uniquement un critère : la relation Akoka & Wattiau 13
III - Techniques de classification 2 - Groupement par cohésion (Teorey & al 89) • Utilisation des 4 critères définis par Teorey • Le facteur de cohésion définit un ordre entre les différents critères de groupes + dominance abstraction contrainte relation cohésion - • Principe de la classification1) définir des centres de regroupement à l'intérieur des domaines fonctionnels2) former des groupes d'entités3) valider la classification • Limites a) processus manuel b) définition des centres de regroupement difficile c) l'ordre entre les différents critères est arbitraire Akoka & Wattiau 14
III - Techniques de classification 3 - Groupement par sujet • spécifique aux méthodes orientées objets de type OOA [Coad] • OOA préconise différents niveaux d’abstraction appelés couches • L’une des couches, appelée sujet, définit un mécanisme pouvant servir de guide pour une lecture aisée d’un grand modèle complexe • Identification des sujets • 1) choisir dans chaque structure (hiérarchie d’agrégation, de généralisation, etc) la classe de plus haut niveau : noyau du sujet • 2) les classes qui ne sont dans aucune structure constituent aussi des sujets3) les sujets sont affinés en utilisant : • les sous-domaines du problème • les interdépendances (structures et connexions d’instances) • les interactions (connexions de messages) • Limites a) processus manuel b) fait appel à l’expérience du concepteur Akoka & Wattiau 15
III - Techniques de classification 4 - Groupement naturel • Défini sur la base du modèle des objets naturels [Brès] • L’utilisateur perçoit des objets naturels dont la sémantique est plus riche que les concepts d’entité et d’association • Tout objet naturel est construit autour d’une entité principale, racine, et d’une grappe d’entités et d’associations reliées à cette racine • Limites l’identification des objets naturels est laissée à l’appréciation du concepteur Akoka & Wattiau ESSEC 16
III - Techniques de classification 5 - Groupement par catégorie • La méthode OOD suggère le regroupement de classes en catégories pour des raisons de visibilité • Une catégorie contient toutes les classes du même domaine • Le groupement par catégorie conduit à la définition de diagrammes de classes partiels plus faciles à lire • Chaque diagramme contient trois sortes de classesles classes privées n’appartiennent qu’à une seule catégorie • les classes importées appartiennent principalement à une autre catégorie • les classes exportées appartiennent à cette catégorie mais sont aussi importées dans d’autres • Limites a) processus manuel b) repose sur l’expérience du concepteur Akoka & Wattiau 17
III - Techniques de classification 6 - Conclusion sur les regroupements • Dans le modèle E-R comme dans le modèle objet, le besoin de classification en plusieurs niveaux d’abstraction est réel • Les regroupements proposés s’appuient sur la sémantique des applications • Ils sont laissés à l’initiative et à l’expérience du concepteur Akoka & Wattiau 18
IV - Classification automatique de données • Les algorithmes de classification automatique permettent le regroupement en classes d’un nuage de points • Il existe un grand nombre d’algorithmes différents x x x x x x x x x x x x x Akoka & Wattiau 19
IV - Classification automatique de données • Les algorithmes de classification ascendante partent de l’ensemble des objets isolés et regroupe les plus proches en une classe. • Puis les classes les plus proches sont regroupées et ainsi de suite. • On parle de classification ascendante hiérarchique. • Elle suppose la définition de deux distances: • une distance entre les points • une distance entre les classes Akoka & Wattiau 20
IV - Classification automatique de données • Les algorithmes de classification descendante part de l’ensemble des objets considéré comme une classe, puis le coupe en deux et ainsi de suite jusqu’à l’obtention du nombre de classes désiré et/ou jusqu’à l’obtention du nombre de classes désiré Akoka & Wattiau 21
IV - Classification automatique de données • Les algorithmes d’agrégation consistent à créer des classes par agrégation • avec seuil de distance • autour de centres fixes • autour de centres mobiles : nuées dynamiques Akoka & Wattiau 22
V - Un algorithme de classification automatique • C’est un algorithme de classification descendante • Qui découpe l’ensemble de points jusqu’à obtention d’un nombre donné k de classes • Qui maximise la distance inter-classes • Et minimise la distance intra-classes Akoka & Wattiau 23
Début Soit [i] la classe contenant l’objet i ; soit Ii = dis ; soit Eiq =dis Soit j=1. Les objets à classer sont tous mis ensemble dans la classe (1). Tant que j# k /* le nombre k de classes n'est pas obtenu */ Faire /* construire la (j+1)ème classe */ Choisir l'objet i tel que : Ii = Max Is /* parmi tous les objets, i est le plus éloigné de sa classe */ Insérer i dans la classe (j+1). V - Un algorithme de classification automatique s [i] s [q][i] s Tant queil existe i tel que : q /* i est plus près de la classe [q] que de sa classe */ Faire transférer i dans la classe [q] Fin tant que j=j+1 Fin tant que Fin Akoka & Wattiau 24
VI - Classification automatique de schémas E-R • Soit E un ensemble d’entités a) Définition : Une distance entre entités est une application d de ExE dans R+ qui vérifie les propriétés suivantes : d(x,y)=0 <=> x=y d(x,y) = d(y,x) d(x,y) <= d(x,z) + d(z,y) b) Trois exemples de distances - distance visuelle - distance hiérarchique - distance cohésive Akoka & Wattiau 25
VI - Classification automatique de schémas E-R • Objectif: • appliquer les critères de classification de la littérature ou d’autres • obtenir un processus automatique de classification utilise des distances mathématiques classifie un ensemble d’entités une classe contient les entités les plus proches au sens de la distance Akoka & Wattiau 26
1 - Distance visuelle d(i,j) = 1 si i et j sont liés par une relation sinon d(i,j) = min (d(i,k) + d(k,j)) k Exemple : N 1 Cadeau Fournisseur 1 N Centre de vacances Bon de commande Cadeau Situation 1 N 1 1 Choix Affecté 1 N N Enfant N 2 classes Distance visuelle 1 1 N Etablissement Employé Akoka & Wattiau 27
1 - Distance visuelle d(i,j) = 1 si i et j sont liés par une relation sinon d(i,j) = min (d(i,k) + d(k,j)) k Exemple : N 1 Cadeau Fournisseur 1 N Centre de vacances Bon de commande Cadeau Situation 1 N 1 1 Choix Mission 1 N N Enfant N 3 classes Distance visuelle 1 1 N Etablissement Employé Akoka & Wattiau 28
2 - Distance hiérarchique d(i,j) = 1 si une relation 1:N existe entre i et j d(i,j) = 2 si une relation M:N existe entre i et j sinon d(i,j) = min (d(i,k) + d(k,j)) k Exemple : 1 N N Livraison Client 1 M 1 M 1 Client N N N N N Commande Livraison du produit 1 Région 1 1 N 1 N 1 1 N Affectation Personnel N N 1 M N 1 N Stock 1 N Entrepôt Ligne Commande N N Tâche Employé 1 1 N N N 1 1 Niveau de réapprovisionnement Produit Akoka & Wattiau 29
2 - Distance hiérarchique d(i,j) = 1 si une relation 1:N existe entre i et j d(i,j) = 2 si une relation M:N existe entre i et j sinon d(i,j) = min (d(i,k) + d(k,j)) k Exemple : 1 N N Livraison Client 1 M M 1 Client N N N N N Commande Livraison du produit 1 Région 1 1 N N 1 1 N Affectation Personnel N N 1 M N 1 N Stock 1 N Entrepôt Lignes Commande N N Tâche Employé 1 1 N N N 1 1 3 classes Distance hiérarchique Niveau de réapprovionnement Produit Akoka & Wattiau 30
2 - Distance hiérarchique d(i,j) = 1 si une relation 1:N existe entre i et j d(i,j) = 2 si une relation M:N existe entre i et j sinon d(i,j) = min (d(i,k) + d(k,j)) k Exemple : 1 N N Livraison Client 1 M 1 M Client N N N N N Commande Livraison du produit 1 Région 1 1 N N 1 1 N Affectation Personnel N N 1 M N 1 N Stock 1 N Entrepôt Ligne Commande N N Tâche Employé 1 1 N N N 1 1 4 classes Distance hiérarchique Niveau de réapprovisionnement Produit Akoka & Wattiau 31
3 - Distance cohésive d(i,j) = 1 si i est une entité faible et j son entité régulière d(i,j) = 10 si i est une classe spécialisée de j d(i,j) = 100 si i et j participent exclusivement dans une relation ... sinon d(i,j) = min (d(i,k) + d(k,j)) k Exemple : Notes Editeur Note Source Adresses Source Adresse Editeur N N N Historique lettre N 1 1 N 1 1 1 N négocie avec Source Editeur Historique Editeur 1 N N N 1 1 Facture 1 N 1 G Editeur Import Règlement N Echange Commercial Distributeur entité faible G Lien entre entité spécialisée et générique entité régulière Akoka & Wattiau 32
3 - Distance cohésive d(i,j) = 1 si i est une entité faible et j son entité régulière d(i,j) = 10 si i est une classe spécialisée de j d(i,j) = 100 si i et j participent exclusivement dans une relation ... sinon d(i,j) = min (d(i,k) + d(k,j)) k 2 classes Distance cohésive Exemple : Notes Editeurs Note Source Adresse Source Adresse Editeur N N N Historique lettre N 1 1 N 1 1 1 M N négocie avec Source Editeur Historique Editeurs 1 N N N 1 1 Facture 1 N 1 G Editeur Import Règlement N Echange Commercial Distributeur entité faible G entité régulière Lien entre entité spécialisée et générique Akoka & Wattiau 33
3 - Distance cohésive d(i,j) = 1 si i est une entité faible et j son entité régulière d(i,j) = 10 si i est une classe spécialisée de j d(i,j) = 100 si i et j participe exclusivement dans une relation ... sinon d(i,j) = min (d(i,k) + d(k,j)) k 3 classes Distance cohésive Exemple : Notes Editeur Note Source Adresse Source Adresse Editeur N N N Historique lettre N 1 1 N 1 1 1 M N négocie avec Source Editeur Historique Editeur 1 N N N 1 1 Facture 1 N 1 G Editeur Import Règlement N Echange Commercial Distributeur entité faible G Lien entre entité spécialisée et générique entité régulière 34 Akoka & Wattiau
3 - Distance cohésive d(i,j) = 1 si i est une entité faible et j son entité régulière d(i,j) = 10 si i est une classe spécialisée de j d(i,j) = 100 si i et j participe exclusivement dans une relation ... sinon d(i,j) = min (d(i,k) + d(k,j)) k 4 classes Distance cohésive Exemple : Notes Pulicitaires Note Source Adresse Source Adresse Editeur N N N Historique lettre N 1 1 N 1 1 1 M N négocie avec Source Editeur Historique Editeur 1 N N N 1 1 Facture 1 N 1 G Editeur Import Règlement N Echange Commercial Distributeur entité faible G entité régulière Lien entre entité spécialisée et générique Akoka & Wattiau 35
VI - Classification automatique de schémas E-R 4 - Conclusion sur les distances E-R • La distance visuelle regroupe les objets proches sur le diagramme • La distance hiérarchique permet de retrouver les horizons logiques de Feldman • La distance cohésive permet de classifier en respectant la hiérarchie de critères proposée par Teorey Akoka & Wattiau 36
VII - Classification automatique de schémas objets • On peut appliquer la même technique aux schémas orientés objets • L’algorithme utilisé est le même • Il faut définir des distances spécifiques • Nous décrivons ici cinq distances adaptées à différents modèles objets • une distance structuro-connective • une distance catégorielle • une distance naturelle • une distance communicative simple • une distance communicative fréquente Akoka & Wattiau 37
VII - Classification automatique de schémas objets 1 - Distance structuro-connective • s’appuie sur les concepts du modèle objet OOA [Coad], en particulier : • les liens structurels (agrégation, généralisation, composition), • les connexions d’instances, • les connexions de message. • La distance entre deux objets vaut : • 1 s’il existe un lien hiérarchique entre eux, • 10 s’il existe une connexion d’instance ou de message entre deux objets, • au plus court chemin dans les autres cas Akoka & Wattiau 38
VII - Classification automatique de schémas objets 2 - Distance catégorielle • s’appuie sur les concepts du modèle objet OOD, en particulier : • les liens d’héritage, • les relations uses for entre les classes. • La distance entre deux objets vaut : • 1 s’il existe un lien d’héritage entre eux, • 10 s’il existe une relation uses for avec des cardinalités 1-+, 1-*, 1-? entre eux, • 100 s’il existe une relation uses for avec une cardinalité *+,** ou ++ • ou au plus court chemin dans les autres cas. Akoka & Wattiau 39
VII - Classification automatique de schémas objets 3 - Distance naturelle • s’appuie sur les concepts du modèle des objets naturels, qui s’apparente plus à un modèle E-R étendu : • les liens de généralisation, • les associations de cardinalité minimale nulle, • les dépendances d’existence, • les autres liaisons sémantiques. • La distance entre deux entités vaut : • 1 s’il existe une association de card. min. 1 et aucune généralisation, ni dépendance d’existence ni assoc. de card. min. 0 • au plus court chemin si elles sont dans un même sous-graphe connexe, et à l’infini sinon. Akoka & Wattiau 40
VII - Classification automatique de schémas objets 4 - Distances communicatives • Un intérêt du modèle objet est qu’il intègre des caractéristiques de traitement • Les distances communicatives utilisent le concept de message pour définir la proximité entre deux objets • Nous utilisons le modèle POOM (Parallel Object Oriented Model) qui est un modèle objet incluant le parallélisme Akoka & Wattiau 41
Formalisme graphique de POOM Nom de l'objet Entité ou Relation Identifiant de l'objet # Attribut 1 Attribut 2 ... Attribut n Attributs de l'objet statique Evénement interne Etape 1 Méthode publique Méthode 10 Méthode 20 Attributs de l'objet dynamique Message Etape 2 Méthode privée Méthode 30 Akoka & Wattiau 42
VII - Classification automatique de schémas objets 4 - Distances communicatives • La distance communicative simple s’appuie sur la communication entre deux objets : l’existence d’un flux de messages entre objets traduit un lien sémantique entre ces objets. • d(i,j) = 1 si un message existe entre les objets i et j • sinon d(i,j) est égal au plus court chemin de messages entre i et j Akoka & Wattiau 43
VII - Classification automatique de schémas objets 4 - Distances communicatives • La distance communicative fréquente s’appuie aussi sur la communication entre deux objets : l’existence d’un flux de messages entre objets traduit un lien sémantique entre ces objets. • Elle intègre de plus la notion de fréquence de messages: plus deux objets communiquent fréquemment, plus ils sont proches sémantiquement 1 d(i,j) = ------- où fk est la fréquence du k -ème message fk entre les objets i et j sinon d(i,j) = min d(i,k) + d(k,j) k Akoka & Wattiau 44
VII - Classification automatique de schémas objets 5 - Conclusion • La distance structuro-connective permet de retrouver les sujets d’OOA • La distance catégorielle repère les catégories du modèle OOD • La distance naturelle isole les objets du modèle des objets naturels • La distance communicative fréquente permet de regrouper dans une classe les objets appartenant au même processus Akoka & Wattiau 45
VIII - Intégration vs Classification de schémas conceptuels Akoka & Wattiau 46
VIII - Autres applications • La classification de schémas peut être utilisée après intégration pour valider cette dernière et retrouver les vues initiales • La classification de tuples peut être utilisée pour définir un partitionnement de B.D. relationnelles parallèles • La classification d’attributs peut être utilisée pour alléger le processus de comparaison avant intégration des vues Akoka & Wattiau 47