710 likes | 1.11k Views
Data Mining Un état de l’art. DEA - RACOR Module : Data Mining et bases de données semi-structurées. L’Extraction de Connaissances à partir de Données (ECD). [Fayyad et al. 96] [Kodratoff 97] [Bigolin et al. 98]. Connaissances. Règles
E N D
Data Mining Un état de l’art DEA - RACOR Module : Data Mining et bases de données semi-structurées
L’Extraction de Connaissances à partir de Données (ECD) [Fayyad et al. 96] [Kodratoff 97] [Bigolin et al. 98] Connaissances Règles Formalisme logique Graphes ... Données prétraitées Données sélectionnées Base de données Pré-traitement Transformation des attributs Fouille de données (Data Mining) Sélection des données Interprétation Evaluation
L’apprentissage • Problématique ancienne abordée dans de nombreux domaines : • Psychologie, Statistique, Didactique, Intelligence Artificielle, ... • Donner une définition précise de l’apprentissage reste un problème difficile et délicat : • «L’apprentissage je sais ce que c’est tant qu’on ne me demande pas de le définir» • S. Boucheron • En IA, l’apprentissage (automatique) correspond à une caractéristique des machines : • leur capacité à organiser, construire et généraliser des connaissances • pour une utilisation ultérieure • leur capacité à tirer profit de l’expérience pour améliorer la résolution • d’un problème • Exemple • - un patient décrit par un ensemble d’attributs (âge, sexe, pression sanguine, ...) • - la classe : attribut binaire concluant ou non à l’affection du patient par une maladie • - apprentissage automatique : «apprendre» des règles de classification à partir d’un • ensemble de descriptions de patients.
L’apprentissage automatique • Objectif des algorithmes d’apprentissage : • Trouver une généralisation satisfaisante du problème en explorant un • espace de généralisations possibles [Michalski 91]. • L’apprentissage inductif • apprentissage à partir d’exemples ou d’observations : • recherche de descriptions générales plausibles qui expliquent les données • en entrée et sont utiles pour en prédire de nouvelles [Dietterich 93]
L’apprentissage automatique • Ces algorithmes peuvent différer par le type de connaissances utilisées, leur représentation • et leurs stratégies d’apprentissage [Carbonell 84] [Kodratoff 91][Michell 97] • Exemples : • les arbres de décision, • les règles de production, • les formalismes logiques, • les réseaux, • les graphes, ... • De l’acquisition à l’extraction des connaissances • L’apprentissage automatique permet de remédier au problème de la prise d’expertise. • Deux approches distinctes de l’apprentissage existent : • apprentissage non supervisé • apprentissage supervisé
Embranchements Classe Ordre Famille Genre Espèces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . L’apprentissage non supervisé • On dispose d’une masse de données indifférenciées, et l’on désire savoir • si elles possèdent une quelconque structure de groupes. • Clustering ou Cluster Analysis [Bournaud 96] • Regrouper en classes des objets en se basant sur des similarités entre eux • (maximiser la similarité intra-classes et minimiser la similarité inter-classes) Extrait de la classification taxinomique de Linné
Description des exemples étiquetés par leur classe Fonction de classement Apprentissage supervisé L’apprentissage supervisé • On dispose d’un ensemble de données étiquetées par un expert • la base d’apprentissage • Objectif de l’apprentissage supervisé : • construire à partir de la base d’apprentissage des fonctions de classement • Fonction de classement : • reconnaît un attribut particulier (la classe) à partir de la description d’un objet.
Fonction de classementj Fonction de classementj L’apprentissage supervisé • La phase d’apprentissage Apprentissage • Base d’apprentissage • W • La phase de reconnaissance
Espace de mesure Espace de représentation Espace de décision Prétraitements filtrage lissage ... Analyse et Description Identification et Classement Modélisation et Apprentissage L’apprentissage supervisé Schéma général d’un système de Reconnaissance de Formes
L’espace de mesure • Représentation du monde réel • Réalisée à l’aide d’une méthode de perception : lecapteur • Fonction du capteur : transformation de la grandeur physique en signal adapté • au système de traitement : le codage • Un certain nombre de prétraitements est effectué dans l’espace de mesure
L’espace de représentation • Population P d’individus ou d’exemples. • Les exemples sont décrits par des attributs (variables exogènes) notées • X1, X2 , ..., Xp • qui prennent leur valeurs dans R1, R2 , ..., Rp • Espace de représentation : R = R1 x R2 x ...x Rp • Une fonction permet d’associer à chaque exemple sa représentation. • On note Xi(p) la valeur prise par l’attribut Xi pour l’exemple p • c : PR = R1 x R2 x ...x Rp • pc(p)=(X1(p),..., Xp(p))
L’espace de décision ou d’interprétation • Les classes sont représentées par une variable notée Y qui prend • ses valeurs dans un ensemble C discret et de cardinal fini. • C : espace d’interprétation. • Objectif de la RdF : déterminer une procédure de prévision qui permette • d’expliquer et de prédire la classe de tous les exemples de la population. • Identification, opérateur de RdF ou fonction de classement : • application de l’espace de représentation dans l’espace d’interprétation :
L’apprentissage supervisé • Population P • Xi variables prédictives : les attributs • Y variable à prédire : la classe c(p)=(X1(p),..., Xp(p)) p Espace de Représentation R Population P c W W’ j Y Y(p) j (p) Ensemble des classes C
De l’approche statistique • Les exemples sont représentés par des points dans un espace de • dimension p (nb d’attributs). • Les généralisations sont le plus souvent représentées par des surfaces de décision • dans cet espace : hyperplans, polynômes d’un certain degré, ... • Contraintes difficilement interprétables par l’utilisateur • - la régression suppose un modèle linèaire sous-jacent • - hypothèses sur les lois de probabilités des variables étudiées en analyse discriminante • - analyse en composantes principales difficile à interpréter, ... • Quelques méthodes : • La régression • L’analyse discriminante • à but descriptif • à but décisionnel • La discrimination fonctionnelle
Y yi yi* X xi La régression • Objectif : prédire une variable Y (variable expliquée) à l’aide d’un ensemble de • variables X1, X2 , ..., Xp(variables explicatives) • Toutes ces variables sont quantitatives continues • On désire déterminer une fonction f telle que f(X1, X2 , ..., Xp ) soit aussi proche • que possible de Y • Modèle linéaire • - Régression linéaire simple • Y=a+bX +e • Estimation de a, b et e sur l’échantillon • d’apprentissage en utilisant la méthode • des moindre carrés [Saporta 90] • - Régression linéaire multiple • trouver l’hyperplan qui ajuste au mieux le • nuage de points • des exemples (X1, X2 , ..., Xp ,Y)
L’analyse discriminante • Extension de la régression dans le cas où la variable à expliquer est qualitative. • Deux aspects : • Analyse discriminante à but descriptif : l’Analyse Factorielle Discriminante • Objectif : • - déterminer les combinaisons linéaires de variables qui permettent de • séparer au mieux les différentes classes, • - donner une représentation graphique. • Analyse discriminante à but décisionnel • Objectif : • - prédire la classe d’un nouvel objet décrit par la valeur de ces attributs.
L’Analyse Factorielle Discriminante AFD • Trouver les axes factoriels qui discriminent au mieux les C classes. • Quand le nombre d’attributs est très élevé : l’AFD cherche des variables • synthétiques pour représenter au mieux les données et la discrimination des • exemples selon les classes. • Déterminer de nouvelles variables correspondant à des directions de IRp qui séparent • le mieux possible en projection les C classes [Saporta 90] • Les variables discriminantes sont des combinaisons linéaires des variables explicatives.
X2 Axe a X1 Axe a L’Analyse Factorielle Discriminante AFD • Première variable discriminante on cherche la meilleure combinaison U : • U = a1X1 + a2X2 +… + aiXi +…+ apXp Xi :les p variables explicatives, i=1…p • ai: les coefficients de la combinaison • Chercher la meilleure combinaison linéaire --> chercher l’axe a le plus discriminant • en projection : les C centres de gravité de chaque classe doivent être aussi séparés que • possible en projection sur cet axe a, tandis que chaque sous-nuage • doit se projeter de manière groupée autour de la projection de son centre de gravité. • inertie inter-classes la plus grande possible, et inertie intra-classes minimale. Recherche du meilleur axe par l’AFD Projection des exemples sur le 1er axe factoriel
X2 d(x,g2) < d(x,g1) x est affecté à la classe y2 x g2 g1 X1 L’Analyse Discriminante à but décisionnel • Meilleure représentation de la séparation en C classes des N exemples trouvée : • on cherche à affecter un nouvel objet à l’une des classes. • Les règles d’affectation géométriques • Calculer les distances de l’observation à classer à chacun des C centres • de gravité g1, ..., gj, …, gC. • Classe attribuée : celle • de plus faible distance.
Fonction discriminante a2 a1 L’Analyse Discriminante à but décisionnel • Résultat de l’AFD : • C fonctions discriminantes linéaires , • les surfaces séparant les classes sont des hyperplans. • Visualisation des fonctions • discriminantes (C=2)
L’Analyse Discriminante à but décisionnel • Les règles d’affectation probabilistes • La règle d’affectation dépend de la probabilité qu’un individu représenté • par le vecteur X, provienne de la classe yj : • P(yj/X) • L’observation X est affectée à la classe qui a la probabilité a posteriori • maximale : c’est la règle de Bayes. • nécessité de connaître ou d’estimer P(yj/X).
X2 X1 La discrimination fonctionnelle • définir des fonctions permettant de séparer partiellement ou totalement • des classes représentées par les vecteurs attributs de leurs exemples. • La forme de la fonction de discrimination dépend de la forme des classes, • pas toujours linéaire. • Un exemple de discrimination linéaire dans le cas de deux classes • Chercher la droite w1.x1+w2.x2+w3=0 • telle que tous les points de la classe • y1 soient d’un côté (W.X<0, • avec W=(w1,w2,w3) et X=(x1,x2,1)) • et tous les points de la classe y2 • soient de l’autre côté (W.X>0). Généralisation possible aux cas de plusieurs classes (hyperplans) dans un espace de représentation de dimension p.
La discrimination fonctionnelle Plusieurs méthodes de détermination des fonctions de discrimination linéaires existent : l’analyse discriminante, l’algorithme du Perceptron, ... [Bélaïd et al. 92]. Discrimination linéaire par morceaux. Classes non linéairement séparables mais formées de sous-classes qui, elles, sont linéairement séparables. Plus généralement Lorsque les classes ne sont pas linéairement séparables, il est possible de définir des fonctions de discrimination non linéaires, par exemple de forme polynomiale, exponentielle, ...
De l’approche probabiliste La théorie bayésienne de la décision Règle de décision bayésienne : associer à chaque nouvel individu à classer la classe la plus probable. Fonction de classement définie par : j : RC c(p)=X yj / pour tout y dans C P(yj /X) >= P(y/X) P(yj /X) est une probabilité a posteriori --> doit être estimée Formule de Bayes : ce qui s’écrit encore : avec l’hypothèse que l’ensemble {y1,y2,...,yC} constitue un système complet d’événements.
De l’approche probabiliste • Le problème revient donc à déterminer P(X/yj) pour chaque classe yj, j=1...C. • Probabilité conditionnelle échantillonnée par expérience : • une statistique permet alors de l’estimer. • Deux types de solutions possibles : • on se donne a priori des lois de probabilités paramètrées et on • estime les paramètres en utilisant l’ensemble • d’apprentissage : méthodes paramétriques. • on cherche à interpoler la fonction de décision à partir des échantillons • donnés par l’ensemble d’apprentissage • Pas d’hypothèse spécifique sur la famille de loi de probabilités : • méthodes non paramétriques • [Duda et al. 73] [Fukunaga 72] [Simon 85] [Saporta 90] [Caraux et al. 96]
De l’approche probabiliste • Méthodes non paramétriques • Principe simple : reconstituer directement par des techniques • d’interpolation les probabilités recherchées à partir des exemples de l’ensemble • d’apprentissage, et ce sans aucune connaissance sur la distribution • de probabilités sous-jacente. • Les méthodes non paramétriques sont très nombreuses : • la méthode des histogrammes • la méthode des noyaux de Parzen [Parzen 62] • les réseaux de cooptation (fondés sur les notions de graphes de voisinages connexes) • la discrimination par boules • la méthode des k plus proches voisins • les classifieurs bayésiens simples • ...
Méthodes non paramétriques • La discrimination « par boules » • consiste à tracer autour du point X représentatif du nouvel individu à classer, • une boule de rayon donné dans IRp (p : nombre d’attributs) • On compte ensuite le nombre kj d’exemples de l’ensemble d’apprentissage • de classe yj dans cette boule. • On estime alors directement P(yj /X) par :
Méthodes non paramétriques • La méthode des k plus proches voisins • Introduite par Cover et Hart en 1967. • connaît un essor important : apprentissage fondé sur les « instances » • (instance-based learning) [Aha et al. 91] [Dasarathy 90]. • Règle de décision des k-ppv • examiner les k plus proches voisins, au sens d’une métrique à préciser, • du nouvel individu à classer dans l’ensemble d’apprentissage. • affecter au nouvel exemple la classe de la majorité. • La probabilité a posteriori s’obtient comme pour la discrimination par boules • (pas grand sens si k est faible) • Apprentissage --> mémorisation des exemples, • Partie calculatoire --> différée à la phase de test. • Inconvénient : nécessité, coûteuse, de mémoriser tous les exemples et de • comparer chaque nouvel individu à classer à tous ces exemples.
Méthodes non paramétriques • Les classifieurs bayésiens simples • Leur principe consiste à estimer, à partir de l’ensemble d’apprentissage, les probabilités • conditionnelles des valeurs associées à chaque attribut Xi connaissant la valeur de la classe : • P(Xk=vk,i/yj) • Avec Xk kième attribut à valeurs dans Rk • Rk domaine de variation de l’attribut Xk dans l’ensemble d’apprentissage , • on note Rk={vk,1,...,vk,i,...,vk,Card(Rk)} • Probabilités estimées en fonction du nombre de fois où l’attribut Xi et la classe yj • co-occurent sur l’ensemble d’apprentissage. • Phase d’apprentissage : estimer et mémoriser la matrice de ces probabilités conditionnelles. • Phase de reconnaissance : pour classer un nouvel individu X, on applique la règle de Bayes : • Calcul de la probabilité pour chaque classe, affectation à X la classe de plus forte probabilité.
x1 x2 x3 ... xn y Les approches connexionistes Panoplie d’outils pour résoudre automatiquement des problèmes de classification et d’approximation de fonctions. Modèle de neurone formel : le modèle de Mc Culloch et Pitts 1943 y : activité du neurone recevant les activations x1, x2, .., xn : Coefficient wi : force de la connexion entre l’unité i et l’unité d’activité y (poids synaptique) S : fonction d’activation : s(h) =1 si h>=0 et s(h) = 0 si h<0 : fonction de seuil binaire : seuil
Les approches connexionistes • Le vecteur de poids w et le seuil associés à un neurone d’activité y définissent • un hyperplan H d’équation w.x = dans l’espace des entrées. • Séparation de l’ensemble des vecteurs d’entrée en 2 groupes : • ceux de sotie 1 : w.x >= • ceux de sortie 0 : w.x < • un neurone formel effectue une séparation linéaire des entrées • Extension à d’autres modèles • Différents types de fonctions non linéaires peuvent être utilisées à la place de la • fonction de seuil binaire. • Possibilité de changer l’hyperplan pour d’autres • formes de surfaces discriminantes. • La généralisation consiste à remplacer • le polynôme w.x par un polynôme • de degré supérieur ou par d’autres • types de fonctions. X2 Classe A Classe B X1 Régions de décision dans le plan : fonction à base radiale (par ex. une gaussienne)
... x y Les approches connexionistes A partir du modèle de Mc Collogh et Pitts divers réseaux peuvent être constitués. Modèles composés de couches de neurones Les activations de neurones se propagent dans un seul sens : de la couche entrée à la sortie. A une entrée, représentée sous forme vectorielle, un réseau à couche associe une sortie codée sur sa dernière couche [Rosenblatt 62] • Perceptron élémentaire • Une seule couche de neurones • formels reliés à une couche d’entrée • Perceptron multicouches • Plusieurs couches de neurones formels : d’entrée, cachées, de sortie Les réseaux de neurones Systèmes considérés comme des boîtes noires : les connaissances acquises durant l’apprentissage et codées dans les connexions d’un réseau ne sont pas interprétables en termes de symboles et de règles .
Apprentissage par génération de règles • Méthodes qui consistent à générer directement ou indirectement des règles de classification. • Règles de production de la forme : • Si [prémisse] Alors [conclusion] • Prémisse : conjonction de descripteurs logiques du type Attribut = valeur • (ou opérateur de comparaison, ou ensemble de valeurs) • Conclusion : Classe = modalité. • Méthodes à fort pouvoir explicatif , non paramétriques. • Objectif de l’apprentissage inductif par génération de règles : • identifier un nombre minimal de règles qui généralisent les exemples • de la base d’apprentissage. • Une règle peut être considérée comme une combinaison de variables et de valeurs. • Le problème de recherche d’un sous ensemble minimal de combinaisons est un problème • NP-complet et les méthodes existantes sont toujours heuristiques.
Apprentissage par génération de règles • Exploration sélective du treillis de Galois d’une relation • binaire (CHARADE [Ganascia 87], IPR[Maddouri et al. 97] ) • Méthodes d’apprentissage dites «disjonctives» • (Espace des versions [Mitchell 82], Algorithme de • l’Etoile [Michalski 83]) • Approches connexionistes • ([D’Alché-Buc 93] [Craven et al. 94] [Nedjari 97])
Apprentissage par génération de règles • Les arbres de décision (ID3, C4.5 [Quinlan 83, 96], • CART [Breiman et al. 84]) • Les graphes d’induction (SIPINA [Zighed et al. 92], • [Rakotomalala 97]) • Les Systèmes d’Inférence Floue ([Ishibuchi et al. 92], • [Nozaki et al. 94] )
Les arbres de décision • Trois systèmes ont plus particulièrement marqué les travaux sur les arbres de décision : • ID3 et C4.5 [Quinlan 83] [Quinlan 93] dans la communauté de l’IA • CART [Breiman et al. 84] dont l’origine est statistique. • Plus récemment, des travaux ont étudiés les arbres de décision flous • [Ramdani 94] [Marsala 98], qui permettent de traiter des connaissances imprécises. • Un arbre de décision est constitué de trois types d’éléments : • les nœuds • les arcs • les feuilles • Chaque nœud est associé à un attribut et représente un test (par exemple taille=grand). • Chaque arc issu de ce nœud correspond à l’une des valeurs de cet attribut, • les arcs sont étiquetés par les différents résultats des tests. • Les feuilles sont des nœuds où un ensemble d’exemples vérifient un critère d’arrêt, • par exemple, tous les exemples du nœud possèdent la même valeur pour la classe.
Cheveux noir blond roux _ Yeux + brun bleu _ + Les arbres de décision • Pour illustrer ce processus, considérons l’exemple donné dans [Quinlan 83]. • Chaque individu est décrit par 3 attributs : • taille dont les valeurs possibles sont {petit, grand} • cheveux avec les valeurs {noir, roux, blond} • yeuxavec les valeurs {bleu, brun} • Attributs Classe • Taille Cheveux Yeux • petit blond bleu + • grand blond brun - • grand roux bleu + • petit noir bleu - • grand noir bleu - • grand blond bleu + • grand noir brun - • petit blond brun -
Les arbres de décision • Choix du « meilleur » attribut pour partitionner la base : • Une mesure de discrimination permet de choisir l’attribut qui réduit • au maximum l’incertitude de prédiction des classes. • Mesures souvent issues de la théorie de l’information ou des statistiques. • le gain d’information (ou information mutuelle) issu de la mesure • d’entropie de Shannon utilisé par Quinlan [Quinlan 83] • le critère de Gini utilisé dans le système CART : mesure l’impureté d’un attribut • au regard d’une classe [Breiman et al. 84] • Etude détaillée de différentes mesures de discrimination dans [Rakotomalala 97]
Les arbres de décision • L’entropie de Shanon • Entropie en bits d’un message M : H(M)= Log2(n) • n : nb de significations différentes que peut prendre le message. • Quantité de bits nécessaires pour connaître la classe d’une observation : • avec pk=Pr(Y=yk) et y1, ..., yC les C classes. • Entropie conditionnelle • Nb de bits nécessaires pour connaître Y sachant la valeur xl de l’attribut X • avec pkl=Pr(Y=yk /X=xl) • En moyenne, pour connaître la valeur de Y sachant X : • avec pl=Pr(X=xl) • Gain d’information DS(Y) = S(Y) - S(Y/X)
Les arbres de décision • Stratégie de partitionement de la base • Elle consiste à décomposer la base d’apprentissage en sous-bases, chacune induite • par une modalité de la liste des modalités de l’attribut traité. • Cas des attributs numériques une étape de discrétisation est nécessaire. • Critère d’arrêt • Si tous les exemples de la sous-base courante possèdent la même classe, • la construction de l’arbre peut s’arrêter, comme dans ID3. • On peut choisir d’arrêter la construction en fonction d’autres critères • comme la taille de la base. • Un arbre de décision : une base de règles • Chaque chemin effectue une série de tests sur les valeurs des attributs • pour déduire la classe à affecter aux valeurs testées. • Un chemin <==> une règle de production
La méthode IPR (1) • IPR : Incremental Production Rule based method • Méthode multi-attribut basée sur la notion géométrique de relation rectangulaire • [Maddouri et al. 95] [Maddouri et al. 97] • Transformer la description des exemples de la base d’apprentissage en une relation binaire. • La relation binaire résultante regroupe un ensemble d’objets (les exemples) avec • un ensemble de propriétés (les attributs). • Une règle est alors une association entre un ensemble d’objets de même classe et un • ensemble de propriétés vérifiées par tous ces objets. • ==> relation rectangulaire, ou rectangle. • Problème d’extraction des règles : problème de recouvrement de la relation binaire. • IPR consiste à chercher de façon heuristique un ensemble minimal • de rectangles maximaux qui couvrent une relation binaire.
La méthode IPR (2) 2 attributs : l’âge et la pression sanguine. Exemples Attributs Classe Ag Pr O1 37 120 1 O2 35 122 1 O3 62 160 2 O4 67 152 2 O5 66 160 2 On distingue deux classes : 1 : rétrécissement du diamètre de la veine <= 50% 2 : rétrécissement du diamètre de la veine > 50% La discrétisation de chaque attribut conduit à deux propriétés : Ag1 : Ag >= 50 ans Pr1 : Pr <= 140 mm Hg Ag2 : Ag > 50 ans Pr2 : Pr > 140 mm Hg
O3 O1 Ag1 Ag2 O4 Pr2 O2 Pr1 O5 RE1={O1,O2}x{Ag1,Pr1} RE2={O3,O4 ,O5}x{Ag2,Pr2} Couverture Cv={RE1,RE2} Transcription des rectangles en règles Si Ag £ 50 et Pr £ 140 Alors classe 1 Si Ag > 50 et Pr > 140 Alors classe 2 La méthode IPR (3) La transformation des données par la discrétisation suivie d’un codage disjonctif complet conduit à la relation binaire suivante : Ex Attributs Classe Ag1 Ag2 Pr1 Pr2 O1 1 0 1 0 1 O2 1 0 1 0 1 O3 0 1 0 1 2 O4 0 1 0 1 2 O5 0 1 0 1 2 Décomposition en rectangles et écriture des règles par la méthode IPR.
Fonction caractéristique m jeune 1 1 Age Age 35 25 45 Sous-ensemble classique Sous-ensemble flou Les Systèmes d’Inférence Floue - SIF (1) • Sous-ensembles flous • Introduits par Zadeh au milieu des années 60 pour répondre au besoin • de représenter, formaliser et traiter les informations de nature imparfaite [Zadeh 65]. • Sous-ensembles flous et variables linguistiques --> représenter les imprécisions. • Théorie des possibilités --> gérer les incertitudes • Sous-ensembles flous : généralisation du concept de sous-ensembles classiques • caractère graduel de la notion d’appartenance d’un élément à un sous ensemble. • Un sous-ensemble flou A • d’un univers E est défini • par une fonction • d’appartenance • fA : E [0,1] • x fA(x)
A15 A25 A35 A45 A55 1 0 X1 X1- X1+ Les SIF (2) • Une règle floue peut être formalisée de la manière suivante : • Si X est A Alors Y est B • où A et B représentent des sous-ensembles flous. • D’une manière générale, on peut combiner des propositions floues de types • « X est A » par des opérateurs logiques de conjonction et de disjonction. • La construction des règles floues à partir de données numériques consiste en deux phases : • - une partition floue de l’espace des entrées (espace de représentation) • - la construction d’une règle floue pour chaque sous-espace flou issu de cette partition.
A15 A25 A35 A45 A55 A15 A25 A35 A45 A55 Les SIF (3) • Une règle est construite • dans chaque région floue. • Ces régions constituent • les prémisses des règles : • c’est le domaine d’activation des règles. • RijK : Si X1 est AiK et X2 est AjK • Alors X=(X1,X2) appartient à yijK avec un degré CF= CFijK • i =1,2,...,K et j=1,2,...,K. • K nombre de sous-ensembles flous sur chaque axe de l’espace des entrées • RijK label de la règle floue • AiK, AjK sous-ensembles flous • yijK conclusion de la règle (l’une des C classes y1, y2 ..., yC) • CFijK degré de certitude de la règle floue.
Les SIF (4) Construction des règles floues La conclusion et le degré de certitude de chaque règle peuvent être déterminés de différentes manières [Ishibuchi et al. 92] et [Nozaki et al. 94] (1) Calculer la somme des compatibilités des exemples d’apprentissage, par rapport à la prémisse, dans chaque classe : yt pour t=1,2,...,C (2) Trouver la classe qui a la plus grande compatibilité avec la prémisse bya=max{by1, by2, ..., byC} (3) CFijK est définie par : avec
Les SIF (5) • Classification d’un nouvel objet, phase de reconnaissance • (1) Calculer ayt pour t=1, ...,C • ayt =max{miK(X’1). mjK(X’2).CFijK / yijK=yt , Rij dans SR} • (2) trouver la classe ya qui maximise ayt • Performances des classifieurs à base de règles floues • Dépendent directement des partitions floues, • Partition trop grossière : • le pouvoir de classification des règles floues générées peut être bas. • Partition trop fine : • cas possible où des règles floues ne peuvent pas être construites • à cause du manque d’exemples dans la région floue correspondante. • éléments non classés lors de la phase de classification • Solutions : Discrétisation supervisée, • Sous-espaces flous distribués.