160 likes | 447 Views
Les attributs, leurs types, leurs valeurs. Christelle Scharff IFI Juin 2004. Attributs. Un attribut a un type et des valeurs contraintes par ce type Le type d’un attribut peut être: Ordinal Nominal Intervalle Ratio. Attributs à valeurs nominales.
E N D
Les attributs, leurs types, leurs valeurs Christelle Scharff IFI Juin 2004
Attributs • Un attribut a un type et des valeurs contraintes par ce type • Le type d’un attribut peut être: • Ordinal • Nominal • Intervalle • Ratio
Attributs à valeurs nominales • Les valeurs sont des symboles (des noms) • Exemple: • Les valeurs de Temps sont {Ensoleillé, Pluvieux, Neigeux, Gris} • Aucune relation (ordre ou distance) entre les nominaux n’existe • Seuls des tests d’égalité peuvent être exécutés • Exemple de règle: • If Temps = Pluvieux Then Match = No
Attributs à valeurs ordinales • Une notion d’ordre s’impose sur les ordinaux • Mais il n’est pas possible de calculer directement des distances entre des valeurs ordinales • Les opérations d’addition et de soustraction ne sont pas possibles • Exemple: • La température est décrite par les adjectifs {chaud, froid, moyen}, et chaud > moyen > froid • Exemple de règle: • If température > froid Then match = Yes
Attributs de type intervalle • Les intervalles impliquent une notion d’ordre, et les valeurs sont mesurées dans des unités spécifiques et fixées • La somme, la différence et le produit de 2 intervalles ne sont pas possibles (car le point zéro n’existe pas) • Exemples: • La température exprimée en degrés Celsius ou Fahrenheit • L’attribut année
Attributs de type rapport (ratio) • Toutes les opérations mathématiques sont autorisées sur les attributs de ce type • Exemple: L’attribut distance • On peut comparer 2 distances • On peut additionner 2 distances • La distance entre un objet et lui-même est zéro
Les types des attributs en pratique • En général: nominaux et ordinaux • Les attributs nominaux sont aussi appelés attributs discrets • Mais le terme “discret” implique une notion d’ordre • Les attributs ordinaux sont aussi appelés attributs numériques • Mais le terme “numérique” implique certaines opérations • Cas particulier: Les attributs de type booléen
Transformation d’ordinaux en booléens • Un attribut de type ordinal à n valeurs peut être transformé en n-1 attributs de type booléen • Cette solution est plus appropriée que d’utiliser un attribut de type nominal
Les attributs numériques • Les numériques sont identifiés aux réels • Les attributs numériques sont interprétés comme des ordinaux si les opérateurs de relation sont utilisés • Les attributs numériques sont interprétés comme des rapports s’il est nécessaire de calculer des distances
Nominal versus Ordinal • L’utilisation d’un ordinal peut permettre de simplifier les règles • Exemple: • Age prend les valeurs {Jeune, Adulte, Âgé} • Si Age est un attribut nominal: • If Age = Jeune Then Loisirs = Yes • If Age = Adulte Then Loisirs = Yes • If Age = Âgé Then Loisirs = No • Si Age est un attribut ordinal: • If Age <= Adulte Then Loisirs = Yes • If Age = Âgé Then Loisirs = No
Valeurs manquantes • Les données ne sont pas toujours collectées pour être fouillées • Les valeurs sont manquantes parce que: inconnues, non nécessaires, non enregistrées… • Exemples: Non-fonctionnement du matériel, mesure non possible, temps… • Parfois, une valeur manquante doit être détectée et ajoutée, car elle signifie qu’il y a un problème dans les données • Exemple: Examen médical
Valeurs incohérentes • Les données ne sont pas toujours collectées pour être fouillées • Les valeurs sont incohérentes parce que: des erreurs (délibérées ou non), des omissions, des duplications ont été introduites… • Exemples: • Erreurs typographiques dans les nominaux • Erreurs de mesure…
WEKA: Le format ARFF Attributs numériques et nominaux
FDD et attributs • Les algorithmes de FDD dépendent beaucoup des types des attributs • Les valeurs manquantes et incohérentes doivent être détectées et traitées spécialement par les algorithmes
Réferences • I. H. Witten, and E. Frank. Data Mining : Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann.