1 / 37

Les données manquantes

Les données manquantes. VIM Amelia missForest missMDA. Packages. 0. Console graphique: vmGuimenu () I. Prévisualisation des NA ( aggr , barMiss,histMiss , marginmatrix , marginplot , matrixplot ) II. Imputation ( irmi , hotdeck , kNN ) III. Visualisation des imputations .

omar
Download Presentation

Les données manquantes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Les données manquantes

  2. VIM Amelia missForest missMDA Packages

  3. 0. Console graphique: vmGuimenu() I. Prévisualisation des NA (aggr, barMiss,histMiss, marginmatrix, marginplot, matrixplot) II. Imputation (irmi, hotdeck, kNN) III. Visualisation des imputations Package Vim=Visualization and Imputation of missing values

  4. Jdd utilisé pour présenter vim Jdd = jeu de données

  5. Visualisation Imputation Diagnostic vmGUImenu()

  6. fonction aggr

  7. aggr(x, delimiter, numbers, prop, sortVars) Les arguments: -x = jdd -delimiter= extension indiquant les variables imputées dan le jdd - numbers et prop= T ou F, sort le nombre ou la proportion de chaque combinaison dans le jdd - sortVars = T ou F, indique si les variables doivent être triées par le nombre de NA/imputations Fonction aggr

  8. -combinations= vecteur donnant la combinaison complète (aucun NA) et les combinaisons de variables pour lesquelles il y a des NA -count = fréquence de chaque combinaison -percent = pourcentage de chaque combinaison -missings= dataframe donnant le nombre de NA/d’imputations pour chaque variable Sorties de aggr

  9. Représentent la proportion de NA (d’une ou plusieurs variables) pour une variable Fonctions barMiss et histMiss

  10. marginplot(x,delimiter) - x=matrice ayant deux colonnes (2 variables du jdd) • Plot les données observées d’une variable en fonction de l’autre et ajoute des informations sur les NA • marginmatrix(x, delimiter) - x =jdd => Idem mais pour plusieurs variables (tous les graphes sur une fenêtre) Fonction marginmatrix et marginplot

  11. Sortie de marginplot

  12. Sortie de marginmatrix

  13. matrixplot(x, delimiter, sortby, col) - x = jdd - sortby= variable par laquelle il faut trier les données - col = 1,2,3 ou 4; choix des couleurs pour NA, données imputées, données observées. • Matrice de même taille que le jdd où un rectangle = 1 cellule, colorée selon la nature de cette donnée Fonction matrixplot

  14. Sortie de matrixplot

  15. Régression de la variable ayant NA (Y) en fonction des autres variables (X1, X2...) Change de Y, prend la variable suivante ayant NA Recommence sur tout jdd jusqu’à ce que les valeurs imputées ne bougent plus. Fonction irmi: PRINCIPE

  16. But: imputation simple ou multiple irmi(x, eps, noise,mi) Les arguments: -x=jdd -eps = seuil de convergence (laissé par défaut) -noise= rajoute du bruit à la valeur imputée (le fait par défaut, mettre FALSE sinon) -mi= nombre d’imputations que l’on veut Fonction irmi = iterativerobust model-based imputation

  17. hotdeck(x, variable, imp_var) Les arguments: - x = jdd - variable = sélection des variables à imputer - imp_var=T ou F, par défaut T => rajoute pour chaque variable imputée une colonne nommée « nomvariable_imp » où les données imputées sont indiquées par un « TRUE » Sortie = le jdd imputée avec la position des données imputées (si imp_var=T) Fonction hotdeck

  18. Sortie hotdeck

  19. Individu n°i avec NA pour Y et profil x (X1, X2…) Prend les individus avec profil x le plus proche de i = ses « voisins » Estime la valeur Y pour i selon celles des voisins Estimation par moyenne, médiane… FONCTION KNN: principe

  20. kNN(x, variable, metric, k, dist_var, weights, numFun, catFun, imp_var) Les arguments -variable= variables à imputer -metric= métrique pour calculer les distances - k= nombre de voisins - dist_var= nom des variables pour calculer les distances - weights = poids des variables utilisées pour calculer les distances - numFun = fonction utilisée pour imputer la donnée (variable quantitative: moyenne, médiane…) -catFun = fonction utilisée pour imputer la donnée (variable qualitative: modalité la plus fréquente par exemple) Fonction kNN

  21. Pbox scattMiss scattJitt ScattmatrixMiss colormapMiss pairsVIM parcoordMiss Fonctions après imputation

  22. Package Amelia Imputation multiple (amelia, write.amelia Visualisation et qualité de l’imputation (missmap, plot, overimpute, mi.meld) This package isnamedafterthisfamousmissingperson Amelia E. Source : http://gking.harvard.edu/amelia

  23. Jdd utilisés pour présenter amelia

  24. Visualisation des NA avec missmap missmap(obj=matrice, data.frame ou objet amelia, csvar=colonne où individus)

  25. But: imputation multiple (algorithme de maximisation de la vraisemblance) amelia(x, m, p2s, cs, logs, sqrts, noms, empri, priors, bounds) Les arguments: - x = jeu de données - m= nombre de matrices créées (nombre d’imputations) - p2s = 0,1 ou 2 en fonction des sorties voulues - cs = « cross section » indiquant la colonnes où sont les individus - logs, sqrts= pour transformer des variables -noms = indiquer les variables qualitatives -empri = valeur de départ (pourcentage) permettant à l’algorithme de trouver plus rapidement le maximum de vraisemblance -priors(prior1 <- c(ligne, colonne, minimum, maximum, IC). Ou prior <- c(colonne, ligne, moyenne, écart-type)) =indiquerunevaleur de départ pour le NA surtelleligne et tellecolonne, matrice à 4 ou 5 colonnes, autant de lignesqu’onsouhaite -bounds= indique pour une variable l’intervalle dans lequel les données manquantes doivent se situer Fonction amelia

  26. -sortie donnée quand on fait tourner la fonction = nombre de fois que l’algorithme a tourné pour chaque imputation -imputations = les m matrices imputées -missMatrix = matrice booléenne de la même taille que le jdd où TRUE signifie que la donnée est manquante Les sorties de amelia

  27. Enregistrement des jeux de données imputés write.amelia(obj , file.stem, format, separate, orig.data) Les arguments: - obj = l’objet amelia - file.stem= nom donné à l’objet enregistré (ex: amelia_jdd) - format= csv, txt… -separate= TRUE si on veut séparer avoir les jdd séparés, FALSE si on les concatène tous par ligne -orig.data= TRUE si on concatène au jdd original On peut ouvrir chacun des m jdd imputés: read.table(« localisation/amelia_jdd1 ») pour avoir le 1er, remplacer 1 par 2 pour avoir le second etc… Faire un graphique de chaque jdd pour vérifier que l’imputation n’a pas « trop » changé les données Fonction write.amelia

  28. Pour comparer la moyenne des NA sur les m imputations pour chaque variable, et les densités des variables sans NA plot(objet amélia, which.vars) => un graphique pour chaque variable Courbe rouge = densité de la moyenne des imputations (sur les m jddimputés) Courbe noire= distribution des données observées Courbe bleu = distribution des données observées, et aucun NA pour cette variable Visualisation de la « qualité » des imputations faites par amelia

  29. Pour vérifier que l’imputation est bonne pour telle variable: overimpute(objet amélia, var) 1 Point= la moyenne des m imputations (sur une donnée observée qu’on a transformé en NA), intervalle de confiance construit autour Qualité imputation: regardercombiend’ICcouvrent la droite y=x Si la chaîne d’itération est « trop longue », il faut peut-être réaliser une transformation sur certaines variables Diagnostic des imputations faites par amelia

  30. Pour avoir la moyenne et la variance d’une quantité nous intéressant (la moyenne, des coefficients, ou des paramètres) • Ex: je fais une régression sur chaque jdd imputé, je stocke les coefficients de régression de chaque variable, ainsi que leur variance • mi.meld(q, se) - q = matrice de dim p*m où il y a ce qu’on veut analyser - se = matrice de dim p*m avec les écarts types des quantités précédentes • Sorties: -q=valeur moyenne de la quantité d’intérêt sur les m jdd -se= écart-type de chaque quantité d’intérêt Analyser les données imputées

  31. Imputation simple et obtention des erreurs d’imputation (missForest, mixError) Package missForest

  32. Imputation dans le cas de données mixtes, dont les relations ne sont pas forcément linéaires Exemple: Y et x1, x2 1) met des 0 où il y a des NA 2) fait un arbre pour prévoir Yen fonction de x1 et x2 => valeur estimée pour Y 3) fait un arbre pour prévoir x1 en fonction de Y et x2 => valeur estimée pour x1 4)Idem avec x2 5)Recommence jusqu’à convergence Similaire à irmi, mais on n’a pas une combinaison linéaires des prédicteurs Principe missForest

  33. missForest(xmis, maxiter, ntree, variablewise) Les arguments: - xmis=jdd - maxiter= nombre d’itération maximum à faire - ntree = nombre d’arbres dans chaque forêt - variablewise= pour avoir les erreurs pour chaque variable séparée (=TRUE), sinon sort une erreur pour tout le jdd Les sorties: - ximp= jdd imputé - OOBerror= erreur d’imputation estimée pour chaque variable (NRMSE pour les variables quantitatives, proportion de mal classés pour les qualitatives) - error= « vraie » erreur d’imputation Fonction missForest

  34. But: calculer l’erreur d’imputation pour des données mixtes. • mixError(ximp,xmis,xtrue) • Les arguments: -ximp=jdd imputé -xmiss=jdd avec NA -xtrue=jdd complet (sans NA, ni imputation) • Les sorties: -une erreur d’imputation pour les variables qualitatives (proportion de mauvais classement), une autre pour les variables quantitatives (nrmse) Fonction mixError

  35. Imputation simple ou multiple via les composantes principales Package missMDA

  36. http://math.agrocampus-ouest.fr/infoglueDeliverLive/developpement/missMDAhttp://math.agrocampus-ouest.fr/infoglueDeliverLive/developpement/missMDA Cours Julie Josse (hier si vous vous souvenez bien) missMDA

  37. Site R cran http://www.unt.edu/rss/class/Jon/Benchmarks/MissingValueImputation_JDS_Nov2010.pdf http://txcdk.unt.edu/iralab/sites/default/files/AMELIAII_Handout.pdf Sources

More Related