90 likes | 287 Views
Méthodes statistiques. M1 2013/2014. Tableaux, population, échantillon. On rassemble les données dans des tableaux = individus * variables Une ligne = un « individu statistique » (un interviewé, un abonné, un contrat d’assurance, etc) Les colonnes = les variables
E N D
Méthodesstatistiques M1 2013/2014
Tableaux, population, échantillon • On rassemble les données dans des tableaux = individus * variables • Une ligne = un « individu statistique » (un interviewé, un abonné, un contrat d’assurance, etc) • Les colonnes = les variables • Population = l’ensemble des individus visés VS échantillon = une partie représentative de cette population cible • Exemple: Population : les consommateurs français, échantillon : les interviewés • Plusieurs techniques d’échantillonnage: aléatoirement (c’est la clé de l’échantillonnage). D’autres méthodes : calage sur marges (respect de certaines proportions en fonction de variable comme l’âge, le sexe, les tranches de revenus, etc) • Caractère = aspect particulier des individus. Qualitatif (non mesurable) ou quantitatif (mesurable : discret ou continu) • Modalités = différentes rubriques associés à un caractère qualitatif. Le sexe comporte deux modalités • Nomenclature = ensemble des modalités précédées d’un code de numéro
Type de données • Données qualitatives • Données ne faisant pas l’objet d’une mesure • Exemples: sexe, état matrimonial (célibataire, marié, veuf, divorcé) • Données nominales • Nombre de cas dénombrables, codés pour distinguer les modalités, aucune relation d’ordre entre les codes, opérateurs arithmétiques/mathématiques inapplicables • Exemples : CSP, région, civilité ou code produit des nomenclatures. • Données ordinales • Nombre de cas dénombrables, codées pour distinguer les modalités, il existe une relation d’ordre entre les modalités, mais les écart ne sont pas quantifiables, on peut appliquer des calculs • Exemple: satisfaction de 1 à 5, tranches de revenus • Données numériques ou continues quantitatives • Nombre de cas théoriquement infini, il existe une relation d’ordre entre les valeurs, les écarts sont quantifiables, calculs algébrique autorisés
Transformation des données • Chaque type de données possède des méthodes statistiques adaptée d’où la nécessité de faire des transformations préalables • Discrètes -> numériques: codage disjonction complet • une nouvelle variable binaire 0/1 par modalité • on perd toute notion d’ordre • Numériques -> discrètes : découpage ou discrétisation • Numériques -> numériques • Obtenir des distributions plus « normales », correction des effets d’échelles • Standardisation = X – moyennes / écart type • Log (), racine () …
Transformation des données Fonction de répartition: F(x) = proportion d’individus dont la valeur du caractère est inférieure à x. Transformation log Transformation racinecarrée
SAS : premiers pas • Le journal (log), l’explorateur (explorer) et les résultats (output) • Les bibliothèques SAS • La bibliothèque « work » est la bibliothèque par défaut de SAS, les tableaux n’y sont enregistrés que de façon temporaire et disparaissent à la fermeture de la session • Créer un tableau de données – Etape Data • A partir d’informations « papiers » • À partir d’une autre table • Données manquantes, commentaires, majuscules, renommer des variables • Fusionner deux tables SAS • Plusieurs méthodes