290 likes | 386 Views
L’OUTIL STATISTIQUE. 1- les données statistiques. Pour bien analyser le passé, il faut d’abord disposer d’informations nombreuses et fiables. Par exemple, si nous nous intéressons aux ventes de téléviseurs des 4 dernières années, les totaux annuels ne nous apporterons pas grand chose.
E N D
Pour bien analyser le passé, il faut d’abord disposer d’informations nombreuses et fiables.
Par exemple, si nous nous intéressons aux ventes de téléviseurs des 4 dernières années, les totaux annuels ne nous apporterons pas grand chose.
En revanche, si nous disposons des ventes mensuelles (48 observations), nous pourrons certainement en « tirer » beaucoup plus d’enseignements.
Avec des statistiques hebdomadaires (plus de 200 observations), la base d’information serait encore plus riche…
Voici justement un exemple de ventes mensuelles de téléviseurs sur 4 ans ( nous nous situons en fin d’année 4 ). Imprimez-le car ce sera le support de plusieurs exercices dans ce chapitre. Année 1 Année 2 Année 3 Année 4 Année 5 J F M A M J J A S O N D 20 20 60 60 70 130 70 20 30 50 50 90 J F M A M J J A S O N D 30 30 60 70 70 60 70 30 50 50 50 90 J F M A M J J A S O N D 40 40 60 80 70 80 80 40 60 50 60 100 J F M A M J J A S O N D 40 40 60 70 80 80 90 60 50 60 60 100 J F M A M J J A S O N D
LA MOYENNE : c’est la méthode la plus utilisée. C’est la somme des données, divisée par le nombre de données. Symbole de la somme S Symbole de la moyenne X i X = N
Exemple: si les valeurs dont nous cherchons la moyenne sont • 12 9 10 14 13 11 10 12 10 8 13 14 11 10 10 9 12 • La somme de ces 18 valeurs est: 198 • La moyenne est égale à : = 11 198 18
La moyenne n’est pas toujours significative, notamment si certaines valeurs sont extrêmes: si notre vendeur de téléviseurs, «décrochant » le marché du siècle, réussissait à vendre 4900 téléviseurs au lieu de 100 en décembre de l’année 3, la moyenne passerait à 160, ce qui n’aurait rien à voir avec les ventes généralement observées… Les statisticiens utilisent deux autres notions assez proches: la médiane et le mode. 2- la médiane est la valeur qui se trouve au milieu de la liste de nombres (autant de valeurs inférieures que de valeurs supérieures). Dans notre exemple: 20 20 20 30 30 30 30 40 40 40 40 40 50 50 50 50 50 50 50 60 60 60 60 60 60 60 60 60 60 60 70 70 70 70 70 70 70 80 80 80 80 80 90 90 90 100 100 130 il y a 23 observations avant la valeur 60, et 23 observations après. est la médiane de notre série 60
3- le mode est la valeur la plus fréquente. Dans notre exemple: 20 3 30 4 40 5 50 7 60 11 70 7 80 5 90 3 100 2 130 1 60 est le mode de la série d’observations !
Dans cet exemple: moyenne, médiane et mode sont identiques (60). C’est souvent le cas lorsque la série est « normale ». On reconnaît graphiquement une série dite normale par son apparence « en cloche »: 11 10 9 8 7 6 5 4 3 2 1 10 20 30 40 50 60 70 80 90 100 110 120 130
Nombre d’observations 11 10 9 8 7 6 5 11 données sont dans la moyenne 4 3 2 1 valeur 10 20 30 40 50 60 70 80 90 100 110 120 130
Nombre d’observations 11 10 Les autres données représentent la dispersion autour de la moyenne 9 8 7 6 5 4 3 2 1 valeur 10 20 30 40 50 60 70 80 90 100 110 120 130
La fonction statistique qui caractérise la dispersion s’appelle la variance. Elle est égale à l’écart au carré moyen de chaque valeur par rapport à la moyenne. Pour les valeurs 1, 2 et 3, par exemple, la moyenne est: (1+2+3) : 3 = 2 La variance sera: (1 – 2)2 + (2 – 2)2 + (3 – 2)2 : 3 = 0,667 (le fait d’élever au carré évite que les écarts positifs et négatifs se « neutralisent »)
Pour revenir à une valeur de dispersion comparable aux valeurs de départ, on retient généralement la racine carrée de la variance qu’on appelle l’écart-type. Dans l’exemple précédent, l’écart-type sera: 0,667 = 0,82 Si notre petite série de valeurs avait été: 0, 2, 4 Moyenne = 2 Variance = (0 – 2)2 + (2 – 2)2 + (4 – 2)2 : 3 = 2,67 Écart-type = 2,67 = 1,64 (la dispersion est 2 fois plus importante, ce qui n’est pas vraiment surprenant !)
En repartant de nos statistiques de ventes de téléviseurs… Année 1 Année 2 Année 3 Année 4 Année 5 J F M A M J J A S O N D 20 20 60 60 70 130 70 20 30 50 50 90 J F M A M J J A S O N D 30 30 60 70 70 60 70 30 50 50 50 90 J F M A M J J A S O N D 40 40 60 80 70 80 80 40 60 50 60 100 J F M A M J J A S O N D 40 40 60 70 80 80 90 60 50 60 60 100 J F M A M J J A S O N D … calculez pour la série de données allant de janvier année 1 à décembre année 4…
1- la variance • 2- l’écart-type • Questions subsidiaires: • que représente l’écart-type calculé ? • L’écart-type donne-t-il une information plus intéressante que le simple écart moyen en valeur absolue ?
1- variance: Nous avions déjà calculé la moyenne: 60 La variance sera donnée par la formule (20 – 60)2 + (20 – 60)2 + (60 – 60)2 …… + (60 – 60)2 : 48 = 512,50 2- écart-type: 512,50 = 23 L’écart-type est un indicateur de la dispersion. Par rapport à l’écart moyen en valeur absolue, il donne également une idée de la présence de valeurs « aberrantes » dans la série observée…
… en effet, si l’écart, positif ou négatif, est toujours le même, l’écart-type sera égal à la moyenne des écarts en valeur absolue. Ex: 10 10 30 30 10 30 10 30 10 30 Moyenne = 200 : 10 = 20 Écarts: -10 -10 10 10 -10 10 -10 10 -10 10 Écarts valeur absolue: 10 10 10 10 10 10 10 10 10 10 Moyenne: 10 Variance: 100+100+100+100+100+100+100+100+100+100 = 1000 : 10 = 100 Écart-type: 100 = 10
Autre série: 0 50 0 10 0 100 0 10 0 30 Moyenne = 200 : 10 = 20 Écarts en valeur absolue: 20 30 20 10 20 80 20 10 20 10 Écart moyen: 250 : 10 = 25 Variance: 400 900 400 400 400 6400 400 100 400 100 = 9900 : 10 = 990 Écart-type: 990 = 31
La différence sensible entre l’écart moyen 25 et l’écart-type 31 témoigne de la présence de la valeur « aberrante » 100.
Les statisticiens désignent l’écart-type avec la lettre grecque s ( sigma minuscule) Reprenons notre exemple initial, et la courbe correspondante…
Nombre d’observations 11 10 9 8 7 6 5 4 s s s s 3 - 2 - + + 2 2 - 1 valeur 10 20 30 40 50 60 70 80 90 100 110 120 130 Nous observons que 5 + 7 + 11 + 7 + 5 = 35 valeurs, soit 73% du total de 48 sont situées entre – s et + s par rapport à la moyenne. 47 valeurs, soit 98% sont situées entre – 2 s et + 2 s par rapport à cette même moyenne.
Dans la réalité, plus le nombre d’observations est important, plus on se rapproche des valeurs suivantes: • De – s à + s on trouve 68% des données • De – 2 s à + 2 s on trouve 95% des données • De – 3 s à + 3 s on trouve 99% des données • En terme de probabilités, cela veut dire que l’on a par exemple 95% de chances qu’une donnée se situe à 2 s « autour » de la moyenne. • Nous verrons plus loin que ceci nous aidera notamment: • à apprécier la qualité d’une prévision. • à viser un stock de protection.