300 likes | 422 Views
Corrélation, TI-80 et interprétation. Remarque :. Tu devrais visionner les présentations « Tableau à double entrée et nuage de points.ppt » ainsi que « Coefficient de corrélation et droite de régression.ppt » avant de visionner celui-ci.
E N D
Corrélation, TI-80 et interprétation Remarque : Tu devrais visionner les présentations « Tableau à double entrée et nuage de points.ppt » ainsi que « Coefficient de corrélation et droite de régression.ppt » avant de visionner celui-ci.
La calculatrice TI-80 est un outil très intéressant dans le domaine de la statistique. Elle permet d’analyser rapidement des distributions de données et encore plus intéressant, elle permet d’effectuer des calculs avec une grande précision puisqu’elle tient compte des formules officielles utilisées en statistique. pour le coefficient de corrélation.
Dans cette présentation, nous verrons comment : • déterminer le coefficient de corrélation et la droite de régression entre • plusieurs variables (deux à la fois); - comprendre les limites de la calculatrice; - interpréter les résultats affichés. La première étape est d’entrer les données dans la calculatrice. Pour effectuer ce travail de préparation, tu devrais visionner la présentation « Tableau à double entrée et nuage de points.ppt ». On y explique le procédé.
LINREG(ax+b) EDIT CALC EDIT CALC y= ax+b 1: EDIT… 1: EDIT… CALC EDIT a= .6465921605 2: SORTA( 2: SORTA( 1: Edit… 2: SortA( 3: SortD( 4: Clrlist b= 30.22423217 3: SORTD( 3: SORTD( r= .703007118 4: CLRLIST 4: CLRLIST EDIT CALC 1: 1-Var stats 2: 2-Var stats 3: Linreg(ax+b) L2 L1 4: Quadreg LINREG(ax+b) L1 , L2 Pour effectuer le travail, nous aurons besoin de connaître et de comprendre plusieurs menus et plusieurs fonctions.
Rythme cardiaque au repos (pulsations/min) Nombre d’activités physiques par mois Masse (kg) Individus L1 L2 L3 67 72 85 85 76 70 54 50 51 63 81 52 47 93 85 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 55 70 72 88 85 87 71 60 58 64 102 74 62 94 78 12 10 6 4 3 5 8 9 8 8 2 10 8 4 7 Pour la première partie de la présentation, nous travaillerons avec ce tableau.
Remarque : Pour faciliter le travail de construction du tableau à double entrée et du nuage de points, il faut mettre les listes de données en ordre croissant. Pour obtenir le coefficient de corrélation et la droite de régression, il n’est pas nécessaire de le faire. Il est même préférable de ne pas le faire. Nous allons comparer plusieurs colonnes entre elles : L1 avec L2, L1 avec L3, L2 avec L3. Si les listes étaient en ordre croissant, le lien d’association existant entre les variables serait brisé.
EDIT CALC LINREG(ax+b) 1: EDIT… 2: SORTA( 3: SORTD( Sélectionne CALC, un nouveau menu s’affichera. 4: CLRLIST EDIT CALC 1: 1-Var stats 2nd puis la touche 2: 2-Var stats 3: Linreg(ax+b) La calculatrice affiche alors L1. 4: Quadreg 2 1 ATTENTION : tu dois inscrire une virgule. 2nd puis la touche Obtenir le coefficient de corrélation et la droite de régression Pèse sur STAT. L1 , Le menu suivant s’affichera. L2 Sélectionne 3 : Linreg(ax+b) Dans la nouvelle fenêtre, appelle tes deux colonnes comme suit : Inscris une virgule. Appelle la deuxième colonne, La calculatrice affiche L2. Pèse sur ENTER.
le taux de variation l’ordonnée à l’origine le coefficient de corrélation LINREG(ax+b) y= ax+b a = .6465921605 b = 30.22423217 r = .703007118 Voici le résultat des calculs : Remarques : 1) La calculatrice ne tient pas compte du chiffre 0; r = 0,703007118 il faut lire : a = 0,6465921605 2) La calculatrice est très précise; c’est pour cette raison qu’il y a autant de chiffres après la virgule. Pour effectuer des calculs précis, il faut garder : 4 chiffres après la virgule pour le paramètre a; 2 chiffres après la virgule pour le paramètre b; 2 chiffres après la virgule pour le coefficient r; et r ≈ 0,70 y = 0,6466x + 30,22 L’équation y = 0,65x + 30,2 serait représentative, mais moins précise pour les calculs.
CALC EDIT 1: Edit… 2: SortA( 3: SortD( 4: Clrlist LINREG(ax+b) y= ax+b a= .6465921605 b= 30.22423217 r = .703007118 r ≈ 0,70 y = 0,6466x + 30,22 Le coefficient de corrélation indique un lien linéaire moyen entre les variables. Comme il est positif, les deux variables varient dans le même sens; quand x augmente, y augmente également. Ce qui signifie que lorsque la masse augmente, le rythme cardiaque au repos augmente aussi. L2: Rythme cardiaque au repos (pulsations/min) L1 : Masse (kg), (sur l’axe des abscisses). L1: Masse (kg) L2 : Rythme cardiaque au repos (pulsations/min), (sur l’axe des ordonnées). Il semble donc qu’il y ait un lien moyen entre la masse et le rythme cardiaque au repos.
CALC EDIT 1: Edit… 2: SortA( 3: SortD( 4: Clrlist L’équation de la droite de régression nous permet de faire des prédictions théoriquement. L2: Rythme cardiaque au repos (pulsations/min) y = 0,6466x + 30,22 Exemple : Quelle pourrait être la masse d’une personne dont le rythme cardiaque au repos est de 120 pulsations/minute? L1: Masse (kg) y = 0,6466x + 30,22 120 ≈ 0,6466x + 30,22 x ≈ 138,1 kg Cela paraît exagéré, mais il faut se souvenir que le coefficient de corrélation (0,70) montre un lien moyen entre les variables. La relation linéaire étant moyenne, l’imprécision est plus grande. De plus, il existe peut-être d’autres facteurs que la masse qui peuvent affecter le rythme cardiaque au repos : cigarette, anxiété, forme physique, etc.
LINREG(ax+b) LINREG(ax+b) LINREG(ax+b) masse et rythme cardiaque; masse et nombre d’activités par mois; rythme cardiaque et nombre d’activités par mois. L2 L1 L1 , , , L3 L3 L2 La première colonne appelée est toujours sur l’axe des abscisses. y ≈ -0,1154x + 14,87 y ≈ -0,1755x + 20,04 Remarque Tu peux comparer les listes de données très facilement. Selon le tableau utilisé, LINREG(ax+b) L1 , L2 LINREG(ax+b) L1 , L3 LINREG(ax+b) L2 , L3 r ≈ -0,62 LINREG(ax+b) L1 , L3 Le lien n’est pas très fort et négatif, mais il montre que la masse augmente quand le nombre d’activités par mois diminue. r ≈ -0,86 LINREG(ax+b) L2 , L3 Le lien est plus fort et négatif; il montre que le rythme cardiaque augmente quand le nombre d’activités par mois diminue.
LINREG(ax+b) y= ax+b a= .5684454756 b= 18.39211137 r = .0673669204 ATTENTION La calculatrice donnera toujours une équation pour la droite de régression même si le coefficient de corrélation est très près de 0. La calculatrice ne réfléchit pas, elle calcule! Tu dois donc faire attention! Vérifie toujours le coefficient de corrélation; près de 1,0 ou -1,0 : l’équation est représentative; près de 0 : l’équation ne l’est pas.
rythme cardiaque et nombre d’activités par mois. y ≈ -0,1755x + 20,04 Nombre d’activités physiques (par mois) Rythme cardiaque au repos (pulsations/min) Revenons sur les données concernant le rythme cardiaque au repos et le nombre d’activités par mois. LINREG(ax+b) L2 , L3 r ≈ -0,86 LINREG(ax+b) L2 , L3 Le coefficient de corrélation est négatif, donc le taux de variation aussi; les variables varient, donc en sens contraire. Quand x augmente y diminue. Il semblerait que le rythme cardiaque augmente quand une personne diminue ses activités physiques. Le coefficient de corrélation indique un lien assez net entre les deux. Ici encore, il faut faire attention. Le lien est assez net, mais l’échantillon ne contient que 15 données.
Communauté A B C D E r 0,6 -0,3 0 -0,8 0,1 1) Les familles les plus riches de cette communauté ont nettement moins d’enfants que les familles les plus pauvres. 2) En général, plus on est riche dans cette communauté, plus on a d’enfants, mais il y a des exceptions. 3) Dans cette communauté, toutes les familles ont beaucoup d’enfants, que celles-ci soient riches ou pauvres n’a pas d’importance. Des sociologues québécois ont étudié la relation entre le revenu familial et le taux de fécondité dans 5 communautés culturelles différentes. Voici les coefficients de corrélation linéaire obtenus. A) Classe ces communautés selon l’intensité de la corrélation observée de la plus faible à la plus forte. Réponse : C, E, B, A, D B) Indique la communauté décrite par chacun des énoncés suivants :
Taux de fécondité (%) Communauté A B C D E r 0,6 -0,3 0 -0,8 0,1 Revenu familial ( $ ) Pour répondre à ces questions, il faut être capable de se représenter mentalement le diagramme de dispersion. 1) Les familles les plus riches de cette communauté ont nettement moins d’enfants que les familles les plus pauvres. Le terme « nettement » signifie que la corrélation est forte, donc soit 0,6 ou -0,8. Selon la phrase, les variables ne vont pas dans le même sens. Plus le revenu augmente et moins il y a d’enfants. Imaginons le nuage de points. Réponse : D
Taux de fécondité (%) Communauté A B C D E r 0,6 -0,3 0 -0,8 0,1 Revenu familial ( $ ) Pour répondre à ces questions, il faut être capable de se représenter mentalement le diagramme de dispersion. 2) En général, plus on est riche dans cette communauté, plus on a d’enfants, mais il y a des exceptions. Les termes « il y a des exceptions » signifie que la corrélation est un peu plus faible, donc soit 0,6 ou -0,3. Selon la phrase, les variables vont dans le même sens. Plus le revenu augmente et plus il y a d’enfants. Imaginons le nuage de points. Réponse : A
Taux de fécondité (%) Communauté A B C D E r 0,6 -0,3 0 -0,8 0,1 Revenu familial ( $ ) Pour répondre à ces questions, il faut être capable de se représenter mentalement le diagramme de dispersion. 3) Dans cette communauté, toutes les familles ont beaucoup d’enfants, que celles-ci soient riches ou pauvres n’a pas d’importance. Les termes « n’a pas d’importance » signifie que la corrélation est très faible, donc soit 0 ou 0,1. Selon la phrase, les variables n’ont pas vraiment de lien entre elles. Riches ou pauvres, les familles ont beaucoup d’enfants. Imaginons le nuage de points. Réponse : C ou E
Travail des jeunes 10 Rendement scolaire 9 donc le travail ne 8 dérange pas les études. 7 6 5 4 3 2 1 20 2 4 6 8 10 12 14 16 18 Temps de travail ( h ) On a interrogé 30 élèves âgés de 15 à 16 ans sur le temps qu’ils consacrent par semaine à un travail rémunéré à l’extérieur de l’école, puis on a évalué sur 10 leur rendement scolaire. Voici le nuage de points représentant ces données. Selon ces données, peut-on dire que le travail des jeunes nuit à leur rendement scolaire? Selon le nuage, il n’y a pas de corrélation très forte entre les deux, Parfois, il faut étudier le nuage par section. Si on considère la première section du nuage, on pourrait dire qu’entre 0 et 7 heures de travail, le rendement n’est pas vraiment affecté. Cependant, de 7 à 20 heures, le rendement est beaucoup plus affecté; en particulier, passé 12 heures. Peut-on établir une relation de cause à effet? Avant de se prononcer, il faudrait obtenir plus d’informations!
Valeur de l’action à la fermeture, chaque vendredi 7 janvier 14,75 14 janvier 17,50 21 janvier 13,25 28 janvier 15,00 4 février 13,75 11 février 14,50 18 février 21,25 25 février 18,00 4 mars 17,75 11 mars 22,50 18 mars 24,25 25 mars 19,00 1 avril 22,50 8 avril 20,25 15 avril 23,00 22 avril 22,75 Une nouvelle entreprise de télécommunications à fait son apparition sur le marché de la bourse le 31 décembre dernier. Elle vendait alors ses actions, 14,00 $ chacune. Le tableau suivant présente le prix de cette action à la fermeture, à chaque vendredi. Dans combien de mois, l’action aura-t-elle doublé de valeur? Pour répondre à cette question, il faut être capable d’interpréter la situation. Le tableau de compilation sera comme suit :
Valeur de l’action à la fermeture, chaque vendredi 7 janvier 14,75 14 janvier 17,50 21 janvier 13,25 28 janvier 15,00 4 février 13,75 11 février 14,50 18 février 21,25 25 février 18,00 4 mars 17,75 11 mars 22,50 18 mars 24,25 25 mars 19,00 1 avril 22,50 8 avril 20,25 15 avril 23,00 22 avril 22,75 0 14,00 1 14,75 2 17,50 3 13,25 4 15,00 5 13,75 6 14,50 7 21,25 8 18,00 9 17,75 10 22,50 11 24,25 12 19,00 13 22,50 14 20,25 15 23,00 16 22,75 1er vendredi 2e vendredi Valeur de l’action à la fermeture, chaque vendredi Achat : et ainsi de suite.
Valeur de l’action à la fermeture, chaque vendredi 0 14,00 1 14,75 2 17,50 3 13,25 4 15,00 5 13,75 6 14,50 7 21,25 8 18,00 9 17,75 10 22,50 11 24,25 12 19,00 13 22,50 14 20,25 15 23,00 16 22,75 Avec la calculatrice, détermine la droite de régression. y ≈ 0,6140x + 13,56 r ≈ 0,82 x : variable de référence : le nombre de vendredis y : la valeur de l’action Dans combien de mois la valeur de l’action aura-t-elle doublé, c’est-à-dire une valeur de 28,00$. Cherchons, en premier, le nombre de vendredis. y ≈ 0,614x + 13,56 28 ≈ 0,614x + 13,56 14,44 ≈ 0,614x 23,52 ≈ x
Valeur de l’action à la fermeture, chaque vendredi 0 14,00 1 14,75 2 17,50 3 13,25 4 15,00 5 13,75 6 14,50 7 21,25 8 18,00 9 17,75 10 22,50 11 24,25 12 19,00 13 22,50 14 20,25 15 23,00 16 22,75 ça ne veut pas dire que cela arrivera nécessairement. x ≈ 23,52 vendredis L’action aura doublé environ le 24e vendredi après son lancement, soit dans 8 vendredis après le 16e, donc dans 2 mois. Attention La droite de régression obtenue indique une tendance théorique; Le marché boursier est très fluctuant; il y a tellement de facteurs à considérer.
Test positifs Nombre d’hommes Nombre de femmes Année • 535 2054 • 1997 483 1861 • 1998 470 1697 • 1999 515 1596 • 2000 486 1538 • 2001 526 1580 • 2002 620 1809 • 2003 627 1822 • 2004 655 1825 • 2005 628 1830 Voici des données concernant le nombre de tests s’étant révélés positifs au VIH chez les adultes au Canada de 1996 à 2005. Selon ces données, si la tendance se maintient, quel sera le pourcentage de femmes parmi l’ensemble des cas décelés en 2025 ?
Test positifs Nombre d’hommes Nombre de femmes Année • 535 2054 • 1997 483 1861 • 1998 470 1697 • 1999 515 1596 • 2000 486 1538 • 2001 526 1580 • 2002 620 1809 • 2003 627 1822 • 2004 655 1825 • 2005 628 1830 535 2589 Étape 1 : Calculer le pourcentage par année. Il faut d’abord faire le total de chaque année; 535 + 2054 = 2589 reporter sur ce total le nombre de femmes et multiplier par 100. 20,6643… % X 100 ≈ Arrondi au dixième près : ≈ 20,7 % Avec ta calculatrice, tu peux procéder plus rapidement : 535 ÷ ( 535 + 2054 ) ≈ 0,206643… Déplace mentalement la virgule de deux positions vers la droite : ≈ 20,7 %
Nombre de femmes (%) Année diminution de 0,1 % 1996 20,7 1997 20,6 1998 21,7 1999 24,4 2000 24 2001 25 2002 25,5 2003 25,6 2004 26,4 2005 25,5 augmentation de 2,7 % Voici le nouveau tableau en pourcentage. Le taux de variation n’est pas constant. Existe-t-il un certain lien linéaire ? Pour le savoir, calculons le coefficient de corrélation.
Nombre de femmes (%) Année 1996 20,7 1997 20,6 1998 21,7 1999 24,4 2000 24 2001 25 2002 25,5 2003 25,6 2004 26,4 2005 25,5 r ≈ 0,92 Le coefficient est positif et très fort, il existe un lien linéaire. Déterminons donc la droite de régression.
Nombre de femmes (%) Nombre de femmes (%) Année Année 1996 20,7 1997 20,6 1998 21,7 1999 24,4 2000 24 2001 25 2002 25,5 2003 25,6 2004 26,4 2005 25,5 0 20,7 1 20,6 2 21,7 3 24,4 4 24 5 25 6 25,5 7 25,6 8 26,4 9 25,5 r ≈ 0,92 r ≈ 0,92 Si tu utilises les années : Si tu utilises une référence d’étude : y = 0,6521x – 1280,63 y = 0,6521x + 21
Si tu utilises les années : Si tu utilises la référence d’étude : y = 0,6521x – 1280,63 y = 0,6521x + 21 En 2025 : Soit 29 ans après l’année 0 2025-1996 = 29 y = 0,6521 X 2025 – 1280,63 y = 0,6521 X 29 + 21 y = 39,91… y = 39,91… y = 39,9% y = 39,9% Le coefficient de corrélation est très fort et positif. Les variables vont dans le même sens; plus les années augmentent, plus il y a de femmes atteintes. Mais, ici encore, l’échantillon est très petit.