1 / 14

Analiza de varianţă simplă

Analiza de varianţă simplă. Compararea mediilor d intre grupuri norbertpetrovici@yahoo.com. C ând se foloseşte metoda?. Uneori d orim să răspun dem la întrebări de tipul: Există diferenţe ale venitului me d iu între persoanele cu ocupaţii d iferite sau educaţie diferită.

Download Presentation

Analiza de varianţă simplă

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analiza de varianţă simplă Compararea mediilor dintre grupuri norbertpetrovici@yahoo.com

  2. Când se foloseşte metoda? • Uneori dorim să răspundem la întrebări de tipul: • Există diferenţe ale venitului mediu între persoanele cu ocupaţii diferite sau educaţie diferită. • Există diferenţe în performanţa medieeducaţională la copii proveniţi din medii sociale diferite. • Există diferenţe între venitul mediu al gospodăriei şi evaluarea direcţiei în care se îndreaptă România • În aceste cazuri dorim să evaluăm relaţia dintre valorile unei • Variabile măsurate pe o scală de intervale sau rapoarte (Y) • In categoriile unei variabile categoriale (X) • Analiza de varianţă este un test explorativ • prin care se testează dacă există dovezi în privinţa diferenţelor între un set de medii ale unor grupuri. • dacă există suficiente dovezi în acest sens vom încerca să estimăm mărimea acestor diferenţe între perechile de medii.

  3. Când se foloseste metoda?

  4. Problema de rezolvat: • Dorim să evaluăm în ce măsură există diferenţe reale ale (a) variabilei cantitative în (b) grupurile formate de variabila categorială • Să presupunem că avem două seturi de date • a. diferenţele sunt foarte clare: • b. diferenţele sunt mai puţin clare: • În cazul în care grupurile se suprapun parţial, care este criteriul utilizat pentru a decide dacă chiar există diferenţe? Mai ales dacă trebuie să luăm în calcul şi erorile de eşantionare, iar acest caz media nu este un indicator suficient al diferenţelor (ea se generalizează la nivelul populaţiei sub forma unui interval.

  5. Formularea problemei de rezolvat: • Ho: Ipoteza nulă Media variabilei cantitative Y este aceeaşi pentru toate cele m grupuri formate de variabila categorială X.  = 1 = 2 = … = m • Ha: Ipoteza alternativă Cel puţin două medii sunt diferite

  6. Logica analizei de varianţă: grupuri conturate şi depărtate Soluţia constă în a evalua în ce măsură grupurile formate (de valorile variabilei cantitative în clasele formate de variabila categorială)sunt diferite. • A. Cât de depărtate sunt grupurile unele de altele • B. Gradul de heterogenitate a grupurilor (“mărimea” grupurilor) • C. Împărţim distanţa dintre grupuri la hetorogenitatea grupurilor A. Mărimea grupurilor B. Distanţa dintre grupuri

  7. B. “Mărimea” grupurilor: suma intragrupală a distanţelor pătratice faţă de medie • Pentru a calcula mărimea unui grup am putea folosi distanţa dintre cea mai mică şi cea mai mare valoare. Atunci însă mărimea grupului va fi influenţată de valorile extreme. • O altă strategie ar fi să calculăm toate distanţele faţă de un punct dat (de exemplu media) şi să calculăm media acestor distanţe. Dar abaterea standard este tocmai abaterea medie a valorilor de la medie. Prin urmare vom estima mărimea unui grup i cu ajutorul variantei: σi2 = (Y1j - Y1)2/ ni • Putem calculamărimile tuturor grupurilor, iar apoi le putem aduna. Adică: WSS =  (Y1j - Y1)2+  (Y2j – Y2)2+ … +  (Ymj - Ym)2 Unde m este numărul total de grupuri. • Astfel am obţinut o mărime sintetică a mărimi tuturor grupurilor: suma intragrupală a distanţelor pătratice faţă de medie (Within Sume of Squares)

  8. Pentru a calcula cât de depărtate sunt grupurile între ele: • calculam distanţele de la fiecare grup la un punct dat (media generală). • fiecare grup este sintetizat e valoarea sa medie. • Vom calcula, prin urmare, media distanţelorde la mediile fiecărui grup la media generală, adică o abaterea standard. σY2=  (Yi - Y)2 /(m-1) • Pentru că fiecare grup este posibil să aibă un număr diferit de cazuri, ponderăm aceste distanţele cu mărimea fiecărui grup BSS2 = ni(Yi - Y)2 /(m-1) Y Y1 Y2 Y3 A. Distanţa dintre grupuri: suma intergrupală a distanţelor pătratice faţă de medie • Astfel am obţinut o mărime sintetică a distanţelor tuturor grupurilor unele faţă de altele: suma intergrupală a distanţelor pătratice faţă de medie (Between Sume of Squares)

  9. C. Testarea Ho • Ipoteza nulă: valoare medie a variabilei Y este aceeaşi pentru toate cele m grupuri create de categoriile variabilei X  = 1 = 2 = … = m • Valoarea de test: • F este mai mare cu cât: • Distanţa dintre grupuri este mai mare sau dispersia mediilor grupurilor în jurul medie generale este mai mare şi • Grupurile sunt mai mici sau eroarea reprezentată de dispersia valorilor în interiorul grupurilor este mai mică • Deci valori relativ mari a lui F reprezintă argumente puternice împotriva Ho. • Valoarea P este probabilitatea de a obţine o valoare F care este cel puţin la fel de mare ca cea observată de noi dacă Ho ar fi adevărară. Prin urmare cu cât este mai mic P cu atât şansele ca Ho să fie adevărate sunt mai mici. Pentru P < 0.05 putem respinge Ho

  10. C. Testarea Ho: Exemplu • Ipoteza nulă: valoare medie a variabilei “venit subiect” este aceeaşi pentru toate cele 3 grupuri create de categoriile variabilei educaţie  = superior = mediu =elementar • Suma intergrupală a pătratelor = 3659,794 grade de libertate = 3-1=2 Suma intragrupală a pătratelor = 15943,278 grade de libertate = 1353-3 = 1350 • Ipoteza nulă se respinge: valoarea p = 0.000 este probabilitatea de a obţine o valoare F care este cel puţin la fel de mare ca cea observată dacă ar fi Ho adevărară. Adică este o valoare foarte mică. • Se acceptă ipoteza alternativă: cel puţin două medii sunt egale. Care?

  11. Testele Post Hoc O soluţie incompletă: cine este diferit? • Testul F al analizei de varianţe verifică dacă toate mediile variabilei Y sunt egale în categoriile variabilei X. Dacă nu sunt egale şi se confirmă ipoteza alternativă nu ştim care sunt categoriile în care mediile diferă. • De aceea putem compara toate mediile între ele pe rând. Însă şi aici pot interveni erorile de eşantionare: • dacă avem m categorii, atunci va trebui să facem m(m-1)/2 comparaţii • ne aşteptăm ca în medie doar 95% dintre intervalele de confienţă în jurul diferenţelor să conţină valoarea reală. • Cu cât avem mai multe comparaţii de făcut cu atât este mai mare şansa de a face o inferenţă greşită • Soluţia se găseşte în intervale de confidenţă simultane: atunci când dorim să facem un număr mare de comparaţii folosim proprietatea că toate intervalele conţin cu o anumită probabilitate adevăratele diferenţe între mediile grupurilor.

  12. Testele Post Hoc O soluţie incompletă: cine este diferit? • Pentru exemplu nostru iată intervale de confidenţă simultane. • Două medii vor fi considerate egale dacă intervalul de confidenţă simultan conţin valoarea 0 sau dacă nivelul de probabilitate (sig.) <.05 • În cazul nostru toate mediile sunt diferite.

  13. Asumpţii ale analizei de varianţe • Pentru ca testul F să fie robust şi puternic este nevoie să fie testate trei asumpţii legate de date: • 1. Distribuţia variabilei Y este normală în cele m grupuri formate de categoriile lui X • 2. Abaterea standard a distribuţiei populaţiei în cele m grupuri este egală • 3. Sunt selectate eşantioane aleatorii independente pentru cele m populaţii

  14. Asumpţia 2. Abaterea standard în cele m categorii • Această asumpţie este testată cu ajutorul testului Levene: • Ho: σ1=σ2=…=σm • Ha: cel puţin două abateri sunt diferite • Dacă L > F(α, m-1, N-m) atunci ipoteza nulă (Ho) este respinsă şi acceptată ipoteza alternativă (Ha). P este probabilitate de a obţine o valoare F cel puţin cât cea observată (L). Dacă P<0.05 atunci ipoteza nulă se respinge.În acest caz se respinge Ho, cel puţin două abateri sunt egale • Violările acestei asumpţii sunt mai moderate dacă mărimea subeşantioanelor este similară n1= n2 =…= nm

More Related