Curs 7. Testarea ipotezei statistice -continuare

Curs 7.Testareaipotezeistatistice-continuare

Compararea proporţiilor a două populaţii independente Se determină volumul necesar al eşantionului Unde Pa –proporţia cu tratamentul a Pb – proporţia cu tratamentul b K- se alege din tabelul următor

exemplu Pacienţii unui spital prezintă escare în proporţie de 40% .Se caută reducerea la 20%, prin schimbarea tipului de saltea.Care este numărul de subiecţi necesar pentru a studia efectul înlocuirii saltelelor ? Pa este 40% deci 0,40 Pb este 20% deci 0,20 Se aplică relaţia Cu k ales din tabel pentru puterea testului 1-β de 80% şi nivelul de semnificaţie al testului α de 0,05 rezultă n=78. Deci sunt necesari 78 de subiecţi în fiecare grup.

Testarea raportului riscurilor (riscul relativ) Anterior s-a arătat că dacă intervalul de încredere pentru raportul riscurilor / eşantion îl conţine pe 1, atunci factorul de risc nu are semnificaţie statistică Situaţia se poate aborda şi prin prisma verificării ipotezei de nul de tipul raportul de risc al populaţiei este 1, iar ipoteza alternativă este raportul de risc al populaţiei nu este 1.Deci daca ipoteza de nul este confirmată, factorul de risc nu are semnificaţie statistică Dacă factorul p ataşat ipotezei este mai mic decât 0,05 sau uneori decât 0,01 ipoteza de nul se respinge şi deci raportul riscurilor are semnificaţie statistică la nivelul populaţiei

Exemplu: studiu randomizat al efectului pe termen lung al administrării heparinei, subcutanat, pentru afecţiunile coronariene- riscul relativ Pentru test se aleg două grupuri, unul primeşte heparină, celălalt placebo, datele sunt prezentate în tabel Au semnificaţie statistică situaţiile în care p este sub valoarea de 0,05

Testarea raportului şanselor Ipoteza de nul testată afirmă că raportul şanselor nu diferă semnificativ de 1 Dacă ipoteza de nul este adevărată, atunci factorul de risc nu are efect statistic în cadrul populaţiei, nu creşte şi nici nu scade şansele de apariţie a unei afecţiuni. Dacă factorul p este situat sub valoarea de 0,05 atunci ipoteza se respinge şi factorul de risc are influenţă la nivelul populaţiei în a afecta şansa de apariţie a unei afecţiuni. Pentru exemplificare se studiază riscul de CHD în condiţiile expunerii la fumatul pasiv,în două cazuri: la serviciu şi la domiciliu. S-au format două grupuri nepereche, unul de caz cu CHD, celălalt de control fără CHD Ipoteza de nul este că şansa relativă la nivelul populaţiei nu diferă de 1, deci fumatul pasiv nu afectează şansele de apariţie a CHD

Exemplu Fumatul pasiv (rândul 6 şi 7) au p mai mare decât 0,05 deci raportul şanselor, conform ipotezei de nul este 1. Concluzia este că IPOTEZA DE NUL SE ACCEPTA, deci fumatul pasiv acasă sau la birou nu este un factor de risc pentru apariţia CHD.

Testarea ipotezei despre egalitatea proporţiilor populaţiilor În cercetarea clinică se aplică frecvent două teste 1. Testul T pereche ce utilizează variabile metrice şi verifică egalitatea dintre mediile a două eşantioane 2. Testul Squared Chi- χ2 Cazul A –se verifică dacă două variabile categorice sunt sau nu independente Cazul B – se verifică egalitatea a două proporţii

Testareaipotezei despre egalitatea proporţiilor populaţiilor- testul SQUARED CHI Există o legătură între locul unde se produce naşterea şi faptul că mamele fumează sau nu ? Se construieşte un tabel cu coloanele ocupate de 2 grupuri independente,fumători -nefumători şi cu rândurile ocupate de variabila locul naşterii, independente Ipoteza de nul : variabilele locul naşterii şi obiceiul fumatului nu sunt legate,deci sunt independente Ipoteza concurentă este că cele două variabile sunt dependente. Întrebare: ce proporţie (frecvenţă) de fumători trebuie să fie pentru cele două locuri de naştere dacă ipoteza de nul e adevărată, deci variabilele nu sunt legate ? Pentru a răspunde se calculează frecvenţele estimate pentru ca ipoteza de nul să fie reală

Determinarea frecvenţelor estimate Se aplică relaţia Pentru tabelul anterior , celula stânga sus, frecvenţa estimată este (30X16)/60=8 Prin efectuarea calculelor pentru toate celulele se obţine tabelul cu frecvenţele(proporţiile) necesare pentru ca ipoteza de nul să fie acceptată Dacă ipoteza de nul este reală se vede că valorile observate şi cele estimate nu sunt egale (diferenţa nu este 0).Cât de mare trebuie să fie diferenţa ca ipoteza de nul să fie valabilă pentru întreaga populaţie

Testul SQUARED CHI La întrebarea anterioară se răspunde cu testul χ2 Dacă factorul p asociat testului χ2 este sub valoarea 0,05 (0,01) ipoteza de nul se respinge, deci variabilele sunt dependente În concluzie diferenţa dintre proporţii are semnificaţie statistică Efectuarea testului 1. se calculează frecvenţa estimată pentru fiecare celulă a tabelului 2. se determină diferenţa între frecvenţa observată şi cea estimată 3. se aplică relaţia 4.valoarea obţinută trebuie să depăşească valoarea de control pentru test din tabelul următor, fapt ce duce la respingerea ipotezei de nul conform căreia proporţiile sunt egale, respectiv variabilele independente

Testul SQUARED CHI Tabelul valorilor critice pentru testul χ2 pentru nivelul de semnificaţie de 0,05 Pentru tabelul 2X2 din exemplul anterior valoarea critică pentru testul χ2 este 3,84

Testul χ2 pentru trend Se studiază apariţia cancerului mamar în legătură cu apartenenţa socială pentru două grupuri nepereche pe baza unui test caz-control Tabelul este de tipul 2X7, se verifică dacă proporţia cancerului mamar este aceeaşi în toate clasele sociale şi dacă variabilele diagnostic şi clasa socială sunt independente Datorită faptului că proporţiile sunt diferite se deduce că între variabile există o dependenţă oarecare

Dacă există un trend anume e de aşteptat ca proporţiile diagnosticului benign să crească sau să descrească atunci când variabila clasă socială creşte Deci variabilele nu sunt obligatoriu dependente, dar poate exista un trend Ipoteza de nul în acest caz este că nu există trend Pentru a verifica ipoteza se recurge tot la calcularea factorului p Testul de trend are putere mai mare şi poate indica prezenţa unei semnificaţii statistice chiar dacă testul χ2 nu dă acelaşi rezultat Pentru tabelul anterior, factorul p pentru testul de trend este 0,094 în timp ce testul general are factorul p de 0,784 Se observă că testele nu indică semnificaţie statistică, dar au diferenţe mari pentru factorul p

Măsurarea asocierii dintre variabile Variabile sunt asociate 1. pozitiv (creşte-creşte/scade-scade) 2.negativ (creşte-scade/creşte-scade) Variabilele sunt asociate când se detectează o oarecare conectare între acestea Detectarea asocierii a două variabile se face 1.grafic-scatterplot 2. analitic Metoda scatterplot este doar calitativă, nu permite inferenţa statistică şi nici nu se poate aprecia gradul de asociere comparativ în cazul mai multor scatterplot-uri

Metoda scatterplot-exemplul1, conexiunea dintre boala CD şi UC Dependenţă pozitivă

Metoda scatterplot-exemplul 2, dependenţa dintre decesele/an cauzate de anevrismul aortic şi numărul de cazuri de anevrism din 22 de spitale Dependenţă negativă

Metoda scatterplot-exemplul 3, legatura între medicaţia cu calciu şi rata de suicid Dependenţă irelevantă sau absentă

Metoda Scatterplot Metoda scatterplot nu furnizează date numerice despre asociere Pentru a evalua numeric asocierea se recurge la coeficientul de corelaţie Se utilizează doi coeficienţi de corelaţie 1.Pearson 2.Spearman Coeficientul de corelaţie Pearson ( ρ pentru populaţie şi r pentru eşantion) descrie gradul de asociere liniară a două variabile. Coeficientului r este dat de media distanţelor punctelor din scatterplot faţă de o anumită dreaptă

Coeficientul Pearson-exemplu Valori particulare pentru r r = -1 asociere negativă perfect liniară r = 0 nu există asociere r=1 asociere pozitivă perfect liniară

Este coeficientul Pearson semnificativ statistic ? Se poate afla în două moduri 1.prin intervalul de încredere (dacă îl conţine pe 0 sau nu) 2.prin verificarea ipotezei de nul care afirmă căρ este 0 ( se determină dacă factorul p este mai mic sau mai mare decât 0,05) În exemplul de mai sus r este 0,49 şi p este sub 0,001 deci asocierea pozitivă are semnificaţie statistică

Coeficientul de corelare Spearman Dacă variabila este ordinală se aplică coeficientul Spearman non-parametric notat ρs pentru populaţie şi rs pentru eşantion Exemplu: studiu cross-section privind uzul investigaţiilor mamografice pe categorii de vârstă Se cere să se afle dacă variaţia numărului de vizite la 1000 femei este acelaşi la toate grupurile de vărstă.Pentru aceasta s-au grupat intervalele de vârstă perechi şi s-a studiat asocierea (rs ) şi semnificaţia statistică (p) Toate valorile coeficientului Spaerman sunt pozitive şi p este sub 0,05, deci variaţia ratei de utilizare a mamografiei este aceeaşi la toate vârstele şi acest fapt are semnificaţie statistică

Atenţie Faptul că două variabile sunt asociate nu înseamnă obligatoriu că sunt dependente

Curs 7. Testarea ipotezei statistice -continuare