260 likes | 649 Views
Cursul nr. 8 REGRESIA liniară şi log istic ă. RELA ŢIE ŞI ASOCIERE. Anterior s-a subliniat faptul că asocierea a două variabile nu semnifică faptul că între acestea există o relaţie cauzală Asocierea nu înseamnă dependenţă Stabilirea unei relaţii cauzale în medicină este dificilă
E N D
RELAŢIE ŞI ASOCIERE • Anterior s-a subliniat faptul că asocierea a două variabile nu semnifică faptul că între acestea există o relaţie cauzală • Asocierea nu înseamnă dependenţă • Stabilirea unei relaţii cauzale în medicină este dificilă • Relaţia trebuie să fie plauzibilă, predictibilă şi repetabilă şi să prezinte un mecanism de interconectare dovedit
RELAŢIE ŞI ASOCIERE - exemplu • Se analizează legatura dintre presiunea arterială sistolică (SBP) şi indexul de masă corporală (BMI) • Se presupune că între cele două variabile există o relaţie de dependenţă liniară
Relaţia dintre variabile • Relaţia anterioară se poate prezenta sub forma generală • X şi Y sunt variabilele în cauză • b0 este coeficientul de intersecţie, locul unde graficul taie axa y • b1 este coeficientul de pantă şi este fie pozitiv fie negativ
exemplu • Se studiază relaţia dintre indexul de masă şi circumferinţa şoldurilor în cadrul unui studiu de cohortă pentru un lot de 142 subiecţi de sex feminin • Se observă că reprezentarea scatter-plot relevă faptul că punctele se grupează de-a lungul unui segment de dreaptă
Regresia liniară • Atunci când se estimează o dependenţă cauzală de tip liniar trebuie parcurse câteva etape pentru validarea estimării • 1.Se demonstrează că relaţia de dependenţă este liniară • 2.Se identifică b0 coeficientul de intersecţie şi b1 coeficientul de pantă • 3. Se determină dacă relaţia stabilită are semnificaţie statistică
Este dependenţa liniară ? • Determinarea liniarităţii dependenţei,două metode • 1. grafic-scatterplot • 2.analitic- metoda celor mai mici pătrate • Variabila y este cea dependentă, numită şi rezultat şi trebuie să fie metrică • Variabila x este cea independentă, numită şi predictor trebuie să fie nominală, ordinală sau metrică
Estimarea coeficienţilor b0 şi b1 • Se aplică metoda celor mai mici pătrate, conform căreia suma pătratelor distanţei de la fiecare punct al scatter-ului la dreapta de regresie este minimă • Distanţa de la punct la dreapta de regresie se numeşte eroare reziduală • Dreapta de regresie astfel determinată aproximează cel mai bine norul de puncte obţinut • Dreapta de regresie a eşantionului este descrisă de ecuaţia • Dreapta de regresie estimată pentru întreaga populaţie este descrisă de ecuaţia
Are ecuaţia de regresie semnificaţie statistică ? • După determinarea coeficienţilor b0 şi b1 se trece la verificarea coeficienţilor β0 şi β1 prin • 1. determinarea intervalului de încredere pentru β1 ,care dacă îl conţine pe zero conduce la absenţa semnificaţiei statistice • 2.se verifică ipoteza de nul: coeficientul β1 este zero • Dacă factorul p este peste 0.05 ipoteza de nul se acceptă şi rezultă că ecuaţia de regresie nu are semnificaţie statistică • Coeficientul b1 şi estimata lui β1 sunt definitorii pentru analiza de mai sus.Coeficientul b0 nu este relevant în aceeaşi măsură
Regresia liniară multiplă • Stabilirea unei dependenţe liniare între mai mult de două variabile conduce la regresia liniară multiplă • Spre exemplu dependenţa dintre indexul de masă corporală(BMI), circumferinţa şoldurilor(HIP) şi a taliei (WST).
Cazul variabilelor nominale • Dacă variabilele implicate în analiza regresiei liniare nu sunt metrice sau ordinale se trece la codarea variabilei independente de tip nominal şi apoi este introdusă în model • De exemplu la studierea presiunii arteriale sistolice (SBP) ca variabilă dependentă există două variabile independente alese şi anume • 1.vârsta AGE • 2.statusul de fumător SMK ce este o variabilă nominală cu trei categorii • A.nefumător • B.fost fumător • C. fumător • Pentru a introduce datele în calculator , variabila SMK trebuie codată prin atribuirea unui scor conform tabelului următor
Cazul variabilelor nominale • Ecuaţia de regresie • Tabelul de codare • De unde ecuaţia de regresie devine
Construcţia modelului şi selecţia variabilelor • În cercetarea medicală se cere găsirea unor variabile care influenţează variaţia variabilei dependente • Selecţia variabilelor în cadrul cercetării se face: • 1.automat,cu calculatorul • 2.în regim manual • Ambele proceduri au iniţial paşi comuni, astfel: • A.identificarea unei liste de variabile independente • B. reprezentarea scatterplot pentru fiecare pereche de variabile şi identificarea grupării punctelor -liniar sau nu.Daca există dependenţă, dar nu este liniară se trece la codarea variabilei şi se reia reprezentarea.De exemplu relaţia dintre vârstă şi variabila dependentă e puternică ,dar neliniară.Se împarte domeniul vârstelor în 4 intervale şi se codifică prin 3 variabile de proiect. • C.se determină regresia pentru perechile de variabile şi se calculează factorul p • D.toate variabilele pentru care p > 0,2 sunt incluse în model.
Construcţia modelului şi selecţia variabilelor • Metoda manuală de selecţie a variabilelor continuă pe două căi alternative • 1.selectarea regresivă a variabilelor • Începe cu selectarea tuturor variabilelor vizate.Se calculează p pentru fiecare variabilă, iar cele pentru care p>0,05 se elimină începînd cu valoarea maximă.Se reia procedura pentru variabilele ramase.În cadrul modelului rămân doar variabilele cu p< 0,05.Dacă prin eliminarea unei variabile p-ul celorlalte variabile se modifică major, atunci se renunţă la eliminarea variabilei în cauză • 2.selectarea progresivă a variabilelor • Se introduce prima variabilă în model şi apoi pe rând câte una din celelalte variabile.Se calculează de fiecare dată p.Dacă noua variabilă introdusă nu are semnificaţie statistică, se elimină.Dacă prin eliminarea unei variabile p-ul celorlalte variabile se modifică major, atunci se renunţă la eliminarea variabilei în cauză
Regresia logistică • În cercetarea medicală apar frecvent variabile binare,dihotomice , de tipul: femeie-bărbat,mort-viu,fumător-nefumător sau variabile de alt tip ce pot să devină dihotomice ( masa corporală la naştere prin divizarea şirului în două sub şiruri,scorul Apgar prin divizare de genul mai mic de N şi mai mare de N) • Exemplu: se studiază cancerul mamar/stres prin investigarea relaţiei dintre variabila independentă vârstă şi cea dependentă diagnostic • Diagnosticul este o variabilă binară de forma Y=1 (malign) şi Y=0 (benign) • Prin plotarea variabilei diagnostic în raport cu variabila vârstă se obţine un scatterplot cu aspectul următor
Regresia logistică • Variabilitatea mare de vârstă în grupul cu diagnostic malign şi cel benign maschează diferenţa dintre grupuri.Dacă se grupează vârstele în intervale 40-49,50-59 etc şi se calculează proporţia de diagnostice maligne Y=1 în cadrul fiecărei grupe de vârstă se reduce variabilitatea,dar se conservă relaţia dintre variabile.
Regresia logistică • Proporţia pentru Y=1 se notează P(Y=1 ) ce reprezintă probabilitatea ca Y=1 • Media variabilelor Y utilizată în cazul regresiei liniare se înlocuieşte pentru variabilele binare cu probabilitatea P, de exemplu ca Y=1 • Dacă se reprezintă probabilităţile ca Y=1 pentru mijloacele intervalelor de vârstă, se obţine scatterplot-ul din imagine • Se observă că există o relaţie între variabile
Regresia logaritmică • Pentru că probabilitatea 0<P<1 , pentru a descrie relaţia dintre variabile care nu este în mod clar liniară se apelează la regresia logaritmică • Pentru o populaţie simplă(o singură variabilă independentă) ecuaţia regresiei logaritmice este • Pentru un eşantion ecuaţia regresiei logaritmice este
Exemplu de aplicare a regresiei logistice • Se studiază dependenţa dintre utilizarea substanţei OCP şi cancer.Diagnosticul este dat de Y=1 (malign) şi Y=0 (benign) • Se scrie ecuaţia regresiei logistice pentru eşantion unde utilizarea OCP este factorul de risc • Prin estimarea valorii parametrilor b0 şi b1 se obţin valorile b0 =-0,2877 şi b1 =-0,9507 .Prin înlocuirea valorilor în ecuaţia regresiei logistice se obţin • Pentru OCP=0 (substanţa nu s-a utilizat niciodată) P(Y=1 )=0,4286 • Pentru OCP=1 (s-a utilizat substanţa ) P(Y=1 )=0,2247 • În concluzie subiecţii care NU au utilizat OCP au probabilitate aproape dublă să obţină un diagnostic malign.
Raportul şanselor • Avantajul regresiei logistice este acela că permite acces rapid la raportul şanselor • În exemplul anterior diagnostic versus OCP raportul şanselor de diagnostic malign pentru subiecţii care nu utilizează OCP şi cei care utilizează OCP este • Concluziile au semnificaţie statistică dacă intervalul de încredere pentru raportul şanselor nu îl conţine pe 1 sau dacă p<0,05
Generarea modelului regresiei logistice • 1.Se întocmeşte lista variabilelor • 2.Pentru fiecare variabilă nominală sau ordinală se efectuează testul χ2 ,se determină valoarea p • Pentru orice variabilă metrică se efectuează testul T pereche sau regresia logaritmică, se determină valoarea p • Se reţin variabilele cu p<0,25, iar variabila cu p minim se alege variabila independentă • Se adaugă apoi variabilele, una câte una, şi se verifică p pentru a determina semnificaţia statistică.Dacă orice variabilă introdusă nu are semnificaţie statistică se renunţă la aceasta