270 likes | 1.01k Views
BIOSTATISTICA. Indicatori de variabilitate. P roprietăţi le seriilor de variaţie sunt: - tendinţa centrală Indicatori: m edia aritmetică , m edia armonică , m edia cronologică , m edia pătratică , m edia geometrică , modulul. - variabilitatea
E N D
BIOSTATISTICA Indicatori de variabilitate
Proprietăţile seriilor de variaţie sunt: - tendinţa centrală Indicatori: media aritmetică,media armonică, media cronologică,media pătratică,media geometrică, modulul. - variabilitatea Indicatori: amplitudinea, abaterea valorilor individuale, cuartilele, dispersia, abaterea medie patratica (abaterea standard), coeficientul de variatie. - forma distribuţiilor Indicatori: excentricitate (skewness), curbura (kurtosis)
Variabilitatea Prin notiunea generala de variabilitate se au în vedere abaterile masurabileale valorilor individuale fatade o valoare centrala (medie). Caracterizarea unei colectivitati statistice prin indicatorii tendintei centrale (mediile) ne ajuta sa depistam ceea ce este comun în manifestarea unui fenomen. Oricecolectivitate are o organizareinterna specifica, definita prin felul în care valorile individuale se distribuie în jurul valorii centrale. Astfel se poate întâmpla ca douacolectivitati analizate dupa aceeasi variabila sa fie diferite prin tendintacentrala (Fig. a), prin dispersie (Fig. b) sau prin amândoua (Fig. c).În felul acesta o valoare centrala poate fi credibila, o alta nu. Din acest motiv se impune ca analiza prin indicatorii tendintei centrale sa fie completata cu indicatori ai variatieisiai formei de distributie. a) Distributii cu tendinta centrala diferita; b) Distributii cu variabilitate diferita; c) Distributii cu tendinta centrala si variabilitate diferite.
exemplu: seriile{2, 2, 2, 10, 18, 18, 18}si{9, 9, 9, 9, 10, 11, 11, 11, 11} au aceeasimediesimediana (10) dar dispersie diferita. Acest fapt esteevidentiat de abaterile înregistrate fata de medie (10) sau mediana (10). Seria a doua este mai omogena (înregistreaza o variabilitate mai micaa valorilor individuale), iarvalorile sale tipicesunt mai reprezentative. Calculul si analizaindicatorilorvariatieivalorilor individuale fata de medie oferaposibilitatea de rezolvare a unor probleme de cunoasterestatistica. Dintre acestea se disting: - analiza gradului de omogenitate a datelor din care s-au calculat indicatoriitendinteicentrale siverificareareprezentativitatiiacestora; - compararea mai multorserii de distributiedupacaracteristiciindependente si/sauinterdependente; - selectarea obiectiva a factorilor semnificativi de influentadupa carese structureazaunitatileuneicolectivitatistatistice; - separarea actiunii factorilor esentiali de factorii întâmplatori; - concentrareavalorilor individuale alecaracteristicilor si deplasareaacestora fata de valorile tipice; - aplicareadiferitelor teste alestatisticiimatematice.
Indicatori de variabilitate Amplitudinea variatiei (A) Se mai numeste câmp de variatie sau amplitudine absoluta.Se determina prin diferenta dintre cea mai mare si cea mai mica valoare individuala înregistrata. - în forma absoluta: - în forma relativa: Exemplu: Un grup de bolnavi înregistreaza urmatoarele durate detratament în zile: 8, 7, 9, 8, 9, 9, 10, 11, 12, 11, 10, 10, 9, 9, 7, 8, 10,10,11,10 Amplitudinea absoluta a variatiei pentru durata tratamentului: 12 – 7 = 5 zile. Amplitudinea relativa a variatiei pentru durata tratamentului: (5/9) x 100 = 55,5%
Observatii: - Amplitudinea nu tine seama de toate valorile, ci numai de cele extreme, care adeseori sunt aberante; - Este sensibila la valorile aberante, se considera un indicator mai putin relevant nepermitând cunoasterea structurii interne de variatie. De exemplu, urmatoarele trei serii vizualizate au aceeasi amplitudine,dar prezintavariatiidiferite: Aceasta înseamna ca amplitudinea variatiei este un indicator rezonabil numai daca valorile individuale ale seriei sunt repartizate în mod uniform; - În cazul seriei de distributie pe intervale valorice calculul amplitudinii este lipsit de sens; - Amplitudinea se utilizeaza frecvent la alegerea numarului de intervale de grupare a datelor si la stabilirea marimii intervalelor.
Abaterea valorilor individuale de la medie (di) Exprima cu câte unitati de masura sau de câte ori valoarea caracteristicii individuale a colectivitatii se abate de la marimeaunui indicator al tendinteicentrale: - în forma absoluta: - în forma relativa: Exemplu: Considerând aceleasi date din exemplul anterior, bolnavul care s-a tratat 12 zile se abate de la media grupei cu 3 zile ceea ce reprezinta 33,3% din medie iar pacientul care s-a tratat 7 zile se abatede la medie cu 2 zile, ceea ce reprezinta 22,2% din medie. Cu cât se obtin mai multe abateri relative mari în analiza unui volumde date (catre100% sau peste acest nivel) cu atât colectivitatea statistica respectiva este mai eterogena.
Observatii: - valorile individuale se compara cu valoarea lor medie, dar la fel debine poate fi utilizat pentru comparare oricare alt indicator al tendintei centrale (de ex. mediana); - În seriile de distributie pe intervale valorice pentru calculul abaterilor individuale se iau în considerare centrele de interval; - Abaterea valorilor individuale nu poate da informatii decât la nivelul fiecarei variantepierzând imaginea împrastierii pe ansamblul distributiei. - În analizele statistice se urmaresc în mod deosebit abaterile maximepozitive (d+max) si abaterile maxime negative (d-max) calculate încifre absolute sau relative astfel: sau
Cuartilele Sunt valori care impart seria statistica in patru zone: Cuartila Q1este acea valoare dintr-o serie de valori, pentru care 25% din valorile seriei sunt sub Q1şi 75%, peste Q1. Cuartila Q2este acea valoare dintr-o serie de valori, pentru care 50% din valorile seriei sunt sub Q2şi 50%, peste Q2. Cuartila Q3este acea valoare dintr-o serie de valori, pentru care 75% din valorile seriei sunt sub Q3şi 25%, peste Q3.
Dispersia (s2) Valorile dintr-o serie statistica pot fi mai aglomerate în jurul mediei sau mai dispersate. Un mod de a măsura aceste abateri de la medie este să se facă diferenţa între toate aceste valori şi media lor. Deoarece unele abateri pot fi pozitive, altele negative si prin adunare dau suma nula, ele sunt ridicate la pătrat înainte de a fi adunate, facand astfel să dispară diferenta de semn. Suma obţinută, împărţită la numărul de abateri este o medie care se numeşte dispersie, fiind un indicator al gradului de împrăştiere al seriei. Se calculeaza ca medie aritmetica a patratelor abaterilor valorilorindividuale de la tendinta centrala (media seriei). Pentru o serie simpla formula dispersiei este: Pentru o serie de distributie pe frecvente formula dispersiei este: În cazul în care numarul cazurilor observate este mai mic de 120, numitorulformulelor dispersiei devine n-1. Are dezavantajul că are în general valori foarte mari comparativ cu abaterea medie; de exemplu pentru o medie a abaterilor în jurul lui 10, dispersia va avea o valoare în jurul lui 100.
Abaterea standard (abaterea medie patratica s) Este calculata ca o medie patratica din abaterile valorilor individualede la media lor. Se calculeaza dupa urmatoarele formule: În seriile statistice simple: În seriile grupate pe frecvente: În cazul în care numarul cazurilor observate este mai mic de 120,numitorul formulelor abaterii standard devine n-1. Abaterea standard este cel mai util si mai important indicator de variatie, punand în evidenta intervalul valoric din jurul mediei în care s-au distribuit valorileindividuale ale variabilei studiate. O abatere standard cu valoare mica, semnifica o distributiestrânsa a valorilor individuale înjurul mediei, deci un esantion omogen. O valoare mare a abaterii standard pune în evidenta o dispersie mare a valorilor individuale în jurul mediei, dovedind ca esantionul este neomogen si ca atare rezultatele obtinute nu pot fi generalizate. În general, cu cât abaterea standard are valori mai mari, cu atât media caracterizeaza mai putin fenomenul cercetat. Abaterea standard are o valoare semnificativa atunci când esantionul pe care s-a lucrat are o distributie normala,conform curbei Gauss – Laplace.
Distributia normala - Gauss – Laplace În cadrul unei asemenea repartitii, între valoarea mediei si cea a abaterii standard se distribuie 68,26% din totalul valorilor unei colectivitati statistice; între medie si de doua ori valoarea abaterii standard se distribuie 95,45% din valori, iar între medie si de trei ori valoarea abaterii standard sunt cuprinse 99,73% din valori. Practic, întreaga arie de sub grafic (99,73%) se afla între medie si de trei ori valoarea abaterii standard. Aceasta este asa-numita „regula celor sase sigma”: pornind de la presupunerea ca populatiaeste distribuita normal, abaterea standard este estimata la 1/6 din diferenta dintrevaloarea maxima si cea minima, valori ce sunt obtinute dintr-un esantion suficient demare.
Exemplu de calcul: • S-a măsurat zilnic tensiunea arterială sistolică la doi pacienţi timp de 10 zile, obţinând pentru fiecare următoarele valori: • 170, 180, 160, 180, 190, 190, 180, 190, 170, 190, pentru primul pacient şi • 160, 170, 190, 160, 190, 190, 200, 180, 180, 180, pentru al doilea. • Sa se determine care pacient are tensiunea cu valori mai împrăştiate, indiferent de evoluţia în timp. Notând prima serie cu X iar pe a doua cu Y se constată că ambele au media 180. Atunci, abaterile de la medie şi pătratele lor vor avea următoarele valori: • Abaterile standard vor fi: • Deci, este mai împrăştiată seria Y.
Coeficientul de variatie (Cv) Abaterea standard, fiind exprimata înunitati de masura specifice fenomenelor cercetate, nu poate fi utilizata în aprecierea comparativa a esantioanelor exprimate în unitati de masura diferite. De exemplu, pentru înaltimea si greutatea unui lot de 30 de elevi s-au gasit valorile: - înaltime: media =145 cm; abatere standard = ± 5 cm, - greutate:media = 35 kg; abaterea standard = ± 3 kg Pe baza valorilor abaterii standard, exprimate în centimetri si kilograme, nu se poate aprecia sub ce aspect, al înaltimii sau al greutatii, lotul de elevi este mai uniform dezvoltat. În aceasta situatie se recurge la coeficientul de variatie - raportul procentual dintre valoarea abaterii standard si media aritmetica: Coeficientul de variatie arata cât la suta din medie reprezinta abaterea standard. În exemplul anterior, coeficientul de variatie este: - pentru înaltime Cv = ± (5cm/145cm) ×100 = ± 3,4% - pentru greutate Cv = ± (3kg/35kg) ×100 = ± 8,6% Deci lotul de copii este mai omogen dezvoltatsub aspectul înaltimiisinu al greutatiicum ar rezulta din compararea valorilor abaterii standard. Cu cat valoarea coeficientului de variatie este maimica, cu atât esantionul este mai omogen. Se considera ca un coeficient de variatie cu valori sub ± 10% indica o variatie mica, ceea ce ne permite sa generalizam rezultatele.
Indicatori de forma Excentricitatea (skewness - sk) O distribuţie (ce poate fi reprezentata sub forma grafica ca un poligon al frecventelor) este excentrică dacă una din lateralele sale este mai lungă decât cealaltă. Prima distribuţie din figura urmatoare este cu excentricitate pozitivă, avand laterala mai lunga in partea pozitiva a axei orizontale. A doua distribuţie este asimetrică negativ, deoarece are o laterala mai lunga în direcţia negativă. Cea de-a treia distribuţie este simetrică, mbele laterale fiind aproximativ egale. Distribuţii cu excentricitate pozitivă, negativă şi distribuţie simetrică Excentricitatea unei serii de valori se calculează cu formula: Daca numarul cazurilor observate este mai mic de 120, numitorulformulei devine (n-1)s3 Cu cât o distribuţie este mai simetrică cu atât sk tinde la 0
Curbura (kurtosis) Denumirea indicatorului vine din limba greaca: kurtos = curbat, arcuit si apreciaza gradul de curbura al distributiei statistice. Formula de calcul a curburii este: Daca numarul cazurilor observate este mai mic de 120, numitorulformulei devine (n-1)s4
Reprezentarigrafice Graficul histogramă Ca şi concept, histograma este echivalentul grafic al tabelului de frecvenţe. Exemplu: In tabelulurmatorestesintetizată evolutiaparametrului Greutate corporală la 1014 pacienţi: Greutatea corporală a 1014 pacienţi pe clase din 5kg în 5kg Histograma greutăţilor corporale a 1014 pacienţi
Histograma ne ajută să înţelegem mai bine realitatea. Pentru a realiza diferenţa dintre o distribuţie simetrică şi una asimetrică, să transpunem într-o histogramă situaţia din tabelul urmator, care sistematizează situaţia supravieţuirilor în cazurile de cancer mamar pe un lot de 2456 de pacienţi. Se observă ca histograma are o asimetrie puternică spre dreapta. Tendinţa observată în această histogramă este normală, având în vedere fenomenul surprins. Procesele de supravieţuire sunt de obicei marcate de o distribuţie a valorilor cu excentricitate spre dreapta, adică durata supravietuirii este relativ scazuta. Pentru o familiarizare cu acest tip de grafic foarte important, să urmărim câteva situaţii culese din practica medicală.
În figura alaturata, este reprezentată histograma tensiunii arteriale la 593 de pacienţi cu diferite afecţiuni. Se observă o excentricitate puternică, spre dreapta. În figura alaturata este histograma valorilor hemoglobinei la 738 de pacienţi cu diferite afecţiuni. Se observă o distribuţie a valorilor mai simetrică decât în figurile anterioare. În figura alaturata este histograma valorilor hemoglobinei la 738 de pacienţi cu diferite afecţiuni. Se observă o distribuţie a valorilor mai simetrică decât în figurile anterioare.