950 likes | 1.54k Views
Temelji biostatistike. Osnovni pojmi Zbiranje statističnih podatkov. Priporočena literatura. Štefan Adamič, Temelji biostatistike, Medicinska fakulteta Univerze Edvarda Kardelja v Ljubljani, 1980.
E N D
Temelji biostatistike Osnovni pojmi Zbiranje statističnih podatkov
Priporočena literatura • Štefan Adamič, Temelji biostatistike, Medicinska fakulteta Univerze Edvarda Kardelja v Ljubljani, 1980. • Wayne W. Daniel, Biostatistics, a foundation for analysis in the health sciences. Hoboken: John Wiley and Sons • Boris Petz, Osnovne statističke metode za nematematičare. Zagreb: Udžbenici sveučilišta u Zagrebu.
Statistika • Veda, ki kvantitativno proučuje masovne pojave v naravi in družbi, odkriva zakonitosti teh pojavov • Kot znanost je del matematike • Matematična statistika razvija metode, druge vede jih uporabljajo za odkrivanje povezav in zakonitosti med različnimi pojavi • Prilagojenost statističnih metod posameznim vedam – ločene veje statistike
V biomedicini • Biostatistika ali biometrika (bíostatístika - veda, ki proučuje biološke in medicinske pojave s statističnimi metodami). Za proučevanje osnovnih pojmov v biologiji, medicini, veterini, pri analizi znanstvenoraziskovalnega dela. • Zdravstvena statistika. Se ukvarja s podatki o obolenjih, o zdravstvenem stanju, o organizaciji in uspešnosti zdravstvene službe.
Iz podatkov, dobljenih na manjši skupini živali, skušamo sklepati o splošnih zakonitostih, veljavnih za vse živali enakih značilnosti. • Deskriptivna statistika – pomaga zbrati, urediti, prikazovati statistične podatke. • Analitična statistika – omogoča sklepanje iz zbranih podatkov, dobljenih pri proučevanju manjših skupin živali. • Moramo poznati značilnosti verjetnosti, da lahko kritično ocenimo podatke, pridobljene v neki proučevani skupini.
Proučujemo značilnosti statističnih enot, npr.: • živali v Sloveniji; • svinje na farmi Ihan; • ovce, obolele za praskavcem; • črnodlaki labradorci.
Populacija (realna) – vse statistične enote, ki ustrezajo opredeljujočim pogojem. Pogoji, ki opredeljujejo realno populacijo, morajo biti natančno opredeljeni. • krajevno: vsi psi v Rožni dolini, • ali časovno: vsi psi od 1.1.1980 do 1.1.1990, ipd. • Populacija (hipotetična) – značilnosti take populacije niso časovno ali krajevno omejene. Število enot v populaciji ni znano, populacija ni jasno omejena. Parametrov take populacije ne moremo natančno opredeliti: • populacija belih miši, • populacija sladkornih bolnikov, • populacija ovc s praskavcem.
Vzorec – del populacije, omogoča proučevanje značilnosti te populacije. • Skupina enot, vzeta iz hipotetične populacije. • Mora biti pravilno izbrana. • Omogoča poznavanje hipotetične populacije s pomočjo proučevanja vzorca in sklepanja. • Potrebno je naključno izbiranje enot iz populacije za oblikovanje primernega vzorca – vzorčenje.
Vse enote v populaciji so enake glede značilnosti, ki jih opredeljuje v določeno populacijo. • Poleg tega pa imajo tudi značilnosti, glede katerih se razlikujejo – statistične spremenljivke. • Pri statistični analizi izberemo eno (ali mogoče nekaj), ki je povezana z vsebino raziskovalnega problema – statistična spremenljivka • (starost živali, obolelih za praskavec; • genotip živali, obolelih za praskavec).
spremenljívka - količina, ki zavzame različne vrednosti: • atributivna ~ ki opisno označuje kvalitativno lastnost ali značilnost (npr. krvna skupina, spol), • lahko so: • Dihotomne – le dve vrednosti (preživeli – mrtvi); • Nominalne – enote se razlikujejo glede vrednosti, vendar med njimi ni logične povezave (barva oči – nezgode) • Ordinalne – lahko povežemo v neko logično zaporedje (prehrana – majhna žival, večja, največja)
numerična ~ ki označuje kvantitativno, merljivo lastnost ali značilnost in so vrednosti števila (npr. starost, teža); • Nezvezne – imajo vrednosti podane le s celimi števili (število mladičev v gnezdu, število obolelih živali) • Zvezne numerične spremenljivke – katerakoli vrednost znotraj določenega razmika, zvezne vrednosti dobimo praviloma z merjenjem. Natančnost števila opredeljuje natančnost meritve (količina holesterola v krvi, krvni pritisk, telesna teža).
Spremenljivka je lahko: • neodvisna ~ s katero se skuša pojasniti vrednost druge spremenljivke in pri poskusni metodi lahko pomeni vzrok spremembe odvisne spremenljivke; • odvisna ~ katere vrednosti se skuša razložiti z drugimi, pri poskusni metodi lahko pomeni posledico; prim. funkcija • moteča ~ ki lahko moti oceno povezanosti dveh ali več spremenljivk;
Definirajte neodvisno spremenljivko, odvisno spremenljivko in navedite nekaj možnih motečih spremenljivk. • Preizkušamo zdravilo za zniževanje krvnega pritiska. Krvni pritisk merimo skupini bolnikov (različnega spola, različne starosti, različnih konstitucij) pred aplikacijo zdravila. Apliciramo zdravilo. Krvni pritisk ponovno merimo skupini bolnikov po aplikaciji zdravila.
Označevanje spremenljivk • Dihotomne – le dve vrednosti (x in y) • Zvezne numerične - vrednosti do neskončno • Xi – katerakoli spremenljivka od 1 do n • Dve skupini istih spremenljivk (dva vzorca) – označujemo x1 (spremenljivke v eni skupini) in x2 (spremenljivke v drugi skupini)
Zbiranje statističnih podatkov • Podatki morajo biti točni, zanesljivi, čimmanj napak • Napake: • Slučajne napake (premajhna natančnost merskih metod, malomarnost) – po zakonu o velikih številih se njihov vpliv v veliki populaciji, vzorcu izgubi • Sistematične napake – posledica konstantnih vzrokov, ki delujejo v isto smer (nepravilno uravnane naprave, pristrano osebje). Učinek se z večanjem populacije, vzorca sešteva – privede do napačnih sklepov.
Urejanje statističnih podatkov • Veliko podatkov – potrebno urejanje – grupiranje. • Urejanje atributivnih spremenljivk v kategorije (število ovc na posestvu, koz na posestvu, število plemenskih ovnov na posestvu; vzrok smrti; vzrok bolezni). • Ugotavljamo število posameznih enot v skupini. • Ugotavljamo frekvenco posamezne kategorije. • Pri urejanju več atributivnih spremenljivk pogosto uporabljamo točno opredeljene klasifikatorje. • Klasifikatorji jasno opredelijo (kot dogovorjeno) vsako vrednost spremenljivke.
Urejanje numeričnih spremenljivk Tabela 1. Koncentracija glukoze v krvi pri laboratorijskih podganah (v mg/100 ml).
Urejeno zaporedje – po velikosti od najnižje do najvišje vrednosti. Tabela 2. Koncentracija glukoze v krvi pri laboratorijskih podganah (v mg/100 ml)
Ranžirna vrsta – rang - položaj enote v vrsti enot, urejenih po velikosti. Za vsako vrednost je določen rang v lestvici vrednosti. • Rang moramo vedno navajati skupaj s številom vseh enot v ranžirni vrsti. Tabela 3. Koncentracija glukoze v krvi pri laboratorijskih podganah (v mg/100 ml)
Urejanje podatkov v skupine – razrede – kadar imamo veliko število podatkov za določene karakteristike. Če so podatki kontinuirani, razrede (njihove meje) določimo sami. • Izberemo razredni interval. • Število podatkov, razvrščenih v isti razred, imenujemo frekvenca tega razreda. • Izračunamo lahko relativno frekvenco – f% = (f/n) x 100 Tabela 4. Koncentracija glukoze v krvi pri laboratorijskih podganah (v mg/100 ml)
Prikazovanje statističnih podatkov • Tabelarično – podatki podani v obliki tabele • Lahko sami določimo natančnost podatkov • Preprosta priprava • Grafično – podatki podani v obliki grafa • Nazorneje prikazuje medsebojno povezanost podatkov • Bolj zahtevna priprava • Velika izbira različnih oblik prikazovanja
Tabele • Naslov • Glava • Čelo • Telo • Vrstice - vodoravno • Stolpci - navpično • Polja • Zbirni stolpec – praviloma na desni • Zbirna vrstica – praviloma spodaj • Legenda – opombe, ki dopolnjujejo podatke v tabeli
Vsebina tabele in naslova mora biti pregledna in razumljiva • Naslov pojasnjuje, kaj tabela prikazuje • Podana mora biti enota variabel • V vsakem polju mora biti ustrezna številka ali znak – prazna polja niso dovoljena
Grafikoni • Grafikon - grafično prikazana velikost, struktura ali potek kakega pojava. • Grafikoni lažje predstavijo podatke. • Merske enote za vrednosti, predstavljene v grafikonu morajo biti jasno navedene. • Vrednost lestvic se običajno začne z nič – če ne, je to posebej označeno. • Uporabljamo: • aritmetično lestvico – odnos med podatkom in razdaljo na premici je linearen • logaritmično lestvico – daljice med dvema vrednostima so v sorazmerju z logaritmi podatkov, ki jih lestvica meri
Histogram • Prikazujemo kvantitativne spremenljivke, urejene v frekvenčno porazdelitev. • Vrednosti so urejene v razredne intervale. • Frekvenca enot v vsakem razredu je prikazana s površino ustreznega stolpca na grafikonu.
Starost obolelih živali (v mesecih) – razvrstite v urejeno zaporedje, v razrede
Starost obolelih živali (v mesecih), razvrščenih v urejeno zaporedje. Starost narašča od leve proti desni od zgoraj navzol
Poskus – določanje inkubacijske dobe praskavca pri ovcah • Injiciranje homogenata možganov obolelih ovc v 294 zdravih ovc • Opazovanje kliničnih znakov • Prve živali so obolele po 93 dnevih • 123 živali je zbolelo do 356 dneva • 156 živali je zbolelo do 495 dneva • Med 870. in 1049. dnem je zbolelo še 30 živali. • Ovce lahko razdelimo na: • skupino živali s kratko inkubacijsko dobo (od 93 do 356 dneva) • in skupino živali z dolgo inkubacijsko dobo (od 870 dni do 1049 dni) • Nekaj živali sploh ni obolelo – • mogoče so te živali odporne • ali pa je inkubacija daljša od življenjske dobe živali (vprašanje karanten pri uvozu živali)
Injiciranje homogenata možganov ovac, obolelih za praskavec, v 45 zdravih ovc. Tabela prikazuje dolžino inkubacije (v dnevih) do nastopa kliničnih znakov. Z – zdrave živali – ni prišlo do razvoja kliničnih znakov.
Injiciranje homogenata možganov ovac, obolelih za praskavec, v 45 zdravih ovc. Tabela prikazuje dolžino inkubacije (v dnevih) do nastopa kliničnih znakov – v urejenem zaporedju.Z – zdrave živali – ni prišlo do razvoja kliničnih znakov.
Podatki o dolžini inkubacijske dobe do nastopa kliničnih znakov praskavca pri ovcah – urejeni v razrede (v izbranih razrednih intervalih)
Frekvenčni poligon • Podatke, urejene v frekvenčno porazdelitev, prikažemo tudi s frekvenčnim poligonom. • Na sredino vsakega razreda nanesemo točko v višini, ki ustreza frekvenci tega razreda. Točke so prikazane v sredini razrednega intervala. Dobljene točke povežemo s daljicami.
Solpičasti diagram N = 5
Prikazovanje struktur s strukturnimi stolpci ali strukturnimi krogi. • Stolpič/krog, ki predstavlja celoto, je razdeljen sorazmerno na deleže posameznih struktur celote.
Linijski (črtni) diagram • Običajno prikazujemo neko dogajanje skozi časovni interval.
Srednje vrednosti • Vrednosti spremenljivk pri homogenih populacijah (vzorcih) se običajno nahajajo okoli neke srednje vrednosti. • Z vrednostjo srednje vrednosti lahko ocenimo preiskovano populacijo. • Srednja vrednost je eden izmed parametrov populacije (ali eden izmed statistik vzorca) • Več meril za oceno srednje vrednosti: • Aritmetična sredina • Mediana • Modus
Aritmetična sredina • Najpogosteje uporabljena srednja vrednost • Seštejemo vrednost spremenljivke vseh enot, vsoto delimo s številom enot • m = ΣX/n (za populacijo) • x = ΣX/n (za vzorec) • m – povprečje populacije, Σ – vsota, n – število enot, x – vrednost posameznega primera, x – povprečje vzorca
Predstavlja težišče podatkov. • Vsota odklonov od aritmetične sredine navzdol je enaka vsoti odklonov od aritmetične sredine navzgor. • Povprečje: • aritmetična sredina, • najpogostejša vrednost
Če imamo podatke v frekvenčni tabeli, računamo aritmetično sredino, kot da bi bile vrednosti spremenljivk vseh enot v razredu enake sredini razreda. • = Σfx/n • = 1790/50 = 35,8
Mediana – centralna vrednost • Tista vrednost, od katere ima polovica enot manjše, polovica pa večje vrednosti. • Liho število – mediana je enaka vrednosti srednje enote. • Sodo število – mediana je enaka povprečju srednjega para podatkov. • 6, 7, 6, 8, 35, 29, 7 – trajanje bolezni • 6, 6, 7, 7, 8, 29, 35 – rangirani podatki • 8 – mediana • 14 – aritmetična sredina
Modus • Najpogostejša vrednost spremenljivke. • Dober predstavnik za velike populacije.
Mere variacije • Populacijo opisuje: • srednja vrednost • odstopanja posameznikov populacije od srednje vrednosti • Manjše je odstopanje od srednje vrednosti – bolj je reprezentativna srednja vrednost.
Vzroki variiranja • Napake pri meritvah • Zaradi aparatur, osebja, vplivov okolja, netočnost metode, čistosti reagentov… • Občasno biološko variiranje pri subjektih • Različni dejavniki vplivajo na iste spremenljivke pri istih subjektih – emocionalna stanja, utrujenost po aktivnosti, spanje – budnost, različne stopnje fiziološkega ciklusa, spremembe mikroklime, dnevni ritem, hranjenje… • Biološko variiranje med subjekti • Posledica delovanja različnih dejavnikov, ki jih običajno proučujemo – genetski dejavniki, starost, spol, prehrana, zdravstveno stanje, različne stopnje fiziološkega ciklusa, emocionalna stanja, utrujenost po aktivnosti, spanje – budnost, spremembe mikroklime, dnevni ritem, hranjenje…