420 likes | 751 Views
Numeričke deskriptivne veličine. Numeričko opisivanje podataka. Centralna tendencija. Kvartili. Varijacija. Asimetrija. raspon. zakrivljenost. aritmetička srednja vrednost. interkvartilini raspon. zašiljenost. varijansa. medijana. standardna devijacija. modus. koeficijent varijacije.
E N D
Numeričko opisivanje podataka Centralna tendencija Kvartili Varijacija Asimetrija raspon zakrivljenost aritmetička srednja vrednost interkvartilini raspon zašiljenost varijansa medijana standardna devijacija modus koeficijent varijacije geometrijska srednja vrednost Osobine numeričkih podataka- mere
Osobine numeričkih podataka Centralna tendencija (lokacija centra) Varijacija (Rasipanje) Asimetrija
Odbacivanje ekstremnih vrednosti Ekstremno visoka vrednost se odbacuje ako je: Ekstremno niska vrednost se odbacuje ako je:
Mere centralne tendencije Centralna tendencija Modus Geometrijska srednja vrednost Aritmetička srednja vrednost Medijana najfrekventnija vrednost sredina rangiranih vrednosti
dobijena vrednost broj podataka Aritmetička srednja vrednost (average, mean) • Najčešće korišćena mera • Ponaša se kao ”ravnotežna tačka” • Na njenu vrednost utiču ekstremne vrednosti (”outliers”) • Izražava se u istim jedinicama kao i osnovni podaci • Izraz za izračunavanje:
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 srednja vrednost = 3 srednja vrednost = 4 Aritmetička srednja vrednost Uticaj ekstremnih vrednosti
Prosta srednja vrednost vs. ponderisana – težinska srednja vrednost • Ponderisana aritmetička srednja vrednost izračunava se kada su podaci prikazani kao frekvence: • Ako su podaci grupisani u klasne intervale, ponderisana srednja vrednost se izračunava:
Geometrijska srednja vrednost • n-ti koren proizvoda svih članova skupa • Primer: 1,2,3,10 • Gx = 4-ti koren iz 60 = 2.78 • II način izračunavanja Gx: 1. logaritmovanje svakog broja u skupu 2. računanje aritmetičke sredine tih logaritama 3.dizanje osnove logaritma (ln-2.718 ili log-10) na izračunatu aritmetičku sredinu logaritama (korak 2)
Skraćena srednja vrednost • Računa se tako što se iz skupa izbace ekstremne vrednosti sa oba kraja raspodele (najniže i najviše vrednosti • 5-25% vrednosti je uobičajeno da se odbaci i onda se računa srednja vrednost • Eliminiše se uticaj ekstremnih vrednosti • Primena – sport da bi se eliminisali efekti ekstremnih ocena dobijenih pogrešnom procenom sudija
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 medijana = 3 medijana = 3 Medijana (Me) • Medijana je centralna vrednost u nizu podataka • 50% vrednosti je iznad, 50% ispod medijane • Pre određivanje medijane podaci se urede po veličini • Na Me ne utiču ekstremne vrednosti
Određivanje medijane • Pozicija medijane (u uređenim podacima): • Ako je broj podataka neparan, medijana je vrednost u sredini niza • Ako je broj podataka paran, medijana je srednja vrednost dve vrednosti u sredini niza (između N/2 i (N+2)/2) • Napomena: • izraz nije vrednost medijane, već redni broj vrednosti koja predstavlja medijanu
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 modus = 9 nema modusa Modus (Mo) • Vrednost koja se pojavljuje najčešće • Na Mo ne utiču ekstremne vrednosti • U skupu može biti jedan ili više modusa • Skup može biti bez modusa • Mo može da se odredi i za numeričke i kategoričke podatke
70 60 50 KV KG 40 Broj osoba 30 20 10 0 1 1,5 2 2,5 3 3,5 4 4,5 5 Log PO-aze Log DZO-aze Aktivnost enzima PON1 antimode
Skale merenja- mere centralne tendencije • intervalna/skala odnosa - x, Me, Mo • ordinalna – Me, Mo • nominalna – samo Mo!!!
25% 25% 25% 25% 25% 25% 25% Q1 Q2 Q3 Kvartili • Kvartili dele skup uređenih podataka na četiri jednaka dela • Pozicione veličine • Prvi kvartil, Q1 – 25% vrednosti su manje od Q1 • Drugi kvartil, Q2= medijana • Treći kvartil, Q3 = 25% vrednosti su veće od Q1 • Q1 i Q3 nisu mere centralne tendencije
Određivanje kvartila • Pozicija (redni broj vrednosti) prvog kvartila: Q1 = (N+1)/4 • Pozicija (redni broj vrednosti) drugog kvartila: Q2 = (N+1)/2 • Pozicija (redni broj vrednosti) trećeg kvartila: Q3 = 3(N+1)/4 gde je N ukupan broj podataka
Percentili Pozicija percentila: • Prvi percentil P1: odvaja 1% vrednosti • Q1 = P25 • Q2 = Me = P50 • Q3 = P75
varijacija raspon interkvartilni raspon varijansa standardna devijacija koeficijent varijacije isti centar, različita varijacija Mere varijacije • Mere varijacije daju informaciju o rasipanju ili varijabilnosti podataka
primer: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 raspon = 14 - 1 = 13 Raspon • Najjednostavnija mera varijacije • Raspon – razlika između najveže i najmanje vrednosti u skupu raspon = xmax – xmin
7 8 9 10 11 12 7 8 9 10 11 12 raspon = 12 - 7 = 5 raspon = 12 - 7 = 5 Nedostatak raspona • Ignoriše oblik raspodele podataka • Osetljiv na ekstremne vrednosti 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 raspon = 5 - 1 = 4 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 raspon = 120 - 1 = 119
medijana (Q2) Q3 Xmax Xmin Q1 25% 25% 25% 25% 12 30 45 57 70 interkvartilni raspon = 57 – 30 = 27 Interkvartilni raspon • Rasipanje unutar srednjih 50%: Q3 – Q1 • Nema uticaja ekstremnih vrednosti primer:
Srednje apsolutno odstupanje - So Srednje apsolutno odstupanje (obeležava se sa So) određuje se tako što se zbir apsolutnih vrednosti pojedinačnih odstupanja svakog člana niza od srednje vrednosti podeli ukupnim brojem članova niza:
Varijansa • Prosečno (približno) kvadratno odstupanje vrednosti od srednje vrednosti • Izraz za izračunavanje: • N – 1 – broj stepena slobode
Standardna devijacija • Najčešće korišćena mera varijacije • Pokazuje varijaciju oko srednje vrednosti • Kvadratni koren iz varijanse • Izražava se u istim jedinicama kao i osnovni podaci
Broj stepena slobode - df, θ, φ • φ = N - 1 • φ - broj nezavisnih poredjenja • x1 i x2 nezavisne vrednosti, φ = 2
Standardna devijacija - Sd Podaci: 4,9 6,37,7 8,9 10,3 11,7
Standardna devijacija iz razlike parova U 12 uzoraka seruma određena glukoza u duplikatu
mala standardna devijacija velika standardna devijacija Značenje standardne devijacije
grupa A sr. vrednost = 15.5 SD = 3,338 11 12 13 14 15 16 17 18 19 20 21 grupa B sr. vrednost = 15.5 Sd = 0,926 11 12 13 14 15 16 17 18 19 20 21 grupa C sr. vrednost = 15.5 Sd = 4,567 11 12 13 14 15 16 17 18 19 20 21 Poređenje standardnih devijacija
Osobine varijanse i standardne devijacije • Svaka vrednost se koristi u izračunavanju • razlika u odnosu na raspon i interkvartilni raspon • Veliki uticaj ekstremnih vrednosti • izračunava se kvadrat odstupanja od srednje vrednosti
Koeficijent varijacije - Kv • Mera relativne varijacije (u odnosu na srednju vrednost) • Uvek se izražava u % • Omogućava poredjenje više grupa podataka, čak i kada su izraženi u različitim jedinicama
Poređenje koeficijenata varijacije • Grupa A: • srednja vrednost = 50 • standardna devilacija = 5 • Grupa B: • srednja vrednost = 100 • standardna devilacija = 5
levostrana simetrična desnostrana = Me = Mo Me Me Mo Mo Asimetrija raspodele • Pokazuju kako su podaci distribuirani • zakrivljenost i zašiljenost
Numeričke mere za populaciju i uzorak • Statistički parametri koji se izračunavaju iz populacije opisuju osobine populacije • Statistički parametri koji se izračunavaju iz uzorka opisuju osobine uzorka • Srednja vrednost populacije – μ • Srednja vrednost uzorka – • Standardna devijacija populacije –σ • Standardna devijacija uzorka– Sd
Z-score –Standardni skor • Odstupanje posmatrane vrednosti od x izraženo u broju Sd • Z=(x -x)/Sd • Mera relativnog odstupanja • Z pozitivan – veći od većine vrednosti u skupu • Z negativan – manji od većine vrednosti u skupu
Z-score primer • Kontrolom kvaliteta težine tableta dobijeno je 120 vrednosti iz kojih su izračunate srednja vrednost 500.5 mg i Sd 3 mg. Koliki je Z-score za tablete težine 496 mg? • Rešenje (496-500.5)/3=-1.5
Z-score primer 2 • Devojka je visoka 160 cm i ima z-score 0.7 u odnosu na x visinu grupe koja iznosi 168 cm. Kolika je Sd?