Štatistické spracovanie a vyhodnotenie dát

Štatistické spracovanie a vyhodnotenie dát

Premenné • štatistické jednotky (Statistical Units) • premenné (Variables) • nadobúda hodnotu (Value) Premenná jednej štatistickej jednotky v jednom časovom okamihu nadobúda práve jednu hodnotu. Príklady:

Intervalová (kardinálna) • umožňujú zoradenie objektov, ale aj • kvantifikáciu a • porovnanie veľkosti rozdielov medzi nimi. • Napríklad: výsledky prijímacích testov žiakov, vieme kto bol prvý, druhý, tretí atď. Takisto však vieme určiť, o koľko mal jeden žiak lepšie výsledky ako druhý. Ak by sme vedeli iba výsledné poradie, nevieme určiť, o koľko bol prvý lepší ako druhý. • Intervalová premenná musí vždy obsahovať jednotku merania a všetky hodnoty premennej v súbore musia byť vyjadrené pomocou tejto miery (nie je prípustné, aby niektorí ľudia mali vek uvedení v rokoch a iní v mesiacoch). • Príklady: vek [roky], výška [cm], hmotnosť [kg], príjem [Sk], obrat [Euro], teplota [°C] • Poznámka: Intervalová premenná (napr. vek) rozdelená do niekoľkých intervalov (vekových kategórií: do 20 rokov, 21–25 rokov, 26–30 rokov, atď.) nie je intervalová premenná ale poradová.

Proporcionálna (pomerová),Absolútna • Proporcionálna – sme schopní určiť a vecne interpretovať nulu (počiatok) stupnice • Príklad: meranie teploty v Kelvinoch • Absolútna – špeciálny prípad pomerovej škály, kde sa hodnoty nemenia spojito ale diskrétne po kvantách (dávkach) • Príklad: počet ľudí v miestnosti, počet vyriešených úloh v teste

Poradová (ordinálna) • umožňuje zoradiť objekty podľa toho, ktoré majú viac a ktoré majú menej kvality reprezentovanej premennou. • neumožňujú povedať „O koľko viac." • Príklady: prospech v škole, hodnotenie zdravotného stavu pacienta, hodnotenie reklamy zákazníkom, poradie pretekárov, socio-ekonomický status. • Poznámka: V sociálnych vedách je bežné používať na analýzu ordinálnych premenných metódy určené pre intervalové premenné, ak počet kategórií ordinálnej premennej je aspoň 5.

Nominálna • klasifikuje objekty do konečného počtu skupín, pričom určovanie poradia skupín nemá zmysel. • Príklady: farba, národnosť, krvná skupina, vierovyznanie, mesto.

Binárna (dichotomická) • Špecifický prípad nominálnej úrovne, kde objekt patrí vždy iba do jednej z dvoch možných kategórií. • Príklady: pohlavie, absolvovanie kurzu (áno / nie), časový okamih (pred akciou / po akcii). • Poznámka: Analýza premenných, ktoré sú merané na vyššej škále, ako vyžaduje konkrétna štatistická metóda, je síce neefektívna, ale prípustná. Napr. intervalovú premennú vek možno ľahko transformovať na binárnu premennú vek nad 30 rokov (áno / nie). Štatistická metóda sa nesmie použiť na analýzu premennej meranej na nižšej škále ako vyžaduje metóda.

Jednorozmerná deskriptívna štatistika – číselné premenné Na opis číselnej premennej sa používajú: • Histogram • Škatuľový graf • Histogram doplnený o škatuľový graf • Opisné charakteristiky

Histogram typ stĺpcového grafu určený na znázornenie rozdelenia intervalovej premennej. Graf na osi y zobrazuje početnosti hodnôt premennej v intervaloch jej hodnôt na osi x.

Škatuľový graf (Box Plot) znázorňuje rozdelenie hodnôt premennej pomocou opisných charakteristík. Horizontálna čiara predstavuje medián (50. percentil), horná hrana škatule 75. percentil a dolná hrana 25. percentil. Dĺžka obdĺžnika predstavuje medzikvartilové rozpätie (IQR), teda stredných 50 % hodnôt súboru. V najjednoduchšej podobe predstavuje horná čiarka maximum a dolná čiarka minimum. Horná čiarka však často znázorňuje 95. percentil a dolná čiarka 5. percentil. V najzložitejšej podobe grafu horná čiarka predstavuje 75. percentil + 1,5 × IQR (neextrémne maximum) a dolná čiarka 25. percentil − 1,5 × IQR (neextrémne minimum). Odľahlé pozorovania (outliers) ležiace mimo týchto intervalov môžu byť znázornené ako body. Škatuľový graf možno umiestniť vertikálne alebo horizontálne (hodnoty premennej budú na osi x).

Histogram + škatuľový graf

Dvojrozmerná deskriptívna štatistika– číselné premenné Na opísanie vzťahu medzi dvoma číselnými premennými sa používajú: • Bivariačný histogram • X-Y graf

Bivariačný histogram predstavuje rozšírenie histogramu a slúži na znázornenie rozdelenia početnosti dvoch premenných. na vertikálnej osi zobrazuje početnosti kombinácie hodnôt premenných v intervaloch ich hodnôt uvedených na osi x a osi y.

X-Y graf (Scatter Plot) predstavuje základný graf na znázornenie vzťahu medzi dvoma číselnými premennými. Bod na grafe predstavuje objekt, ktorého hodnoty premenných sú dané príslušnými súradnicami na osiach x a y. V prípade veľkého počtu pozorovaní s totožnými hodnotami X a Y sa graf stáva nevhodným, pretože jeden bod nepredstavuje jedno pozorovanie ale viacero pozorovaní, ktoré sú "na sebe poukladané".

Viacrozmerná deskriptívna štatistika – číselné premenné Na preskúmanie viacerých číselných premenných súčasne sa používajú trojrozmerné grafy: • X-Y-Z graf, • Vrstevnicový graf, • Povrchový graf

X-Y-Z graf (3-D Scatter Plot) zobrazuje body v priestore. Súradnice bodov sú dané hodnotami premenných pre dané pozorovanie (objekt).

Jednorozmerná deskriptívna štatistika - kategorická premenná Na opis kategorickej premennej sa používajú: • Frekvenčná tabuľka • Koláčový graf • Stĺpcový graf • Kumulatívny stĺpcový graf

Frekvenčná tabuľka • zodpovedá jednostupňovému triedeniu. Obsahuje triedne početnosti podľa kategórií (tried) jednej premennej. • Nasledujúci tabuľka obsahuje rozdelenie respondentov podľa vzdelania.

Koláčový graf • predstavuje najvhodnejšie grafické znázornenie percent (relatívnych početností) frekvenčnej tabuľky. Nasledujúci obrázok je zostrojený z horeuvedenej frekvenčnej tabuľky.

Stĺpcový graf predstavuje najvhodnejšie grafické znázornenie absolútnych početností frekvenčnej tabuľky. Nasledujúci obrázok je zostrojený z horeuvedenej frekvenčnej tabuľky.

Kumulatívny stĺpcový graf predstavuje alternatívu ku koláčovému grafu. Nasledujúci obrázok je zostrojený z horeuvedenej frekvenčnej tabuľky.

Dvojrozmerná deskriptívna štatistika - kategorické premenné Na opisánie vzťahu medzi dvoma kategorickými premennými sa používajú: • Kontingenčná tabuľka • Kumulatívny stĺpcový graf • Stĺpcový graf • 3-D stĺpcový graf

Kontingenčná tabuľka • je metódou organizovania a analýzy údajov podľa skupín, kategórií alebo tried, ktorá umožňuje ich porovnávanie. • Spája rozdelenie početnosti dvoch premenných a predstavuje rozšírenie jednoduchej frekvenčnej tabuľky. Číslo v bunke krížovej tabuľky predstavuje počet štatistických jednotiek, ktorých riadková premenná nadobúda hodnotu v hlavičke riadku (napr. pohlavie) a stĺpcová premenná nadobúda hodnotu v hlavičke stĺpca (napr. vzdelanie).

Kumulatívny stĺpcový graf • predstavuje najlepší spôsob grafického znázornenia vzťahu medzi dvojicou kategorických premenných. V skutočnosti je to grafické zobrazenie riadkových alebo stĺpcových percent kontingenčnej tabuľky.

Stĺpcový graf • zobrazuje absolútne početnosti kontingenčnej tabuľky.

3-D stĺpcový graf • predstavuje alternatívu k stĺpcovému grafu. • menšia prehľadnosť.

Opisné charakteristiky Opisná charakteristika predstavuje číslo vypočítané podľa príslušného vzorca zo štatistického súboru. Cieľom opisných charakteristík je charakterizovať súbor. • Miery polohy • Miery variability • Miery tvaru

Miery polohy (Stredné hodnoty) Aritmetický priemer (Mean) • sa vypočíta ako súčet všetkých hodnôt vydelený ich počtom:

Geometrický priemer(Geometric Mean) • je vhodnejšou mierou polohy pre pomerovú premennú (špeciálny typ intervalovej premennej s bodom absolútnej nuly, pod ktorú hodnota premennej nemôže klesnúť - napr. hmotnosť, výška, vek) s pozitívnou šikmosťou (napr. rozdelenie príjmov obyvateľstva). • Geometrický priemer sa často používa v ekonómii a biológii, keď je premenná skôr súčinom ako súčtom mnohých malých efektov (logaritmus premennej má bližšie k symetrickému normálnemu rozdeleniu ako samotná premenná). Vypočíta sa ako n-tá odmocnina súčinu všetkých hodnôt:

Harmonický priemer(Harmonic Mean) Harmonický priemer sa používa na výpočet priemernej rýchlosti ak sú vzdialenosti konštantné a čas premenlivý. V prípade rôznych vzdialeností a rovnakých časov sa však musí použiť aritmetický priemer. Priemerná rýchlosť auta, ktoré išlo 2 hodiny rýchlosťou 90 km/h a ďalšie 2 hodiny 130 km/h sa rovná: (90+130)/2=110 km/h. Do výpočtu harmonického priemeru možno zahrnúť iba nenulové hodnoty:

Medián (Median) • predstavuje strednú hodnotu súboru, ktorý je zoradený od najmenšej po najväčšiu hodnotu. • V prípade párneho počtu hodnôt je medián aritmetický priemer hodnôt na miestach n/2 a n/2+1. Medián, na rozdiel od priemeru, nie je ovplyvnený extrémnymi hodnotami. Medián predstavuje najpoužívanejší kvantil. • Kvantil súboru je hodnota k-tej časti, ak je súbor rozdelený na n rovnakých častí (hodnoty sú zoradené od najmenšej po najväčšiu). Okrem mediánu sa často používajú kvartily (delia súbor na 4 časti) a percentily (delia súbor na 100 častí). Medián je druhý kvartil, resp. 50. percentil.

Modus (Mode) • predstavuje najčastejšie sa vyskytujúcu hodnotu premennej. • Rozdelenie, ktoré má iba jeden vrchol, teda jedno lokálne maximum, ktoré je zároveň globálne, sa nazýva unimodálne.

Miery variability Variačné rozpätie (Range) • sa vypočíta ako rozdiel medzi najväčšou a najmenšou hodnotou súboru: R = xmax - xmin

Medzikvartilové rozpätie (Interquartile Range) Predstavuje rozdiel medzi tretím a prvým kvartilom (75. a 25. percentilom), čo reprezentuje oblasť stredných 50 percent hodnôt premennej. Táto miera variability nie je ovplyvnená extrémnymi hodnotami premennej.

Rozptyl (Variance) sa rovná priemernému štvorcu odchýlky hodnoty od priemeru. Čím je rozptyl väčší, tým sa údaje viac odchyľujú od priemeru. Rozptyl sa vypočíta podľa vzorca:

Štandardná odchýlka(Standard Deviation) Dôsledkom nutného umocňovania je vypočítaná hodnota rozptylu v štvorcoch pôvodných jednotiek. Aby sa odstránil neblahý vplyv umocňovania, rozptyl sa odmocní, čím sa vypočíta štandardná odchýlka:

Variačný koeficient(Coefficient of Variation) predstavuje relatívnu mieru variability. Používa sa na porovnávanie variability medzi súbormi dát s odlišnými priemermi. Variačný koeficient výšky vzorky ľudí bude rovnaký bez ohľadu na to, či výšku budeme vyjadrovať v centimetroch alebo metroch. Vypočíta sa ako podiel štandardnej odchýlky a priemeru.

Koeficient disperzie(Coefficient of Dispersion) • predstavuje relatívnu mieru variability, ktorá je iba málo ovplyvnená extrémnymi hodnotami.

Miery tvaru Šikmosť (Skewness) • meria smer a stupeň asymetrie rozdelenia premennej a vypočíta sa: Kladná hodnota (pravostranná šikmosť) znamená, že priemer je väčší ako medián, teda väčšina hodnôt je menšia ako priemer. Záporná hodnota (ľavostranná šikmosť) znamená, že medián je väčší ako priemer a teda väčšina hodnôt je väčšia ako priemer. Šikmosť rovná 0 znamená symetrické rozdelenie, teda priemer a medián sa rovnajú.

Na horizontálnej osi (x) histogramov sú hodnoty premennej a na vertikálnej osi (y) relatívne početnosti (percentá) hodnôt premennej v príslušných intervaloch na osi x. Trojuholníkové rozdelenia početností s rovnakým priemerom (10), rozptylom (2) aj špicatosťou (2,4), líšiace sa iba šikmosťou.

Špicatosť (Kurtosis) • meria hustotu chvostov rozdelenia premennej, teda charakterizuje výskyt extrémne vysokých a extrémne nízkych hodnôt. Špicatosť rozdelenia sa porovnáva so špicatosťou normálneho rozdelenia, ktorého špicatosť sa rovná 3. Unimodálne rozdelenia, ktorých špicatosť je väčšia, majú hustejšie chvosty (výskyt extrémnych hodnôt je častejší) ako normálne rozdelenie. Takéto rozdelenia majú vyšší vrchol. Unimodálne rozdelenia, ktorých špicatosť je menšia ako 3, majú nižšie chvosty, teda výskyt extrémnych hodnôt je menej častý ako u normálneho rozdelenia. Takéto rozdelenia sú plochejšie.

Symetrické rozdelenia s rovnakým priemerom (0) a rovnakým rozptylom (5/3), ktoré sa líšia iba špicatosťou.

Analýza dát Medzi premennými existuje vzťah, ak ich hodnoty vzájomne systematicky korešpondujú. V korelačnom výskume neovplyvňujeme premenné, iba ich meriame a hľadáme vzťahy (korelácie). V experimentálnom výskume s niektorými premennými manipulujeme (nazývajú sa nezávislé premenné) a potom meriame dopad týchto manipulácií na ďalšie premenné (nazývajú sa závislé premenné). Aj v prípade experimentálnych výskumov sa skúmajú korelácie medzi manipulovanými premennými a premennými ovplyvnenými manipuláciou, experimenty však môže poskytnúť informácie vyššej kvality. Iba experimentálne údaje môžu nezvratne demonštrovať kauzálny vzťah.

Korelačné koeficienty • meria silu štatistickej závislosti medzi dvoma číselnými premennými. Pod pojmom korelačný koeficient sa najčastejšie myslí Pearsonov korelačný koeficient označovaný ako r (Pearson's product moment) z roku 1896, ktorý je mierou lineárnej závislosti dvoch premenných. • Pearsonov korelačný koeficient sa vypočíta:

Kovariancia vyjadruje, ako sa súčasne menia hodnoty dvoch premenných. Kladná hodnota znamená, že sa menia spoločne jedným smerom, záporná hodnota znamená, že sa menia opačným smerom a nula, že sa menia nezávisle. Vydelením kovariancie štandardnými odchýlkami sa vypočíta Pearsonov korelačný koeficient. Hodnota všetkých korelačných koeficientov sa nachádza v intervale -1; +1. • -1 znamená dokonalú negatívnu závislosť, • 1 znamená dokonalú pozitívnu závislosť a • 0 nezávislosť X a Y. V prípade Pearsonovho korelačného koeficientu hodnota −1 znamená, že všetky body v X-Y grafe ležia na klesajúcej priamke, hodnota 1, že ležia na stúpajúcej priamke a hodnota 0, že sú rozptýlené. Interpretácia veľkosti korelačného koeficientu je veľmi častým problémom. Podľa Cohena (1988) je korelácia pod 0,1 triviálna, 0,1–0,3 malá, 0,3–0,5 stredná a nad 0,5 veľká. Korelácia 0,7–0,9 sa často uvádza ako veľmi veľká a 0,9–1 ako takmer dokonalá.

Spearmanov koeficient • kde d – je diferencia dvojice poradia (xi – yi) • n – počet poradí. Pri počte n < 5 je korelačný koeficient veľmi neistý, a teda má malú výrokovú schopnosť. Hodnoty získané Spearmanovým korelačným koeficientom sa pohybujú ako pri Pearsonovom korelačnom koeficiente od –1 do 1 vrátane. Interpretujú sa podobne ako v prípade Pearsonovho koeficientu, avšak nie sú také citlivé.

Kontingenčné koeficienty Používajú sa na určenie sily asociácie riadkovej a stĺpcovej premennej v kontingenčnej tabuľke. Ak náhodné premenné nie sú ani metricky, ani ordinárne škálované, ich vzájomný vzťah nemožno primerane opísať korelačným koeficientom. Ak má každá náhodne premenná iba 2 triedy, počítame štvorpolíčkový koeficient korelácie, a to • koeficient  (ak triedy znakov tvoria pravé alternatívy), alebo • tetrachorický koeficient rtet(ak triedy premenných sú z normálne rozdelených súborov), alebo • asociačný koeficient Q.

Koeficient  Koeficient  počítame, keď dichotomické triedy premenných tvoria pravé alternatívy umožňujúce jednoznačné priradenie každého prvku (pohlavie, dotazník ´áno – nie´, postoj ´pozitívny – negatívny´). Koeficientvypočítame podľa vzorca: a, b, c, d sú početnosti v štyroch políčkach tabuľky. Existuje tiež priama súvislosť medzi  a 2. Vyplýva zo vzťahu: Pomocou 2 -testu môžeme testovať, či existuje súvislosť medzi dvoma náhodnými premennými a ak je to tak, možno  použiť na určenie tesnosti súvislosti.

Tetrachorický koeficient rtet • je odhadom hodnoty korelačného koeficientu r, ktorý opisuje súvislosť medzi dvoma premennými, ak sú metricky škálované. • rtetje tým menej spoľahlivé, čím viac sa odlišuje rozdelenie základných údajov od normálneho rozdelenia. Keďže exaktný výpočet rtet je náročný, uspokojíme sa s približnými metódami. Najznámejšia z nich je tzv. formula cos .

Asociačný koeficient Q • odporúča staršia štatistická literatúra a mnohé súčasné americké knihy ako charakteristiku vzťahov alternatívne delených premenných. Počítame ho podľa vzorca Veľkosť koeficientu informuje iba málo spoľahlivo o tesnosti súvislosti medzi kvalitatívnymi triedami znaku.

Štatistické spracovanie a vyhodnotenie dát

Štatistické spracovanie a vyhodnotenie dát

Presentation Transcript

Integr ácia a spracovanie údajov o životnom prostredí Technol ógia ADMIRE

Nervová sústava

Členská schôdza 11. septembra 2012

Spracovanie signálov zo senzorov

Dostupné škálovateľné riešenia pre spracovanie veľkého objemu dát a dátové sklady

Projekt KIS3G a katalogizácia

Spracovanie XML dotazov založené na sekvenciách ciest

Web a jeho vplyv na spracovanie a sprístupňovanie zdrojov

Spracovanie prúdu dát

P OUŽITIE MAPREDUCE ARCHITEKTÚRY NA SPRACOVANIE VEĽKÝCH INFORMAČNÝCH ZDROJOV

Počítačová grafika

Vyhodnotenie dotazníka Rodina a práca

Vstup údajov do GIS Reštrukturalizácia (manipulácia) údajov v GIS Analýzy v prostredí GIS

Počítač a zdravotníctvo

APV GOLEM – Reštauračný informačný systém

Nervová sústava

VYHODNOTENIE ČERPANIA ŠF V RÁMCI ŽSK

VISION

Ďalšie vzdelávanie učiteľov všeobecnovzdelávacích predmetov v oblasti

Národné lesnícke centrum, Ústav pre hospodársku úpravu lesov Zvolen

3D Modelovanie prvkov krajiny

Slovenská agentúra životného prostredia Banská Bystrica