210 likes | 785 Views
Tunnuste t üü bid. Arvulised (kvantitatiivsed). Mittearvulised (kvalitatiivsed). Pidevad. Diskreetsed. Järjestatavad. Nominaalsed. Kaal Valuutakurss Vanus. Kodulehe külastajate arv Klientide arv päevas Laste arv peres. Haridustase Rahulolule hinnang. Aadress Lemmiktoode.
E N D
Tunnuste tüübid Arvulised (kvantitatiivsed) Mittearvulised (kvalitatiivsed) Pidevad Diskreetsed Järjestatavad Nominaalsed Kaal Valuutakurss Vanus ... Kodulehe külastajate arv Klientide arv päevas Laste arv peres Haridustase Rahulolule hinnang Aadress Lemmiktoode Binaarsed Sugu
Andmetabel • Statistikas on oluline andmete täpne esitamine. • Andmetabel (objekt-tunnus maatriks): • Iga rida esindab ühte uuritavat objekti (tema mõõtmistulemusi) • Iga veerg (tulp) esindab ühte tunnust • Andmetabel ei ole informatiivne, ennekõike suuremate uuringute korral. • Kirjeldav statistika on andmete esitamine kokkuvõtlikul, sisutihedal, ülevaatlikul kujul, • Arvulised näitajad (keskmine, ...); • Graafiline esitus (tabelid, diagrammid, ...). • Kirjeldav statistika on andmeanalüüsi esimene etapp.
Sagedustabel • Sagedustabel - võtab andmetabelist kokku mitmel objektil mingit väärtust esineb ehk esitab vastava sageduse. Peame teadma: • milliseid väärtusi tunnus võib omandada • ja kui sageli iga väärtus esines (...mitmel üliõpilasel on hallid silmad...). • Absoluutne sagedus (sagedus) – väärtusele vastav objektide arv, • Suhteline sagedus (sageduste osakaal) - sagedus jagatakse objektide koguarvuga. • Kumulatiivne sagedus (sageduste summa)– absoluutsed sagedused liidetakse(kasutatakse ka kumulatiivset suhtelist sagedust).
Pideva arvtunnuse väärtuste grupeerimisest • Pidevate arvtunnuste korral peame kasutama väärtuste grupeerimist! Tunnuse väärtuste grupeerimisel on sobiv • valida klasside pikkused võrdsetena; • klassipiirideks ümmargused arvud; • klasside arv suurusjärgus kuupjuur kuni ruutjuur objektide arvust, enamasti aga mitte rohkem kui 20 klassi. • Vajadusel võib otsmised klassid jätta lahtiseks.
Diagrammidest ja tabelitest • Graafikud on eelkõige illustreerivad, alati ei ole sagedused märgitud ning täpseid väärtusi on raske leida. • Ringdiagrammina esitatud andmeid loevad inimesed üldiselt ebatäpsemalt kui tulpdiagrammis esitatud andmeid. • Mustvalge väljaprindi korral on oluline kasutada mustreid, mitte värve. • Graafik ei tohi olla ülekujundatud ega üleselgitatud. • Üldiselt kasutatakse mittearvulistele (kvalitatiivsetele) tunnustele ringdiagrammi, arvulistele tulpdiagrammi. • Iga töösse lisatud graafik peab omama väärtust ehk lihtsustama info lugemist või esitama uudse kokkuvõtte. Graafik, mis on annab samaväärse info juba esitatud tabeli või tekstiga, ei oma mõtet. • Töös ei esitata elementaarseid tabeleid ja diagramme (info, mis tekstina oleks lühem või samaväärne), samuti peaks vältima info kordamist.
Valimi arvuline kirjeldamine paiknemiskarakteristikud (statistikud) • Mood (Mode) • Mood võib olla nii arvuline kui mittearvuline. • Mood võib tunnusel ka puududa - näiteks siis, kui on tegemist ühtlase jaotusega. • Moode võib olla ka mitu - siis on jaotus bimodaalne. Miinimum ja maksimum (Minimum and Maximum) • Aritmeetiline keskmine (Average) • Mediaan (Median) • Kvartiilid (Quartiles)
Keskmine • Aritmeetiline keskmine – liidetakse kõikide objektide tunnuse xväärtused ning jagatakse objektide arvuga. Keskmine on tundlik üksikute väärtuste suhtes. • Geomeetriline keskmine - leidmiseks korrutatakse kõik väärtused (n väärtust) omavahel ja võetakse saadud korrutisest n-juur. • Kaalutud keskmine - anname igale väärtusele mingi kaalu, korrutame iga väärtuse talle antud kaaluga, liidame kõik korrutised ning jagame kaalude summaga.
Kvartiilid Mediaan jaotab variatsioonrea kaheks osaks: alumiseks (siia kuuluvad mediaanist väiksemad väärtused) ja ülemiseks (kuhu kuuluvad mediaanist suuremad väärtused). • Variatsioonrea alumise poole mediaani nimetatakse alumiseks ehk esimeseks kvartiiliks, • variatsioonrea ülemise poole mediaani – ülemiseks ehk kolmandaks kvartiiliks. • Mediaan ja kvartiilid jaotavad variatsioonrea neljaks osaks, millest igasse kuulub (ligikaudu) veerand kõigist variatsioonrea liikmetest.
Kvintiilid ja detsiilid • Kvintiilid jagavad variatsioonrea viieks võrdseks osaks. • Detsiilid jagavad variatsioonrea kümneks võrdseks osaks. • Kvintiile ja detsiile kasutatakse palju majanduses. • Näiteks: Tulukvintiilid ja –detsiilid.
Valimit kirjeldav statistika - hajuvuskarakteristikud 1 • Haare (Range) = maksimum-miinimum • Kvartiilidevaheline haare (Interquartile range) tunnuse ülemise ja alumise kvartiili vahe. • Dispersioon (Variance) (tähistame s2)= hälvete (üksikväärtuse ja keskmise erinevus) ruutude keskmine • Standardhälve (Standard deviance) (tähistame s) = ruutjuur dispersioonist. • Variatsioonkordaja
Hajuvuskarakteristikud 2 • Variatsioonikordajatkasutatakse tunnuste hajuvuse võrdlemisel, variatsioonkordaja avaldub standardhälbe ja aritmeetilise keskmise suhtena, üldiselt avaldatakse %-na. • Kui variatsioonkordaja on umbes 50%, siis tunnus normaalse hajuvusega (keskmine kirjeldab tegelikku tüüpilist väärtust), kui tunduvalt üle 50%, siis tunnus liiga hajus, kui tunduvalt alla 50%, siis tunnus väga vähe hajus. Kui kõik tunnuse kõik väärtused valimis on samad, siis v on 0%.
Kahe tunnuse ühine käitumine • Sõltuvad tunnused - ühe tunnuse käitumise järgi saab hinnata teise tunnuse käitumist • Mis suunas on sõltuvus? • Kui tugev on sõltuvus? • Tunnustevahelise seoste tüübid: • Statistiline sõltuvus – kõige üldisem, määrab vaid, kas on sõltuvus või mitte, suunda ega tugevust ei saa leida. • Korrelatiivne sõltuvus – leitav vaid arvulistele tunnuste puhul, määrab sõltuvuse suuna ja tugevuse • Erinevad korrelatsioonikordajad. • Funktsionaalne sõltuvus – leitav vaid arvulistele tunnustele, määrab lisaks suunale ja tugevusele ka funktsionaalse sõltuvuse.
Hajuvusdiagramm Hajuvusdiagramm (ehk korrelatsiooniväli) - hajuvusdiagrammile kantakse kõik valimi objektid. Punkti x-koordinaadiks on esimese tunnuse väärtus ja y-koordinaadiks teise tunnuse väärtus. Kui hajuvusdiagrammil punktid paiknevad tõusvas või langevas “pilvekeses”, siis viitab see ühisele tendentsile tunnuste käitumises.
Lineaarne korrelatsioonikordaja • Lineaarne ehk Pearsoni korrelatsioonikordaja r kasutab hajuvusdiagrammi informatsiooni ning on kõige levinum kordaja. Excel'is r=correl(X,Y) • Korrelatsioonikordaja r omab tähendust vaid pidevatele ja normaaljaotusega tunnustele! • Mida lähemal on r absoluutselt ühele, seda tugevamalt on tunnused omavahel seotud.
Lineaarne korrelatsioonikordaja Omadused: • Väärtus asub –1 ja 1 vahel, -1≤r≤1. • Kui tunnused on kasvavalt seotud on r>0. • Kui tunnused on kahanevalt seotud, on r<0. • Kui tunnused on sõltumatud, siis r=0. • Nõrk seos: kordaja |r|< kui 0.3 • Keskmine seos: kordaja 0.3< |r| < 0.7l. • Tugev seos: kordaja |r|> 0.7.
Puudused: Mõjutub erinditest (paar erindit võivad “venitada” kordaja suureks, kuigi tegelikult on seos nõrk) – erind välja jätta Mõjutub kolmandast tunnusest ehk punktid moodustavad mingi kolmanda tunnuse suhtes tõusva (langeva) pilve – uurida kordajaid kolmanda tunnuse väärtuste kaupa Tunneb ära vaid lineaarse seose, muu seose korral (ruutfunktsionaalne seos vms) võib anda tulemuseks nõrga või olematu sõltuvuse. Kõigil juhtudel on üldjuhul probleem nähtav hajuvusdiagrammilt. Lineaarne korrelatsioonikordaja
Regressioonanalüüs • Mudel • Vähimruutude meetodil • Excelis ei pea seda ise arvutama vaid lisame trendline (kui tahame ka kordajaid näha tuleb teisel lipikul need linnukestega märkida). • Regressioonsirge(a ja b leidmise järel) • Excelis veel võimalik lähendada kõrgemat järku polünoomiga, logaritmfunktsiooniga, astmefunktsiooniga.
Vajadusel loe juurde • Statistika (ja tõenäosusteooria) on tänapäeval kasutust leidnud • paljudel aladel ja seetõttu ilmub ka raamatuid hulgi. Mõned on rohkem • ilukirjandus, teised liiga teoreetilised. Soovitan peamiselt 2 • raamatut, mis mõlemad rohkete näidetega. Mis ei tähenda, et teised õpikud ei sobiks, võibolla pole parim lihtsalt mulle kätte sattunud. • Helmo Käerdi "Statistika" Sisekaitseakadeemia.Väga hästi kirjutatud, sisaldab vajalikke lisasid, tasub lugeda ka teisi sama autori raamatuid. Norida võiks, et ei vihjagi arvutiga lahendamisele. • Natalja Jurevits "Rakendusstatistika" Tartu Kutsehariduskeskus. Sisult statistika Excelis, rohkelt näiteid. Ei käsitle tõenäosusteooriat. Norida võiks, et tuleb ka kontrollida, kas on ikka normaaljaotus jne enne kui kasutada normaaljaotusel põhinevaid analüüse.