290 likes | 674 Views
Mõõtmistulemuste töötlemine. Aare Luts E-mail: Aare.Luts @ut.ee. Ülesanne. Mõõtmistulemuste s tatistilise analüüsi eesmärgiks on uurida sündmusi ja nähtusi, kasutades selleks lõplikku arvu mõõdetavaid (mõõdetud) parameetreid, mis valitud sündmust või nähtust kirjeldavad.
E N D
Mõõtmistulemuste töötlemine Aare Luts E-mail: Aare.Luts@ut.ee
Ülesanne Mõõtmistulemuste statistilise analüüsi eesmärgiks on uurida sündmusi ja nähtusi, kasutades selleks lõplikku arvu mõõdetavaid (mõõdetud) parameetreid, mis valitud sündmust või nähtust kirjeldavad. Mõõtmise all mõistetakse siin nii füüsikalist mõõtmist kui ka küsitlemist, testimist, vaatlust jms. Üheks võtmemõisteks on ”piiratud arv parameetreid (mõõtmistulemusi)”. Nähtusi võib üldiselt iseloomustada piiramatu (või väga suure) arvu parameetritega, praktikas seevastu on üldjuhul kasutada (väga) piiratud andmehulk. Seega peame püüdma nähtust võimalikult adekvaatselt kirjeldada piiratud informatsioonihulka kasutades.
Juhuslik suurus, üldkogum, valim Juhuslik suurus on karakteristik (tunnus), mis iseloomustab mingit nähtust, mis võib (ikka ja jälle) esineda mingil täpselt määramata (eelmisest erineval) kujul. Üldkogumi (populatsiooni) all mõeldakse teatavat nähtust või protsessikirjeldava(te) parameetri(te) (tunnus(t)e) täiuslikku (matemaatiliselt: lõpmatusele lähenevat) kogumit. Kogumi iga üksik väärtus on üldiselt juhuslik suurus. Valimi all mõistetakse üldkogumi kohta kättesaadavat (või välja valitud) (mõõte)informatsiooni, s.o. lõplikku arvu tunnuseid, mis kõik on üldiselt mingis (nüüd: mitmes) mõttes juhuslikud suurused.
Tunnuste tüübid Nominaalsed tunnused tähendavad sisuliselt mingi(te) kategooria(te) nimetusi (nt sinine, punane, kollane). Kuigi kodeeritakse arvudena, pole üks “suurem” kui teine. Järjestatud tunnusedtähendavad mingit lõplikku nimekirja, millel on küll “loogiline” järjestus, aga puudub range võimalus seda matemaatiliselt töödelda. Arvtunnusedsisaldavad võimalust neid matemaatiliselt töödelda.
Tunnuse sagedusjaotus Mõõdetud tunnuse ülevaatlikuks iseloomustamiseks võib kasutada jaotustabelit (sagedustabelit) ja erinevaid graafikuid. Sagedustabel võib sisaldada kõiki tunnuse väärtusi koos vastava esinemissagedusega (kui see on võimalik), või siis väärtuste vahemikke koos vahemikesse sattunud elementide arvudega. Sagedustabelit võib esitada kumulatiivsete sageduste / osakaalude kaudu:ehk selles ja kõigis eelnevates vahemikes esinenud väärtuste arvu/ osakaalude summana. Nominaalsed ja/või järjestatud tunnused Arvtunnused
Tõenäosusfunktsioon, tihedusfunktsioon ja jaotusfunktsioon • Suuruse X tähtsaimaks iseloomustajaks on tema tõenäosusfunktsioon p(x) , mis näitab tõenäosust, millega realiseerub juhusliku suuruse mingi konkreetne väärtus x :p(x) = P(X = x). • Jaotusfunktsioon F(x) = P(X < x) arvutatakse tõenäosusfunktsioonide summanakuni väärtuseni x. • Tihedusfunktsioon f(x) on määratud kui jaotusfunktsiooni tuletis.
Tunnuseid (nende jaotusi) kirjeldavad parameetrid(arvkarakteristikud) • Enamikku parameetritest on mõtet arvutada ainult arvtunnuste jaoks, või siis (äärmisel juhul) järjestatud tunnuste jaoks. • Keskväärtus iseloomustab juhusliku suuruse paiknemist. • Dispersioon iseloomustab juhusliku suuruse hajuvust. • Asümmeetria kordaja iseloomustab tunnuse jaotuse sümmeetrilisust. • Ekstsess iseloomustab tunnuse jaotuse kuju.
Tunnuseid kirjeldavad parameetrid(2) • Minimaalne ja maksimaalne element iseloomustavad juhusliku suuruse väärtuste ulatust. • p-kvantiil (pertsentiil) iseloomustab juhusliku suuruse väärtuse telje ja kumulatiivse tõenäosuse telje seost. Eraldi vaadeldakse (sageli) 50% kvantiili ja alumist (25%) ja ülemist (75%) kvartiili. • Mediaan on järjestatud rea keskel paiknev element,temast alla- ja ülespoole jääb võrdne arv väärtusi (vrdl keskväärtus). • Moodon tunnuse see väärtus, millel on suurim esinemissagedus, ka nominaaltunnuse puhul.
Usaldusintervall, olulisuse nivoo • Usaldusintervall on seotud kvantiilidega. • Statistiline olulisus on tulemuse usaldusväärsuse mõõt. Ta näitab, millisel määral tulemus on usaldusväärne üldkogumi kirjeldamise mõttes. • Paraku, olulisuse nivoo on (osalt ajaloolistel põhjustel) selles mõttes ebaloogline et tema puhul saab öelda “suurem olulisuse nivoo, vähem usaldusväärne tulemus”. Selles mõttes “loogiline” on usaldusnivoo1- , seotud usaldusintervalliga. • Tarkvarapaketid arvutavad olulisuse tõenäosuse p(sõltub andmetest). Kui p > a, siis“eeldus ei kehti”.
Näiteid juhuslikest suurustest • Tänaval järgmisena vastu tuleva inimese pikkus või vanus (mis (mitmes) mõttes juhuslik ?); • Märklaua tabamise skoor (mis mõttes …?); • Radioaktiivse elemendi aatomi eluiga; • Tuule suund ja suurus (mis mõttes juhuslik ?); • Ravimi mõju; • Masstoodetud eseme pikkus ise (kaal, elektrijuhtivus, ...) või tulem erinevatel (korduvatel) mõõtmistel. Korduvaid juhuslikke nähtusi iseloomustavad seaduspärasused, mis ei ole juhuslikud.
Näiteid üldkogumitest • Kõigi inimeste pikkused ja/või vanused; • Märklaua tabamise kõik skoorid (lõpmatu hulk katseid); • Kõigi üksikute radioaktiivsete aatomite eluead (mida vaja?); • Tuule suuna ja suuruse kõik väärtused (lõpmatu hulk katseid, eeldusel et…); • Ravimi mõju tingimuste kõikvõimalikes kombinatsioonides (mis kombinatsioonides ?); • Kõigi esemete kõik mõõtmistulemused (lõpmatu hulk, …). Üldkogum võib olla kas saavutamatu või siis ebapraktiliselt suur.
Näiteid valimitest • Iga viienda kohatud inimese pikkus ja/või vanus; • Märklaua tabamise 100 katset; • Piisav kogus katseid radioaktiivse(te) aatomi(te) eluea seaduspära tuletamiseks; • Tuule suuna ja suuruse väärtused igal täistunnil; • Ravimi mõju kontroll- ja testgrupile; • Iga kümnenda toodetud eseme ühekordne mõõtmine; Valimi statistiline jaotus peab sarnanema üldkogumi jaotusega.
Näiteid valimitest (2) • Hindamaks keskmisi eelteadmisi mingis valdkonnas, küsitletakse 10 vabatahtlikku; • Uurimaks rahvastiku usulisi veendumusi, valitakse registrist need, kelle perekonnanimi algab C-ga; • Ravimi mõju uurimiseks moodustatakse kontrollgrupp esimesest kümnest kutsele vastanust ja testgrupp järgmisest kümnest; • Valimiseelistusi küsitakse igalt kümnendalt, kes kaubamajja siseneb; • Valimiseelistusi küsitakse rahvastikuregistris tehtava juhusliku valiku alusel moodustatud 100 inimeselt; Kas on näha probleeme ja kui, siis milliseid?
Nominaalsed tunnused • Silmade värvus (sinised silmad pole “paremad” ega “rohkem” kui pruunid, või on?); • Mobiiltelefoni värvus; • Nädalapäev. • Olgu nt uuring “telefoni lemmikvärv”. Kui tulemuseks on 100 punast, 200 kollast ja 300 sinist, kuidas siis võtta “keskmine” ja kas siis sellest järeldub et “keskmine” värv tähendab ka midagi (nt seda et seda värvi telefone võiks tootma hakata?)
Järjestatud tunnused • Eksamihinded A, B, … • Vastused tarbijaküsitlusele “väga rahul”, “pigem rahul”, …; • Ravimi subjektiivselt hinnatud toime (1, 2, 3,….). • On küll nii et nt A on “rohkem” kui B ja “väga rahul”, on “parem” kui “pigem rahul”, aga samas ei saa öelda nt seda et (A-B) = (B-C) või et (B+C)=A või midagi analoogilist teiste tunnuste jaoks.
Arvtunnused • Pidevad vs diskreetsed suurused; • Intervallskaala, nt temperatuur Celsiuse kraadides; • Kehtib nt (40-20) =(60-40), aga ei kehti nt et (40/20) oleks võrdne (100/50). • Suhteskaala, nt temperatuur Kelvini kraadides, või siis palganumber (?). Kehtib nii (40-20) =(60-40), kui ka (40/20) = (100/50).
Tunnuste liikide näitetabel Arvutise panekul kodeeritakse ikka arvudeks…
Arvtunnuste esitusviise (3) Küsimus: Oletame, et on kehtestatud tahmasisalduse piirnorm järgmiselt: Tahma kontsentratsiooni väärtused ei tohi ületada väärtust 1,5 µg/m3 rohkem kui 2 % juhtudest. Kas tabelis kirjeldatud ajavahemikus ületati normi?
Keskväärtus Keskväärtus on tundlik üksikute suurte erinevuste suhtes. Nt “keskmine palk” reast (0; 0; 0; 0; 0; 0; 0; 10000).
Dispersioon Standardhälve on ruutjuur dispersioonist, iseloomustab üksiku mõõtmistulemuse hälvet. Standardviga iseloomustab keskväärtuse hälvet (ka keskväärtus on juhuslik suurus!), arvutatakse s= D/(ruutjuur valimi liikmete arvust).
Kvantiilid või… • või… • Kvantiilide praktilisel arvutamisel on tihti kasulik “rank” ehk astak, mis on sisuliselt järjestatud reas antud vastava mõõtmise järjenumber. Esimese valemi korral saame 25% kvantiiliks 7, teise valemi korral 5.
Usaldusintervall Kvantiil • Olulisuse nivoo (valge osa)