440 likes | 1.3k Views
Matemaatiline statistika. MATEMAATILINE STATISTIKA. Andmete kogumine ja ettevalmistamine töötlemiseks Andmetöötlus Ühe tunnuse analüüs Kahe tunnuse analüüs. Andmete kogumine ja ettevalmistamine töötlemiseks. PÕHIMÕISTED. Üldkogum
E N D
MATEMAATILINE STATISTIKA • Andmete kogumine ja ettevalmistamine töötlemiseks • Andmetöötlus • Ühe tunnuse analüüs • Kahe tunnuse analüüs
PÕHIMÕISTED • Üldkogum • looduse või ühiskonna nähtus või objektide hulk, mille kohta soovitakse teha teaduslikult põhjendatud järeldusi Uurimiseks on 2 võimalust • Uuritakse kõiki elemente • Uuritakse mingit osahulka ja tehakse osahulga uurimise põhjal järeldused terve üldkogumi kohta • Uurimiseks võetud üldkogumi osa nimetatakse Valimiks • statistika teeb järeldusi üldkogumi kohta valimi põhjal
Nõuded valimile • Valim peab olema: • küllalt arvukas • igal üldkogumi objektil peab olema võrdne võimalus valimisse sattuda.
Valimi moodustamise viisid: • Juhuslik valim • Valimisse kuuluvad objektid valitakse välja täiesti juhuslikult üldkogumi kõigi objektide hulgast. • Planeeritud valim • Valimisse kuuluvad objektid määratakse katseplaani järgi. • Kõikne valim • Valim langeb ühte üldkogumiga
Ülesanne • Sooviti uurida, milline jalanõu on Tartus kõige populaarsem. Selleks mindi Tartu Kaubamajja ning märgiti üles kõik ühel päeval ostetud jalatsid. • Mis on üldkogumiks? • Kas koostatud valim on juhuslik? • Kas järeldusi saab teha üldkogumi kohta? • Üldkogum – Tartu elanikkond • Valim – ühest poest ostetud jalanõud • Koostatud valim on juhuslik, valim ei ole küllalt arvukas, et teha järeldusi terve üldkogumi kohta.
STATISTILINE ANDMESTIK • Kui statistilise uurimuse tegija uurib valimit, siis saab mõõtmise või küsitluse tulemusena andmed, mis moodustavad SATATISTILISE ANDMESTIKU, mis esitatakse tabelina. Tabelis paigutatakse ridadesse uuritavad objektid veergudesse objektide tunnused. Saadud tabelit nimetatakse OBJEKT-TUNNUSTABELIKS
Nimi Sugu Pikkus Kaal Töökoht Vanus Amet Abikaasa amet Elukoht Laste arv Kui kaua abielus? Kui vanalt abiellusid? Kas suitsetate? Kui tihti end pesete? Kas spordite? Ülesanne Uuritakse haigestumise põhjuseid. Mida järgnevatest küsimustest küsiksid? Miks? Milliseid küsimusi lisaksid juurde?
Arvulised tunnused • Pidev tunnus • võib omandada kõiki reaalarvulisi väärtusi mingist piirkonnast (kasv, kaal, aeg, temperatuur). • Diskreetse tunnuse • väärtused on täisarvulised. Need leitakse tavaliselt loendamise teel (perekonnaliikmete arv, õpilaste arv).
Mittearvulised tunnused • Järjestustunnuse väärtusi on võimalik nende sisu alusel järjestada. Järjestustunnust käsitletakse enamasti diskreetsena (meeldib, olen ükskõikne, ei meeldi). • Binaarseks tunnuseks nimetatakse tunnust, millel on ainult kaks erinevat väärtust. Binaarsed tunnused kuuluvad järjestustunnuste hulka (naine või mees). • Nominaaltunnuseks nimetatakse tunnust, millel on rohkem kui kaks erinevat väärtust, kuid ei leidu ühtegi sisulist järjestust, mis haaraks kõik tunnuse väärtused (rahvus, silmade värv, kutseala).
Arvuline Diskreetne Järjestustunnus Nominaalne Kvantitatiivne Pidev Mittearvuline Binaarne Kvalitatiivne Ülesanne Mõelge välja viis tunnust igale tüübile
Andmeanalüüs on teadusliku või majandusliku andmestiku statistiline töötlemine sisuliste järelduste saamiseks. Tunnust, mille järgi vaadeldavat kogumit uuritakse, tähistatakse X, Y, Z. Nende suvalist väärtust tähistatakse x, y, z. Konkreetse väärtuse märkimiseks lisatakse väiketähele indeks
Statistiline rida Uuritava kogumi objektide mõõtmisel saadakse vaadeldava tunnuse väärtuste rida. Näiteks a1, a2, a3,...aN. Iga üksikutarvu (väärtust) selles reas nimetatakse statistilise rea liikmeks.
Näide Perekonnaseisuametis registreeriti ühes kuus 15 abielu. Peigmeeste vanus abielu sõlmimise järjekorras oli: 43, 19, 62, 20, 29, 18, 23, 27, 75, 19, 20, 23, 25, 24, 23.
Variatsioonirida • Antud statistilisest reast saadakse variatsioonirida – kuistatistilise rea liikmed paigutatakse ümber, kas kasvavas või kahanevas järjekorras, kusjuures võrdsed liikmed kirjutatakse järjest 18, 19, 19, 20, 20, 23, 23, 23, 24, 25, 27, 29, 43, 62, 75
Statistiline rida 43, 19, 62, 20, 29, 18, 23, 27, 75, 19, 20, 23, 25, 24, 23. • Variatsioonirida 18, 19, 19, 20, 20, 23, 23, 23, 24, 25, 27, 29, 43, 62, 75
Ülesanne • Tee oma klassi kohta andmestik, mis sisaldaks järgmisi tunnuseid: • Eesnimi, sugu, sünnikuupäev, sünnikuu, sünniaasta, vanus, pikkus, pea ümbermõõt, õdede-vendade arv, mitmes laps peres oled, jalanumber, füüsika hinne, matemaatika hinne, eesti keele hinne. • sorteeri eraldi poiste andmed ja tüdrukute andmed. • poisid järjesta tähestiku ja pikkuse kahanevas järjekorras • tüdrukud järjesta õdede – vendade arvu , mitmes laps peres ja matemaatika hinde järgi
Andmete töötlus • Andmete statistilise töötlemise lihtsustamiseks koostatakse saadud statistilisest reast tabel. • Saadud tabelit nimetatakse sagedustabeliks Sagedustabel näitab, mitmel korral antud tunnus saab antud väärtuse.
Sagedustabel ja jaotustabel • Sagedustabel näitab tunnuse erinevate väärtuste esinemist absoluutarvudes Sagedustabeli järgi saab koostada JAOTUSTABELI • Jaotustabel (ehk suhteline sagedus) näitab tunnuse erinevate väärtuste esinemissagedust suhtarvudes • Suhtarv võrdub väärtuste esinemissagedus jagatud objektide arvuga
Näide Jaotuvustabel - suhteline sagedusnäitab tunnuse erinevate väärtuste esinemissagedust suhtarvudes Suhtarv võrdub väärtuste esinemissagedus (1) jagatud objektide arvuga (15) 1/15=0,0667
Sagedustabeli andmeid kujutatakse geomeetriliselt sirglõikdiagrammina, mida nimetatakse sagedushulknurgaks.
Tulpdiagramm Kasutatakse sagedustabelist graafilise ülevaate saamiseks
Sektordiagramm • Annab hea ülevaate terviku jagunemisest • Eriti sobilik nominaal-tunnuse puhul
Ülesanne • Koosta enda klassi andmete järgi sagedustabel ja sagedushulknurk tunnuse Pikkus kohta.
Tunnuse diskretiseerimine • Kui kogumi tunnus on pidev või diskreetse tunnuse väärtusi on väga palju, ei esitata sagedustabelis tunnuse üksikuid väärtusi, vaid tunnuse väärtuste vahemikud ehk klassid.
Klassipiiride leidmine • Klasside arv: kui kogumi maht N ei ole väga suur, on sobiv klasside arv umbes • Klassipiiride leidmine
Histogramm • Kui sagedus- või jaotustabelis on tunnuse väärtused esitatud klassidena, kujutatakse neid andmeid geomeetriliselt tulpdiagrammina, mida nimetatakse histogrammiks
Praktiline ülesanne • Tellija hindas ülitundliku filmi säilimisaega 25 filmi põhjal. Saadi tulemus päevades: • 127,125,126,120,121,125,124,122,121,127,130,131,121,127,128,134,121,126,124,125,127,132,127,124,131. • Korrastage andmed variatsioonritta ja sagedustabelina. • Leidke filmi säilimisaja mood, mediaan, keskmine, standardhälve.
Mitu protsenti kontrollitud filmidest asub säilimisaja järgiajavahemikus • Vastused: • Mo=127, Me=126, keskmine 126 standardhälve 3,7 (päeva) • Vahemikus (122,1;129,5) asub 56% filmidest.
Sama kontrolltöö tehti kahes paralleelklassis ja saadi alltoodud tulemused. 1) Leia mõlema klassi puhul kogumi maht, aritmeetiline keskmine, mediaan, mood, alumine ja ülemine kvartiil, standardhälve.2) Kas mediaanide ja moodide väärtuste põhjal saad klasside tulemusi võrrelda? Miks?3) Võrdle aritmeetilisi keskmisi. Mida järeldad?4) Leia mõlema klassi puhul ülemise ja alumise kvartiili vahe, võrdle neid. Mida saa järeldada?5)Võrdle standardhälbeid. Mida järeldad?6) Mitu % hinnetest mahub kummaski klassis piirkonda ?Mida see erinevus näitab?7) Koosta mõlema klassi hinnetest jaotustabel.8) Joonesta samasse teljestikku joondiagrammid? Mida saad järeldada diagramme võrreldes?
Standardhälve iseloomustab tunnuse hajuvust. Mida suurem on standardhälve, seda suurem on tunnuse väärtuste hajuvus. • Dispersioon näitab kui palju uuritav suurus varieerub. Mida suurem on dispersioon, seda enam erinevad katsete tulemused üksteisest. • Hälve on kõrvalekalle mingi suuruse keskmisest, standardist või normaalsest väärtusest.