1 / 68

Statistiniai modeliai

Statistiniai modeliai. Matematika geografijoje II dalis. Statistinė analizė. S tatistika yra duomenų rinkimo ir analizavimo mokslas Statistinė analizė Apibendrina sukauptus duomenis Leidžia nustatyti pagrindinius įtakos faktorius Leidžia nustatyti, ar imtys priklauso vienai populiacijai

palila
Download Presentation

Statistiniai modeliai

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistiniai modeliai Matematika geografijoje II dalis

  2. Statistinė analizė Statistika yra duomenų rinkimo ir analizavimo mokslas Statistinė analizė • Apibendrina sukauptus duomenis • Leidžia nustatyti pagrindinius įtakos faktorius • Leidžia nustatyti, ar imtys priklauso vienai populiacijai • Apibrėžia, ar kintamieji tarpusavyje susiję • Nustato faktorių tarpusavio įtaką • Patikrina, ar analizės metodai pagrįsti ir patikimi. Statistinis modelis (pavyzdžiui, aptarnavimo srautai, gamyba) • Grafikai • Matematinės lygtys, kintamieji, koeficientų įverčiai • Išvados apie modelio adekvatumą

  3. Statistinių tyrimų etapai • Statistinis stebėjimas. Jo metu pagrįstai ir planingai renkami duomenys apie vienos rūšies tiriamuosius reiškinius ar objektus. • Tyrimo duomenų statistinis tvarkymas: grupavimas, sisteminimas, aprašomoji statistika. • Statistinė tyrimo duomenų analizė, statistinių išvadų formulavimas. Statistinės analizės rezultatai priklauso nuo pasirinktų metodų ir kriterijų. • Duomenims, pasiskirsčiusiems ne pagal normalųjį dėsnį, pritaikomi specifiniai analizės metodai. • Analizės tikslumą sąlygoja imčių dydžiai.

  4. Statistinė analizė Skirstoma į dvi pagrindines šakas: • Aprašomąją statistiką, kuri • Leidžia sutvarkyti ir apibendrinti tiriamas imtis • Apibrėžia pagrindinius statistinius parametrus (vidurkį, dispersiją, modą, medianą, asimetriją ir ekscesą). • Hipotezių analizę, priimančią ar atmetančią moksliškai pagrįstą spėjimą ar nuomonę.

  5. Pagrindinės sąvokos • Populiacija (kitaip – generalinė visuma, generalinė aibė) – visa objektų, kurie statistiškai tiriami, visuma. Būna • baigtinė (tada iš principo galima ištirti visus jos objektus) • begalinė (tada visų jos objektų ištirti apskritai neįmanoma). • Imtis (kitaip –atranka) – tyrimui atrinktų ir ištirtų objektų aibė. Paprastai tai būna populiacijos dalis, o jeigu ištiriama visa baigtinė populiacija, tai imtis ir populiacija sutampa. • Požymiai (kitaip – kintamieji, atributai) – tyrinėtoją dominantys populiacijos bei imties objektų ypatumai, kurių konkrečios reikšmės kinta. • Stebėjimas (arba statistinis eksperimentas) – tiriamųjų požymių (iš)matavimas arba (su)skaičiavimas imtyje ir jųregistravimas. Tai – pirminis statistinio pobūdžio informacijos šaltinis, todėl nuo jo priklauso viso tyrimo efektyvumas bei objektyvumas.

  6. Požymiai Kokybiniai: paprastai apibūdinami juos įvardijant. Kiekybiniai: lengvai matuojami, t. y. įvertinami vienokiais ar kitokiais matais ar skaičiavimo vienetais. Diskretieji: • Galimų reikšmių skirtumai iš principo negali būti mažesni už tam tikrą „minimumą“ Tolydieji: • Jų galimų reikšmių skirtumai iš principo gali būti kiek tik norint maži, reikšmės viena į kitą pereina laipsniškai, nenutrūkstamai. Todėl ir juos išmatuoti iš principo teįmanomatiktai apytiksliai, vienokiu ar kitokiu tikslumu. Matuojant šių požymių reikšmės neišvengiamai diskretizuojamos pagal pasirinktuosius mato vienetus Kartais dar atskirai yra minimi tarpinę padėtį tarp kiekybinių ir kokybinių užimantys požymiai, vadinami ranginiais. Jie turi ir kiekybiniams, ir kokybiniams požymiams būdingų savybių. Rangai, intervalai ir pan.

  7. Duomenų atranka Imtis iš tiesų yra susikurtas populiacijos modelis, jos eksperimentinis atitikmuo, dirbtinis analogas. Čia ir yra statistikos esmė: tirti palyginti nedidelę, ribotą imtį, o tyrimo rezultatus tikimybiškai apibendrinti visai populiacijai. Todėl svarbu, kad imtis populiaciją, iš kurios buvo paimta, atspindėtų kaip galima adekvačiauir teisingiau. Paprastai sakoma, kad didesnio tūrio imtis esanti reprezentatyvesnė, Didėjant imčiai, artimesnė vienetui darosi tikimybė, kad šioje imtyje rastos požymių reikšmės bei jų pasiskirstymas (sklaidos po objektus ypatumai) iš esmės būtų tokios pačios, jeigu paimtume ir kitus analogiškus populiacijos objektus, šį kartą į imtį nepatekusius. Tačiau reprezentatyvumą lemia ne vien tik imties tūris (didumas), bet labiausiai – jos sudarymo principai. Dar daugiau: pernelyg didelėsimtys tampa savaip problemiškos, nes tadadėl grynai formalių, matematinių priežasčių gali būti „sureikšminami“ ir iš tikrųjų menki, nežymūs skirtumai.

  8. Imties atrankos metodai (1) Kai populiacija nustatyta, kiekvienas jos narys yra potencialus duomenų šaltinis. Yra dvi galimybės tirti populiaciją: • rinkti duomenis iš kiekvieno populiacijos individo. Tai – ištisinis tyrimas, taikomas tada, kai populiacija yra nedidelė ir lengvai nustatoma ; • rinkti duomenis tik iš dalies populiacijos narių (pasirinktiniai tyrimai). Taikant šį metodą, visada padaroma paklaida. Vis tiktai, jei imtis yra sudaryta tinkamai, tai paklaida, kaip tvirtina statistikos teorija, bus labai maža, taigi mažesnės išlaidos ir pastangos kompensuos tikslumo stoką. George Gallup: “Ar norite apklausą atlikti Niujorko valstijoje, ar Baton Ružo mieste (160 000 gyventojų), jums reikia apklausti tiek pat gyventojų. Čia nėra jokio stebuklo - kai verdami du puodai sriubos, ir vienas iš jų yra dešimt kartų didesnis už kitą, virėjui nereikia semti dešimt kartų daugiau šaukštųiš didesniojo puodo, kad nustatytų sriubos skonį.”

  9. Imties koeficientas Populiacijos dydį žymėsime N, o imties dydį n. Kadangi imtis pagal apibrėžimą yra populiacijos dalis, tai visada n < N. Santykis n/N yra vadinamas imties koeficientu. Procentinis imties koeficientas x = n/Nx 100 rodo, kad imtis sudaro x% visos populiacijos. 1 pavyzdys. Sakykime, kad populiacijos dydis N = 500000. Jei imties dydis n = 1000, imties koeficientas 1000/500000 = 1/500, arba 0,2%. Tai reiškia, kad kiekvienas imties narys atstovauja 500 populiacijos narių, arba imtis sudaro 0,2% visos populiacijos. 2 pavyzdys. Vėl sakykime, kad populiacijos dydis N = 500000, 0 mums reikėtų, kad imties koeficientas būtų lygus 3%. Todėl imti es dydis turėtų būti 500000x0,03 = 15000.

  10. Imties paklaida Parametras yra tiksli tam tikros populiacijos charakteristikos skaitinėreikšmė, o statistika yra parametro įvertis, gautas iš imties. Imties paklaida - tai parametro ir statistikos (parametro įverčio) skirtumas. Atsitiktinė paklaida atsiranda todėl, kad statistika negali suteikti visiškai tikslios informacijos apie visą populiaciją. Atsitiktinė paklaida priklauso nuo imties dydžio. Jos išvengti neįmanoma - mes tegalime sumažinti ją iki minimumo, rūpestingai pasirinkę imti ir tinkamai nustatę imties dydį. Sisteminę paklaidą dažniausiai lemia imties iškreiptis, atsirandanti dėl netinkamo jos sudarymo. Labai sunku atsižvelgti į visus faktorius, kurie gali turėti įtakos imties reprezentatyvumui. Priešingai nei atsitiktinės paklaidos atveju, sisteminės paklaidos galima išvengti taikant tinkamus imties metodus. O imties didinimas negarantuoja imties sisteminės paklaidos mažėjimo

  11. Imties paklaida Kai sudarant imti atsiribojama (tegu ir nesąmoningai) nuo tam tikros populiacijos dalies, sakoma, kad tyrimui kenkia imties sudarymo, arba ėmimo iškreiptis. Labiausiai tyrimai iškreipiami, kai imtis sudaroma tik iš tų individų, kurie patys prašosi i imti. Apklausoje dalyvavusių žmonių skaičiaus ir prašytq joje dalyvauti žmonių skaičiaus santykis yra vadinamas atsakymo lygmeniu Išvada • bloga didelė imtis yra daug blogiau negu gera maža imtis • reikia vengti ėmimo iškreipties ir neatsakymo iškreipties. Šiuolaikinių viešosios nuomonės tyrimų imties metodams yra keliami du prieštaringi reikalavimai: 1) maža imties iškreiptis ir 2) priimtina tyrimo kaina ir trukmė.

  12. Imties atrankos metodai (2) • 1. Kvotinė (mechaninė, proporcingoji) atranka. • Kvotinė imtisturėtų atitikti visos populiacijos sudėti pagal tam tikrus požymius: imtyje turi būti tam tikras skaičius moterų ir vyrų, jaunų ir senų, gyvenančių kaime ir mieste, ir t.t. Kiekvienos grupės narių imama tiek, kad imtyje būtų išlaikytos tokios pat proporcijos, kokios yra visoje gyventojų populiacijoje. • Privalumas – taip teoriškai gaunamas geras populiacijos modelis. • Trūkumas – subjektyvus “svarbių” grupių parinkimas, neaišku, kiek jų turi būti.

  13. Imties atrankos metodai (3) • 2. Atsitiktinė atranka. Imtis sudaroma atsitiktinai parenkant individus. Pagrindinė atsitiktinės imties rūšis yra vadinamoji paprastoji atsitiktinė imtis. Ji užtikrina, kad bet kuri populiacijos narių grupė turi tokią pat galimybę patekti į imtį, kaip ir bet kuri kita, jei jos visos yra vienodo dydžio. Daugelis šiuolaikinių viešosios nuomonės apklausų atliekamos atsitiktinės imties metodais. Atsitiktinės imties pagrįstumas yra patvirtintas tiek praktine patirtimi, tiek ir matematikos teorija. • Trūkumas – didelė tyrimo kaina. • 3. Tipinė (sluoksninė) atranka. Pirmiausia populiacija suskirstoma į sluoksnius (vadinamuosius stratus), Tada iš kiekvieno sluoksnio imama atsitiktinė imtis. Sluoksniai dažniausiai parenkami pagal geografinįius ir demografinius kriterijus. • Privalumas – nariai sugrupuojami į aiškiai apibrėžtas sritis, apklausos kaina mažesnė. • Visos atrankos gali būti vienkartinės arba kartotinės. • Dažnai naudojama kombinuotoji atranka, derinant įvairius metodus.

  14. Aprašomosios statistikos elementai • Aprašomoji statistika nagrinėja šias temas: • Statistinių duomenų grupavimas: grupavimo požymiai, grupavimo intervalai, grupavimų rūšys.  • Duomenų variacijosir koncentracijos įvertinimas. • Grafinis statistinių duomenų vaizdavimas

  15. Duomenų vaizdavimas Diagramos – vaizdus duomenų pateikimo būdas. Stulpelinės diagramos, jų rūšys, taikymai. Dažnių histograma. Nuokrypių nuo vidurkių stulpelinė diagrama. Procentinės sudėties vaizdavimas. Skritulinė diagrama Išskirtinės reikšmės duomenų serijoje, jų vaidmuo. Dažnai reikalingas duomenų grupavimas: charakteristikos dažnis, intervalų dažnis, procentinis dažnis. Grupavimo intervalų prireikia, kai duomenų daug ir jie įvairūs arba tolydūs (begalinė aibė reikšmių). Intervalai gali būti vienodo arba skirtingo ilgio ar apskritai paversti diskrečiais balais. Kai kintamasis tolydus, naudojamos histogramos (stulpeliai be tarpų). MS Excel elektroninės lentelės turi puikias duomenų vaizdavimo priemones.

  16. Variacija • Matavimo duomenų kitimas vadinamas variacija. • Variacija būna diskrečioji ir tolydžioji. • Didėjančia ar mažėjančia tvarka surašyta požymio variacija vadinama variacine (rangų) eilute. • Esant dideliam duomenų kiekiui, sudaromos vienodų ar artimų reikšmių grupės bei surašomi variantų pasikartojimo dažniai. Taip sudaroma intervalinė (pasiskirstymo) variacinė eilutė.

  17. Pavyzdys Intervalinė variacinė eilutė

  18. Dažnių histograma 0-5 5-10 10-15 15-20 20-25 25-30

  19. Imtį apibūdinantys parametrai Savaime suprantama, kad imtį apibūdinančius parametrus apskaičiuoti galima tik tada, kai tiriamieji požymiai yra kiekybiniai ir imtyje randamos jųreikšmės išreiškiamos skaičiais. • duomenų padėtį apibūdinančios charakteristikos (parametrai): vidurkis, moda, mediana, kvantiliai(kvartiliai ir kitokie kvantiliai) • duomenų sklaidą apibūdinančios charakteristikos: dispersija, standartinis (kitaip – vidutinis kvadratinis) nuokrypis, linijinis nuokrypis, variacijos žingsnis (plotis), variacijos (kitaip - imties kitimo) koeficientas, kvartilių skirtumas IQR ir kt. • pasiskirstymo formą apibūdinančios charakteristikos.

  20. Duomenų padėties charakteristikos (1) Aibės plotis (variacijos žingsnis)– didžiausios ir mažiausios požymio reikšmių variacinėje eilutėje skirtumas. Moda– dažniausiai variacinėje eilėje pasitaikanti požymio reikšmė.Priklausomai nuo to, kelios požymio reikšmės imtyje vienodai dažnos, galimaskirti unimodalius, bimodalius ir polimodalius pasiskirstymus. Kai dažniausios bimodalaus pasiskirstymo reikšmės yra šalia, jis laikomas unimodaliu pasiskirstymu ir jo moda apskaičiuojama kaip tų reikšmių vidurkis. Mediana– tai vidurinis narys sekos, kuri gaunama duomenų aibę sutvarkius didėjimo tvarka, kitaip tariant, ji yra n/2-toji pozicinė statistika. Jei duomenų skaičius lyginis, imamas dviejų vidurinių narių vidurkis. Mediana skaido duomenų aibę į apatinę ir viršutinę pusę.

  21. Duomenų padėties charakteristikos (2) Kvartilis – pirmasis kvartilis Q1 tai apatinės pusės mediana; Q3 - viršutinės pusės mediana. Taip duomenys padalinami į ketvirčius (gali būti įvairūs kvantiliai). Aibės plotis nėra labai gera charakteristika, jei yra išskirtinių reikšmių (pavyzdžiui, 1 studentas gavo 1 balą iš 10). Kvartilinis plotis charakterizuoja labai patikimai – tai intervalas, kuriame koncentruota 50 procentų duomenų. Grafiškai tai vaizduojama kaip dėžė (Q1, M, Q3) su “ūsais” (min, max). Pavyzdžiui, palyginti geografų ir kartografų vidutinį mėnesinį atlyginimą. Penkiaskaitė suvestinė (min, Q1, mediana, Q3, max) gerai apibūdina duomenų aibę. Nors dviejų aibių vidurkiai ir medianos gali sutapti, tai nereiškia, kad aibės “panašios”. Duomenų sklaidą galima įvertinti skaitiškai.

  22. Duomenų padėties charakteristikos (3) Vidurkis: aritmetinis, nupjautasis, geometrinis, kvadratinis ir kt. Aritmetinis vidurkis yra apskaičiuojamas sudedant reikšmes ir sumą padalijant iš tų reikšmių skaičiaus. • teorinisaritmetinis vidurkis (rus. matematičeskoe ožidanije, angl. mean ar estimation • empirinisaritmetinis vidurkis (rus. arifmetičeskoe srednee, angl. average). Erdvinis vidurkio ekvivalentas yra tam tikras centras (centroidas).

  23. Duomenų sklaidos charakteristikos (3) Standartinis nuokrypis (kitaip –vidutinis kvadratinis, angl. standard deviation) – tai tiriamojo požymio reikšmių sklaidos apibūdinimas, apibrėžiamas kaip požymio įgyjamų reikšmių ir vidurkio skirtumų kvadratų sumos vidurkis. Vietoje standartinio nuokrypio kartais naudojamas dispersijos rodiklis, kuris lygus s2. Dvimatėse sistemose sklaidos matas yra vidutinis atstumas (kartais naudojamas atstumo kvadratas ar pan.) nuo centroido.

  24. Duomenų sklaidos charakteristikos (4) variacijos koeficientas – vidutinio kvadratinio (standartinio) nuokrypio santykis su vidurkiu. Jei duomenys pasiskirstę pagal normalųjį skirstinį, tai 68% stebėjimų turi patekti į ±1 standartinio nuokrypio intervalą, o 5% stebėjimų skiriasi nuo vidurkio daugiau kaip ±2 standartiniai nuokrypiai. pasiskirstymo formą apibūdinančios charakteristikos: asimetrijos koeficientas ir eksceso koeficientas (normaliojo pasiskirstymo atveju).

  25. Pavyzdys

  26. Normalusis (Gauso) skirstinys (1) Tolydžiųjų požymių reikšmių skirstinys (pasiskirstymo dėsnis), atitinkantis tokias sąlygas: • vidurkio, modos ir medianos reikšmės sutampa, • skirstinio kreivė yra simetriška, o simetrijos ašis yra ties vidurkiu, • skirstinio kreivės forma priklauso nuo vidurkio ir standartinio nuokrypio (σ), • normalųjį skirstinį turinčių atsitiktinių dydžių suma taip pat turi normalųjį skirstinį. Normaliojo skirstinio tikimybių tankio funkcija yra

  27. Normalusis (Gauso) skirstinys(2) N dėsnis labai dažnai taikomas praktikoje. Nustatyta, kad jis gerai apibūdina daugelį reiškinių: ūgį, svorį, vidutinę oro temperatūrą, matavimo paklaidas ir t.t. Tai idealizuotas matematinis modelis, taikomas analizuojant duomenis, kurie pasiskirstę apytikriai normaliai. Normalusis skirstinys dažniausiai pasitaiko kai matuojamą dydį įtakoja daug nepriklausomų veiksnių, kurių kiekvienas prideda arba atima tam tikrą reikšmės pokytį. Konkretaus pokyčio reikšmė gali turėti kitokį skirstinį, nebūtinai normalųjį.

  28. Normalusis (Gauso) skirstinys(3) N skirstinys aprašomas varpo formos kreive, vadinama normaliąja kreive (arba gausoide). Kreivė išsidėsčiusi virš x ašies. X ašis yra šios funkcijos grafiko asimptotė. Kreivė simetriška per vidurkį einančios statmenos tiesės atžvilgiu. Duomenų reikšmė, atitinkanti šį tašką yra ir skirstinio vidurkis, ir mediana.

  29. Mažas standartinis nuokrypis Didelis standartinis nuokrypis Normalusis (Gauso) skirstinys(4)

  30. Normalusis (Gauso) skirstinys(5) Kalbant apie normaliąją kreivę, teisingi trys teiginiai: • atsitiktinio normaliai pasiskirsčiusio dydžio patekimo į intervalą [μ – σ; μ + σ] tikimybė yra 0,68; • patekimo į intervalą [μ – 2σ; μ + 2σ] tikimybė yra 0,95; • patekimo į intervalą [μ – 3σ; μ + 3σ] tikimybė yra 0,995. Praktiškai visas plotas po normaliąja kreive yra trijų kvadratinių nuokrypių nuo centro ribose. Taigi, jei kintamojo skirstinys normalus, tai praktiškai visos kintamojo reikšmės yra ne daugiau kaip 3σ atstumu nutolusios nuo centro. Atskirą normaliojo skirstinio atvejį, kai μ = 0, σ = 1, vadiname standartiniu normaliuoju skirstiniu.

  31. Puasono skirstinys Diskretus skirstinys, nusakantis įvykių tikimybes įvykti per tam tikrą laiko intervalą, jeigu įvykiai vyksta pastoviu dažniu ir yra nepriklausomi vienas nuo kito. Jei per tam tikrą laiko intervalą įvyksta vidutiniškai λ įvykių, tikimybė, kad per tą laiką įvyks tiksliai k įvykių bus lygi: • e yra natūrinio logaritmo pagrindas (2.71828...), • k yra neneigiamas sveikas skaičius • λ yra teigiamas realusis skaičius, vidutinis įvykių skaičius per tam tikrą laikotarpį. Tarkime, kad įvykiai vyksta vidutiniškai kas 4 minutės, o mes norime apskaičiuoti skaičių įvykių, įvyksiančių per 10 minučių. Tada turėsime naudoti Puasono skirstinį su λ = 10/4 = 2.5.

  32. Funkciniaiir koreliacijos ryšiai • Funkcinis ryšys – kai kiekvieną priežasties požymio reikšmę apytiksliai ar tiksliai atitinka pasekmės požymio reikšmės. • Koreliacinis ryšys – kai vieną priežasties požymio reikšmę atitinka iš anksto nenustatytos tam tikro dydžio reikšmės, priklausančios nuo išorinių veiksnių. • Statistikos metodas, tiriantis požymių tarpusavio ryšius, vadinamas koreliacijos analize.

  33. Klasikinė koreliacija (1) Klasikinė (Pirsono) koreliacija skaičiuojama taip: rvadinamas koreliacijos koeficientu, xi ir yi yra atskirų stebėjimų rezultatai, x ir y su brūkšneliais viršuje – šių kintamųjų vidurkiai, n – imties dydis, Sx ir Sy – jų standartiniai nuokrypiai. Pagal šią formulę gaunamas skaičius nuo -1 iki +1; teigiamos reikšmės reiškia teigiamą koreliaciją, neigiamos – neigiamą koreliaciją. Jei gaunamas 0, vadinasi, koreliacijos nėra.

  34. Pirsono koreliacijos koeficientas r gali turėti reikšmes nuo -1 iki +1 -1 yra esant atvirkštinei tiesinei priklausomybei +1 – esant tiesioginei tiesinei priklausomybei 0 – rodo koreliacinio ryšio nebuvimą. Klasikinė koreliacija (2)

  35. Pirsono koreliacijos koeficientas Koreliaciją prasminga skaičiuoti tik tiems duomenims, kurie gali būti susiję.

  36. Koreliacijos (sklaidos) laukas y = 63.52x - 41.77 r = 0.89

  37. Neparametrinė koreliacija Spirmenokoreliacijos koeficientas skaičiuojamas, kai imtis pateikta rangais, balais ar kitais netiesioginiais vertinimais. Jis taikomas tais atvejais, kai: • Viena ar abi imtys yra neparametriniai duomenys • Nei viena iš parametrinių imčių nepasiskirsčiusi pagal normalųjį dėsnį d – ranginis atstumas

  38. Pavyzdys Išsilavinimas 1aukštasis 2neb. aukštasis 3aukštesnysis 4vidurinis 5profesinis Nuomonė 1 Visiškai sutinka 2Labiau sutinka nei prieštarauja 3Nei sutinka, nei nesutinka 4Labiau nesutinka nei sutinka 5Visiškai nesutinka

  39. Autokoreliacija erdvėje (1) Autokoreliacijaerdvėje (spatial autocorrelation) yra erdvinis klasikinės koreliacijos atitikmuo. Pagrindinis skirtumas tas, kad autokoreliacijai erdvėje skaičiuoti naudojami stebėjimų rezultatai visada yra aiškiai erdviniai. Užuot klausus, kas atsitinka su vienu kintamuoju kintant kitam kintamajam, skaičiuojant autokoreliaciją erdvėje klausiama, kiek gretimi erdviniai vienetai panašūs vienas į kitą tam tikro kintamojo atžvilgiu. Pavyzdžiui, jei vienoje savivaldybėje gyventojų pajamos didelės, ar gretimose savivaldybėse jos taip pat didelės? Didžiausias skirtumas tarp klasikinės koreliacijos ir autokoreliacijos erdvėje skaičiavimo tas, kad skaičiuojant pastarąją būtina nurodyti erdvinių vienetų kaimynus.  

  40. Autokoreliacija erdvėje (2) Ar du erdviniai vienetai yra kaimynai, dažniausiai nustatoma vienu iš dviejų metodų: atstumo (distance) metodu ir gretimumo (contiguity) metodu. Atstumo metodas dažniausiai naudojamas analizuojant taškų išsidėstymą. Jo principas paprastas – jei atstumas tarp taškų nedidesnis už nurodytą, taškai yra kaimynai. Nurodomas atstumas priklauso nuo tiriamo reiškinio ir tyrimų konteksto.   Gretimumo metodu tikrinama, ar du plotiniai erdviniai vienetai yra šalia vienas kito. Pavyzdžiui, Lietuva ir Lenkija turi bendrą valstybės sieną, taigi jos gretimos. Šiuo atveju svarbi charakteristika yra gretimumo eilė (order of contiguity).

  41. Autokoreliacija erdvėje (2) Visi bendrą ribą su „A“ turintys erdviniai vienetai, net jei ta bendra riba yra tik kampinis taškas, laikomi 1-os gretimumo eilės vienetais ir pažymėti „A1“. Tai vadinama „valdovės gretimumu“ – pagal šachmatų valdovės figūros judėjimą. Erdviniai vienetai, tarp kurių ir vieneto „A“ yra dvi ribos, laikomi 2-os gretimumo eilės vienetais ir pažymėti „A2“. Daugiausia tyrimams naudojamas 1-os eilės gretimumas – ypač aprašomojoje analizėje, pavyzdžiui, skaičiuojant autokoreliaciją erdvėje.

  42. Autokoreliacija erdvėje (3) Kitas gretimumo matas – „bokšto (Rook) gretimumas“ – nelaiko gretimais erdvinių vienetų, kurių bendra riba yra tik kampiniame taške. Valdovės gretimumo principas dažniausiai taikomas vektoriniams duomenims, kadangi dauguma socialinių – ekonominių – politinių erdvinių vienetų nėra kvadratiniai ar stačiakampiai. Be to, valdovės gretimumas nepažeidžia pirmojo geografijos dėsnio. Yra ir kitų gretimumo matų: kaimynai gali būti nustatomi pagal erdvinių vienetų bendrų ribų ilgį arba pagal dvikrypčius svertų koeficientus, nurodančius individų srautą iš gretimų erdvinių vienetų ir į juos; nuo pasirinkto mato priklauso erdvinės analizės rezultatai. Pavyzdžiui –bendra Lietuvos ir Latvijos valstybės siena ilgesnė negu Lietuvos ir Lenkijos, bet Lenkijos ekonomikos apimtis daug didesnė. Taigi, kaimynystės matas (ir kaimynų svarba) priklauso nuo konteksto. Tačiau dažniausiai analizei naudojamas pirmosios eilės valdovės gretimumas. 

  43. Autokoreliacija erdvėje (4) Dažniausias autokoreliacijos erdvėje matas yra Morano I: kur kintamieji n ir y yra tie patys kaip ir ankstesnėje formulėje, o wij yra erdvinių vienetų erdvinių kaimynų matrica. Ši formulė gana sudėtinga ir ją suprasti kol kas nėra būtina, nes dauguma programų, tarp jų ir ArcGIS, atliks šiuos skaičiavimus už jus. Svarbu atkreipti dėmesį, kad Morano I ir klasikinės autokoreliacijos formulės panašios. Pagrindinis skirtumas tas, kad skaičiuojant autokoreliaciją erdvėje analizuojamas tik vienas kintamasis. Autokoreliacija erdvėje – tai ne kintamųjų, o erdvinių vienetų koreliacija.

  44. Autokoreliacija erdvėje (5) Morano I reikšmių intervalas yra nuo -1 iki +1, kaip ir klasikinės koreliacijos. Jei Morano I lygi nuliui, reiškia, kad autokoreliacijos erdvėje nėra, jei didesnė už nulį – autokoreliacija erdvėje teigiama, jei mažesnė už nulį – autokoreliacija erdvėje neigiama. Taigi, jei autokoreliacija erdvėje teigiama (dažniausias atvejis tiriant socialinius – ekonominius – politinius erdvinius vienetus), tai kaimyninių erdvinių vienetų reikšmės panašios. O jei autokoreliacija erdvėje neigiama, kaimyninių erdvinių vienetų reikšmės skirtingos. 

  45. Hipotezių tikrinimas Hipotezių tikrinimo procedūrąsudaro šie pagrindiniai žingsniai: 1. Hipotezių formulavimas; 2. Statistinio reikšmingumo lygmens parinkimas; 3. Statistinio kriterijaus(testo) skaičiavimas; 4. Sprendimo priėmimas (išvadų formulavimas). Suformuluotos hipotezės tiksliai ir lakoniškai išreiškia spėjimus apie tiriamą objektą. Tai vienas didžiausių matematinės statistikos privalumų.

  46. E KOFEINAS Test1 10 Ar Test1 rezultatai geresni, negu Test2? Imtis 20 10 Test 2 K Analizės pavyzdys Iškelta hipotezė: kofeinas teigiamai veikia organizmo psichomotorinę reakciją. Tiriamųjų kiekis 20 asmenų dalijamas į dvi grupes po 10: kontrolinę ir eksperimentinę grupes. Eksperimentinei grupei leidžiami kofeino preparatai, kontrolinei – ne.

  47. Testo rezultatai

  48. Jei reikšmės didesnės, negu p (p=0,05), pasiskirstymas artimas normaliajam

  49. Hipotezės iškėlimas Nulinė hipotezė– tai spėjimas apie skirtumų nebuvimą. Ji žymima H0 ir vadinama nuline todėl, kad spėjama jog skirtumas lygus nuliui (arba skirtumas yra atsitiktinis ir nereikšmingas) Alternatyvi hipotezė– priešinga nulinei. Tai spėjimas apie egzistuojančius skirtumus, kurių negalima paaiškinti atsitiktiniais svyravimais. Ji žymima H1. Alternatyvi hipotezė dažniausiai yra tai, ką mes norime įrodyti. • Nulinė hipotezė H0 – kofeinas neturi įtakos reakcijos laikui. (Testų, atliktų po bandymo, rezultatai statistiškai reikšmingai nesiskiria). • Alternatyvioji hipotezė H1 – kofeinas turi esminės įtakos reakcijos laikui. (Testų, atliktų po bandymo, rezultatai statistiškai reikšmingai skiriasi).

  50. Statistinio reikšmingumo lygmuo Hipotezę atmetame, jei atsitinka tai, kas, esant teisingai hipotezei, atsitikti praktiškai negalėjo. “Praktiškai negalėjo” reiškia kad tokio įvykio tikimybė yra labai maža. Tam įvedama reikšmingumo lygmens sąvoka. Reikšmingumo lygmuo paprastai žymima α raide, α>0. Jei įvykio tikimybė mažesnė už α, praktiškai jis įvykti negali. Tikrindami hipotezę darome eksperimentą ir hipotezę atmetame jei įvyko įvykis, kurio pasirodymo tikimybė mažesnė už α. Taikomojoje statistikoje reikšmingumo lygmuo dažnai išreiškimas procentais. Duomenų analizės programose skaičiuojamas mažiausias reikšmingumo lygmuo su kuriuo teisinga nulinė hipotezė gali būti atmesta turimiems duomenims.

More Related