250 likes | 373 Views
Adatmodellek. A modellezés statisztikai alapjai. Statisztikai modell???. cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett valóban létezik-e ehhez adatok kellenek, melyek elemzésével az összefüggések feltárhatók
E N D
Adatmodellek A modellezés statisztikai alapjai
Statisztikai modell??? • cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett valóban létezik-e • ehhez adatok kellenek, melyek elemzésével az összefüggések feltárhatók • itt mindegy, hogy statisztikáról beszélünk, vagy geoinformatikáról – a lényeg ugyanaz
Az adatgyűjtés problémája Valós világ Elméleti modell entitások leegyszerűsítése azon jellemzőkre, amik a későbbiekben szerepet játszanak a modellben Logikai modell az entitások megfelelői, az objektumok Fizikai modell tényleges adatgyűjtés
Populáció és minta alapsokaság v. populáció mintavétel mérési hiba megszámlálható minden egyed mintavételi hiba megszámlálhatatlan választott egyedek mintavételi egység minta
A minta mennyire jó reprezentációja a populációnak?- mérőszámok átlag: hipotetikus érték minél nagyobb a minta, annál jobb a közelítés DE rendszerint a minta nem nagy – sőt! igen kicsi, kisebb mint kellene
A minta mennyire jó reprezentációja a populációnak?- mérőszámok total error, négyzetes összeg, variancia, szórás
TE=0 SS=5.2 S2=1.3 SD=1.14
A minta mennyire jó reprezentációja a populációnak?- mérőszámok Standard error – az átlag hibája (a mintaátlagok szórása): megmutatja, hogy a minta mennyire reprezentálja a populációt • ha nagy a szám, akkor a hiba is nagy • ha kicsi, akkor a mintaátlag hasonló a populációátlagéhoz, vagyis a gyűjtött adatok jól tükrözik a valós világot (populáció)
A minta mennyire jó reprezentációja a populációnak?- mérőszámok konfidencia intervallum: egy tartomány, amibe a populáció átlaga esik a mintaátlagok 95%-ában (esetenként 99%-ában)
M: átlag adatpontok SD: szórás SE: átlag hibája CI: konfidencia tartomány
Student féle t-paraméter értékei t(2)=12,706 t(3)=4,303 t(4)=3,182 t(10)=2,262 t(20)=2,093 t(∞)=1.96
Regresszió – mint modell • mi az amit látunk? • mennyire megbízható az eredmény? • mekkora a hibája? • minden körülményt figyelembe vettünk?
Előfeltételek • normalitás • outlier, influent data • homoszkedaszticitás • autokorreláció
Az R2 bűvöletében • a modell annál jobb, minél jobban illeszkedik a trendvonal • DE nem minden áron
Többváltozós lineáris regresszió • 1 függő és több független változó • modellek • enter (mindent megtart) • forward (változók egyesével lépnek be, az lesz a második, amelyik a megmagyarázott hányadot legjobban növeli) • backward (minden független változó benn van, az kerül ki amelyik elhagyása érdemben nem csökkenti a megmagyarázott hányadot) • stepwise (minden modellbe került változó helye bizonytalan, ha egy új belépésével egy már benn lévő magyarázóereje lecsökken, akkor kikerül)
Többváltozós lineáris regresszió • multikollinearitás a független változók nem korrelálhatnak egymással – ilyen esetben az R2 a közös hányad miatt torzít VIF, tolerance