Adatmodellek

Adatmodellek A modellezés statisztikai alapjai

Statisztikai modell??? • cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett valóban létezik-e • ehhez adatok kellenek, melyek elemzésével az összefüggések feltárhatók • itt mindegy, hogy statisztikáról beszélünk, vagy geoinformatikáról – a lényeg ugyanaz

Az adatgyűjtés problémája Valós világ Elméleti modell entitások leegyszerűsítése azon jellemzőkre, amik a későbbiekben szerepet játszanak a modellben Logikai modell az entitások megfelelői, az objektumok Fizikai modell tényleges adatgyűjtés

Az adatgyűjtés problémája

Populáció és minta alapsokaság v. populáció mintavétel mérési hiba megszámlálható minden egyed mintavételi hiba megszámlálhatatlan választott egyedek mintavételi egység minta

A minta mennyire jó reprezentációja a populációnak?- mérőszámok átlag: hipotetikus érték minél nagyobb a minta, annál jobb a közelítés DE rendszerint a minta nem nagy – sőt! igen kicsi, kisebb mint kellene

A minta mennyire jó reprezentációja a populációnak?- mérőszámok total error, négyzetes összeg, variancia, szórás

TE=0 SS=5.2 S2=1.3 SD=1.14

A minta mennyire jó reprezentációja a populációnak?- mérőszámok Standard error – az átlag hibája (a mintaátlagok szórása): megmutatja, hogy a minta mennyire reprezentálja a populációt • ha nagy a szám, akkor a hiba is nagy • ha kicsi, akkor a mintaátlag hasonló a populációátlagéhoz, vagyis a gyűjtött adatok jól tükrözik a valós világot (populáció)

A minta mennyire jó reprezentációja a populációnak?- mérőszámok konfidencia intervallum: egy tartomány, amibe a populáció átlaga esik a mintaátlagok 95%-ában (esetenként 99%-ában)

 M: átlag  adatpontok SD: szórás SE: átlag hibája CI: konfidencia tartomány

Student féle t-paraméter értékei t(2)=12,706 t(3)=4,303 t(4)=3,182 t(10)=2,262 t(20)=2,093 t(∞)=1.96

Regresszió – mint modell • mi az amit látunk? • mennyire megbízható az eredmény? • mekkora a hibája? • minden körülményt figyelembe vettünk?

Előfeltételek • normalitás • outlier, influent data • homoszkedaszticitás • autokorreláció

Az R2 bűvöletében • a modell annál jobb, minél jobban illeszkedik a trendvonal • DE nem minden áron

Többváltozós lineáris regresszió • 1 függő és több független változó • modellek • enter (mindent megtart) • forward (változók egyesével lépnek be, az lesz a második, amelyik a megmagyarázott hányadot legjobban növeli) • backward (minden független változó benn van, az kerül ki amelyik elhagyása érdemben nem csökkenti a megmagyarázott hányadot) • stepwise (minden modellbe került változó helye bizonytalan, ha egy új belépésével egy már benn lévő magyarázóereje lecsökken, akkor kikerül)

Többváltozós lineáris regresszió • multikollinearitás a független változók nem korrelálhatnak egymással – ilyen esetben az R2 a közös hányad miatt torzít VIF, tolerance

Adatmodellek

Adatmodellek

Presentation Transcript

1. fejezet: Adatmodellek, adatbázisok

Adatbáziskezelés - Adatmodellek

Adatmodellek - egy eszközrendszer, mellyel leírható a vizsgált valóság ,

Adatmodellek