430 likes | 740 Views
2. előadás. A sokaság/minta eloszlásának jellemzése. A sokaság vagy minta tömör jellemzése alapvetően három szempont szerint történhet: a sokaság/minta tipikus értékének vagy értékeinek meghatározása; az adatok különbözőségének vizsgálata, jellemzése;
E N D
A sokaság/minta eloszlásának jellemzése A sokaság vagy minta tömör jellemzése alapvetően három szempont szerint történhet: • a sokaság/minta tipikus értékének vagy értékeinek meghatározása; • az adatok különbözőségének vizsgálata, jellemzése; • a sokaság/minta eloszlásgörbéjének elemzése.
A sokaság/minta eloszlásának jellemzése Középértékekkel szembeni követelmények: • egyértelműen és algebrailag könnyen számíthatók legyenek; • tipikus, jellemző értékek legyenek; • szemléletesen, jól lehessen őket értelmezni; • közepes helyzetet foglaljanak el, azaz a legkisebb és a legnagyobb elem közéessenek: Xmin K Xmax
A sokaság/minta jellemzése középértékekkel A középértékek olyan mutatószámok, melyekkel a bevezetőben megfogalmazott követelményeknek eleget téve könnyen, jól lehet tömören jellemezni a sokaságot vagy mintát. Típusai: • Átlag • Módusz • Medián
Átlag • Az átlag a legtöbb ember számára jól ismert fogalom. Ugyanakkor a hétköznapi értelemben szinte kivétel nélkül mindig a számtani átlagot jelenti. • A számtani átlag az a szám, amelyet az átlagolandó értékek helyére írva azok összege változatlan marad.
Átlag Kiszámítási módja: Legyenek X1, X2, ..., XN egy sokaság elemei, ekkor a sokaság elemeinek átlaga Ha a teljes sokaság vizsgálata helyett annak csak egy részét, egy n elemű véletlen x1, x2, ..., xn mintát tekintünk, akkor a mintaátlag az
A számtani átlag matematikai tulajdonságai • Az egyes elemek - átlagolandó értékek - átlagtól való eltéréseinek összege 0: • Ha minden egyes elemhez hozzáadunk egy "a" konstans értéket, az így kapott elemek számtani átlaga éppen "a"-val tér el az eredeti elemek átlagától, azaz ha x1, x2, ..., xn, átlaga , akkor x1 + a; x2 + a; ...; xn + a átlaga + a lesz. • Ha minden egyes elemet megszorzunk egy "b" konstans értékkel, akkor az így kapott elemek átlaga éppen "b"-szerese lesz az eredeti elemek átlagának, azaz ha x1, x2, ..., xn átlaga , akkor b x1; b x2; ...; b xn átlaga b lesz.
A számtani átlag matematikai tulajdonságai • Ha az x1, x2, ..., xn elemek átlaga , az y1, y2, ..., yn elemek átlaga , akkor az x1 + y1; x2 + y2; ...; xn + yn átlaga lesz. • Az elemek mindegyikéből egy tetszőleges "a" állandót levonva ezen eltérések négyzetösszege akkor lesz minimális, ha az "a" állandó éppen az ,azaz minimális, ha a =
A számtani átlag előnyei • A számtani átlag a legtöbb ember számára világos, érthető fogalom, számítása egyszerű. • Minden adathalmazból egyértelműen kiszámítható, azaz mindegyik adathalmaznak létezik számtani átlaga, s ugyanakkor pontosan egy van belőle. • A számtani átlag segítségével összehasonlíthatjuk ugyanazon típusú számszerű jellemző alakulását két vagy több különböző sokaság vagy minta esetén.A számtani átlag a sokaság vagy minta minden egyes elemének figyelembe vételével kerül kiszámításra, így "nem veszítünk információt". • A számtani átlag kiszámításához valójában nem szükséges az egyedi értékek ismerete, elegendő azok összegét tudni, s ezáltal meghatározható az átlagos érték.
A számtani átlag hátrányai • Az adatok többségétől jelentősen eltérő, kiugróan alacsony vagy kiugróan magas értékek (ún. outlier-ek) is hatással vannak az átlagos érték nagyságára. Ekkor nem biztos, hogy a számtani átlag valóban jól jellemzi a sokaság vagy minta eloszlását. • Probléma merül fel a számtani átlag számításával kapcsolatban osztályközös gyakorisági sor alkalmazása esetén is. Ugyanis ekkor nem tudjuk valóban figyelembe venni az egyedi értékeket, hiszen azokat osztályközönként az osztályközéppel helyettesítettük a számítás elvégzéséhez, s így - mint azt a súlyozott számtani átlag bevezetésénél már említettük - az egész sokaság átlagának csak egy becslését, közelítését kapjuk. • További problémát rejt a nyitott osztályközök használata. A nyitottosztályközöket általában ugyanolyan hosszúnak vesszük, mint alsó nyitott osztályköz esetén az utána következő, felső nyitott osztályköz esetén pedig az azt megelőző osztályköz hossza (feltéve, hogy a vizsgált jelenség esetén ez értelmezhető). Ekkor az így meghatározott osztályközök alsó határától kisebb illetve felső határától nagyobb értékeket (ha vannak ilyenek) az átlagszámítás során tulajdonképpen figyelmen kívül hagyjuk.
Medián • Az adatok eloszlásának, elhelyezkedésének jellemzésére, a sokaság vagy minta tipikus értékének meghatározására alkalmas mutatószám lehet a középső elem meghatározása is. • Definíció: A rangsorba rendezett adatok közül a középső elemet mediánnak nevezzük. • Jele: Me • A medián tehát az az érték, amitől az adatok fele kisebb, másik fele nagyobb. • Ha a vizsgált elemek száma páratlan, akkor ténylegesen létezik az adatok között ún. középső elem, n számú adat esetén ez az - ik elem.
Medián Medián képlete: me = a mediánt tartalmazó osztályköz alsó határa, vagy az azt megelőző osztályköz felső határa f'me-1 = a mediánt tartalmazó osztályközt megelőző osztályköz kumulált gyakorisága, azaz hogy a mediánt tartalmazó osztályköz előtt hány elem található; fme = a mediánt tartalmazó osztályközhöz tartozó gyakoriság, azaz a mediánt tartalmazó osztályközben összesen hány elem található; h = a mediánt tartalmazó osztályköz hossza; n = az elemek száma;
Medián előnyei Természetesen a mediánnak is vannak előnyös, illetve hátrányos tulajdonságai: • A medián is - hasonlóan a számtani átlaghoz - egyértelműen meghatározható, azaz minden adathalmaznak létezik mediánja és pontosan egy van belőle. • A medián azonban nem csak mennyiségi jellemzők esetén határozható meg, hanem rangsorba rendezhető minőségi ismérvek esetén is: • A medián értéke független a szélső értékektől, csak a középső vagy középső két elem nagysága befolyásolja. Kiugróan magas vagy alacsony értékek esetén - mind azt az előző részben bemutattuk - a számtani átlag nem lesz tipikus érték, ekkor a medián "jobban" jellemzi az adatok elhelyezkedését.
Medián hátránya Természetesen néhány probléma is felmerül a medián meghatározásakor: • csak rangsorba rendezett elemekből számítható; • ha egy minta alapján akarunk következtetni a teljes sokaság eloszlására, akkor a számtani átlag matematikai-statisztikai szempontból alkalmasabb mutatószám (erről részletesen a statisztikai becslés témakörénél lesz szó).
Módusz • Egy adathalmazt vizsgálva gyakran tapasztalhatjuk, hogy egy vagy több érték többször fordult elő a megfigyelés (adatfelvétel) során. Ebben az esetben a legtöbbször előforduló elem is alkalmas lehet a sokaság jellemzésére. • Definíció: A módusz a leggyakrabban előforduló elemet jelenti. Jele: Mo
Módusz tulajdonságai • A módusz előnye, hogy nem csak mennyiségi, hanem minőségi jellemzők esetén is meghatározható. • Hasonlóan a mediánhoz a módusz sem érzékeny a szélső, kiugró értékekre. • Az előző előnyei ellenére azonban a módusz nagyon gyakran nem alkalmas az eloszlás jellemzésére, ugyanis nem minden esetben létezik, vagy előfordulhat, hogy több is van belőle, azaz nem egyértelmű.
Módusz Módusz képlete: mo = a móduszt tartalmazó, un. modális osztályköz alsó határa, k1 = a modális osztályköz és az azt megelőző osztályköz gyakoriságának különbsége, k2 = a modális osztályköz és az azt követő osztályköz gyakoriságának különbsége h = a modális osztályköz hossza.
Geometriai átlag Geometriai átlag az a szám, amelyet az egyedi értékek helyére írva azok szorzata változatlan marad. Kiszámítási módja x1, x2, ..., xn egyedi értékek esetén Ha valamelyik érték többször is előfordul, azaz x1 f1-szer; x2 f2-ször; ...; xk fn-szer, illetve osztályközös gyakorisági sor esetén a súlyozott átlagforma használható:
Harmonikus átlag Harmonikus átlag az a szám, amelyet az egyes átlagolandó értékek helyére írva azok reciprokösszege változatlan marad. Kiszámítási módja x1, x2, ..., xn elemek esetén = , illetve súlyozott átlag formában = , ahol
Négyzetes átlag A négyzetes (kvadratikus) átlag az a szám, amellyel az átlagolandó értékeket helyettesítve, azok négyzetösszege változatlan marad. Kiszámítási módjai
Szóródásszámítás • Szóródáson azonos fajta számszerű értékek (általában egy mennyiségi ismérv értékeinek) különbözőségét értjük. • A középérték a sokaság egészének általános, tömör jellemzését szolgálja, az ettől való eltérés a szóródás. A szóródás, vagyis az értékek különbözősége egyrészt az értékek egymástól való különbözőségében, másrészt valamely középértéktől való eltérésben fejeződik ki.
A szóródás terjedelme • A terjedelem az előforduló elemek között a legnagyobb és legkisebb érték különbsége. • A mutatószám kifejezi, hogy mekkora értékközben ingadoznak az ismérvértékek. • Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodik.
Átlagos eltérés • Az átlagos eltérés az egyedi értékeknek a számtani átlagtól mért átlagos abszolút eltérését mutatja: ahol
Szórás • A szórás az egyedi értékek átlagtól való eltéréseinek a négyzetes átlaga, az átlagtól mért átlagos négyzetes eltérés. Kiszámítási módjai: teljes sokaság esetén minta esetén
Szórás A szórás tulajdonságai: • Ha az xi értékekhez egy állandó „ a ” számot hozzáadunk (vagy levonjuk xi-ből ezt a számot), a szórás értéke nem változik: . • Ha az egyes xi értékeket egy állandó számmal (b) szorozzuk (vagy osztjuk) az így kapott értékek szórása megegyezik az eredeti értékek szórásának b-szeresével (vagy b-ed részével): . • A számtani átlag négyzetes minimum tulajdonságából következik, hogy egy adott „ a ” értéktől számított eltérésnégyzetek számtani átlagának, illetve az eltérések négyzetes átlagának minimuma a szórásnégyzet, illetve a szórás:
Relatív szórás • Amely kifejezi, hogy az egyedi értékek átlagosan hány %-kal térnek el az átlagos értéktől. Kimutatható, hogy a relatív szórás egyenlő az egyedi eltérések viszonylagos nagyságainak négyzetes átlagával
Átlagos különbség • Átlagos különbségnek ( Gini - mutatónak ) nevezzük az ismérvértékek egymástól mért abszolút eltéréseinek számtani átlagát. Jele: G (Gini olasz statisztikus után) • A Gini – mutató elsősorban a koncentráció vizsgálatánál alkalmazható.
Gyakorisági sorok vizsgálatának további módszerei • gyakorisági görbe további vizsgálata grafikusan és mutatószámok segítségével, • a valószínűség-eloszlások különböző típusainak elemzése.
Kvantilisek • Legyen 0 q 1. Ha a rangsorba rendezett sokaságot egy ismérvérték q: (1 – q) arányban osztja ketté, akkor ezt az ismérvértéket q-ad rendű vagy q-adikkvantilisnek nevezzük (jele Qq). A leggyakrabban előforduló kvantiliseket külön névvel és jelöléssel is illetjük. • Tercilisek: T1(alsó tercilis), T2(felső tercilis), • Kvartilisek: Q1(alsó kvartilis), Q2= Me (medián), Q3 (felső kvartilis), • Kvintilisek: K1, K2, K3, K4, • Decilisek: D1, D2, …. , D9, • Percentilisek: P1, P2, …. , P99.
Az aszimmetria mérőszámai Az eloszlások következő típusaival foglalkozunk: -egymóduszú eloszlás • szimmetrikus, • aszimmetrikus (vagy ferde); -többmóduszú eloszlás.
Az aszimmetria mérőszámai • Többmóduszú gyakorisági sorok általában heterogén sokaságokból származtathatók. A fősokaságot a heterogenitást előidéző ismérv szerint csoportosítva egy egymóduszú gyakorisági sorokhoz jutunk, ezért ezeket összetett gyakoriságisoroknak is nevezzük. • Az egymóduszú gyakorisági sorok poligonjának egy helyi maximuma (csúcsa) van. A helyzetmutatók elhelyezkedésétől függően az eloszlás szimmetrikus és aszimmetrikus lehet.
Asszimetria mérőszámai • Az aszimmetria leggyakrabban használt mérőszámai a Pearson-féle mutatószám és az F mutató. A két mutatószám eltérő jellemzőkből kiindulva méri az aszimmetria mértékét és irányát.
Pearson-féle mutatószáma • Az aszimmetria Pearson-féle mutatószáma (jele: A) a számtani átlag és a módusz egyes eloszlástípusok esetén jellemző nagyságrendi viszonyán alapul. • A mérőszám (önmagában a számláló) előjele az aszimmetria irányát mutatja. Bal oldali, jobbra elnyúló aszimmetria esetén A 0, jobb oldali, balra elnyúló aszimmetria esetén A 0. Szimmetrikus eloszlás esetén A = 0. A mérőszám abszolút értékének nincs határozott felső korlátja, azonban már 1-nél nagyobb abszolút érték a gyakorlatban ritkán fordul elő és meglehetősen erős aszimmetriára utal.
F mutató • Az aszimmetria másik mérőszáma, az F mutató (jele: F) az alsó és felső kvartilis mediántól való eltérésének egymáshoz viszonyított nagyságán alapul. Bal oldali, jobbra elnyúló aszimmetria esetén a medián az alsó (Q1), míg jobb oldali aszimmetria esetén a felső (Q3) kvartilishez esik közelebb. • E mutatószám ugyanolyan feltételek mellett ad nulla, pozitív és negatív eredményt, mint az A mutató. Az F mutató lényegesen kisebb értékkel jelzi a már nagyfokúnak tekinthető aszimmetriát, mint az A.
A koncentráció vizsgálata • Koncentrációnak nevezzük azt a jelenséget, hogy – az ismérvértékek különbözősége következtében – a kisebb értékekkel rendelkező egységekhez az értékösszeg kisebb hányada tartozik, mint amilyen ezen egységeknek a sokaság egészében elfoglalt részaránya, a sokaság nagyobb ismérvértékekkel rendelkező egységeinél pedig fordított a helyzet, azaz a sokasághoz tartozó teljes értékösszeg jelentős része a sokaság kevés egységére összpontosul.
Lorenz-görbe • A koncentráció vizsgálatának egyik legfontosabb és egyben legelterjedtebb eszköze a Lorenz-görbe, amely a koncentráció meglétén kívül annak mértékét is szemléletesen mutatja. • A Lorenz-görbe egy egységnyi oldalú négyzetben elhelyezett vonaldiagram, mely a kummulált relatív gyakoriságok ( ) függvényében ábrázolja a kumulált relatív értékösszegeket (). • A Lorenz-görbe és az átló által bezárt területet koncentrációs területnek nevezzük. Ha a koncentrációs területet a háromszög területéhez viszonyítjuk, akkor e hányados alapján következtetni tudunk a koncentráció fokára. A koncentrációs terület arányát a koncentrációs együtthatóval (jele: K) mérjük.