480 likes | 635 Views
Varianciaanalízis. Informatikai Tudományok Doktori Iskola.
E N D
Varianciaanalízis Informatikai Tudományok Doktori Iskola
A szórásanalízis (ANOVA=analysis of variance) modellek rugalmas statisztikai eszközök valamely kvantitatív (numerikus vagy intervallum skálájú) változónak (függő változó) egy vagy több nem feltétlenül kvantitatív változóval (független változók) való kapcsolata kielemzésére. Arra vagyunk itt kíváncsiak, hogy van-e hatása a független változóknak a függő változóra illetve, hogy ez a hatás egyforma vagy különböző. A hatás, kapcsolat függvényszerű feltárása akkor sem cél, ha a független változók kvantitatívek .
A szórásanalízis módszereit alapvetően két szempont különbözteti meg a regresszióanalízis módszereitől: 1. A vizsgált független változók kvalitatívek is lehetnek (pl. a vizsgált személy neme, lakóhelye stb.) Ilyenkor regressziós vizsgálatról szó sem lehet. 2. Még ha a függő változók kvantitatívek is, nem cél a független változóval való függvényszerű kapcsolat feltárása. Ilyen értelemben a szórásanalízis módszere megelőzi a regressziós vizsgálatokat. Ugyanis, ha az összefüggés fennállására pozitív választ kapunk van egyáltalán értelme keresni ezen összefüggés jellegét.
A szórásanalízis módszerei besorolhatók a hipotéziselmélet módszerei közé is, hiszen különböző nullhipotézisek feletti döntéssorozattal válaszolunk a kiindulási kérdéseinkre. Azt vizsgáljuk, hogy egy bizonyos faktornak (körülménynek) van-e hatása a kimeneti változó (válasz) várható értékére. A faktort különböző szintekre állitjuk be és méréseket végzünk nullhipotézis: a faktornak nincs hatása, azaz a várható értékek egyenlőek. Az adatok alapján ezt megpróbáljuk megcáfolni
Alapfogalmak faktor (factor) Faktornak nevezzük a vizsgálatba bevont független változókat. faktor szint (factor level) A faktor értékkészletének eleme. Ezen beállítások mellett figyeljük meg a függő változót. interakció Az egyes faktorok között feltételezett kapcsolat. Pl. a dolgozó neme és fizetési kategóriája között feltételezhető kapcsolat. egyfaktoros és többfaktoros elemzések (single factor, MANOVA=multifactor analysis of variance) A modelleket a faktorok száma szerint csoportosítjuk, így beszélünk egy-, két-, háromfaktoros modellekről stb. Bizonyos kérdéseket csak többfaktoros modellekben tehetünk fel, pl. a faktorok között fellépő interakció kérdése ilyen.
Alapfogalmak véletlen és beállított faktorok Vannak kísérletek, amikor az egyes faktorok szintjeit előre be tudjuk állítani, és ennek megfelelően tervezzük meg a méréssorozatot. Pl. ha egy gép beállítási módjai a faktorszintek, akkor rajtunk áll, hogy milyen beállítások mellett mérjünk. De ha a vizsgált faktor pl. a csapadék mennyisége, akkor azt előre nem tudjuk garantálni, hogy a független faktorok (hőmérséklet, nyomás, páratartalom stb.) milyen értékeket vesznek fel, csak utólag tudjuk azokat megállapítani. Ez utóbbi esetben tehát véletlen faktorokról van szó.
Alapfogalmak kvalitatív és kvantitatív faktorok Ha a faktorszintek nem numerikusak, vagy intervallum skálájúak kvalitatív, ellenkező esetben kvantitatív faktorokról beszélünk. Ez utóbbi esetben később regressziós elemzést is végezhetünk majd. kezelések (cellák) (treatment, cell) Egyfaktoros esetben a kezelések megfelelnek a faktor szintjeinek, többfaktoros esetben a figyelembe vett faktorok szintjeiből előálló kombinációk lesznek a kezelések. Pl. amikor a két faktor egy boríték színei és a címzésnél használt betűtípus, akkor a kezelések a (szín, betűtípus) párok összes lehetséges kombinációiból állnak.
Példák 1. példa: Egy nagy televíziógyár három szakközépiskolában képzi a szervízhálózata szerelőit. Mindegyik iskolában két oktatási program szerint folyik a képzés. A tanulók egy része elméletibb, a másik fele gyakorlatiasabb oktatást kap. A záróvizsga-eredmények alapján megvizsgálják, van-e lényeges különbség az oktatási programok között. Arra is keresik a választ, hogy az egyes iskolák színvonalai között van-e lényeges különbség. A függő változó most a tanulók záróvizsga teljesítményére adott összpontszám. (A záróvizsgán elméleti és gyakorlati feladatok vannak, mindet 1-től 5-ig értékelik.) Kétfaktoros modellről van szó. Az egyik faktor az oktatásiprogram, melynek két szintje van. A másik faktor az iskola, amely három szintű. Tehát összesen hat kezelés (cella) képezhető ebben a modellben. Amikor a programokat hasonlítjuk össze, az iskolák hatásait, amikor az iskolákat hasonlítjuk össze, a programok hatásait kell kiküszöbölni. A faktorok interakciójával ebben az esetben nem érdemes foglakozni.
Példák 2. példa: Veszélyeztetett terhességeknél az orvosok három különböző beavatkozás közül szoktak választani, hogy megakadályozzák a koraszülést. Rendelkezésre állnak a beavatkozás után születendő gyerekek súlyai. Azonos hatásfokúak-e a beavatkozások, vagy valamelyik műtét jobban szolgálja az ügyet? (Az orvosok akkor tartanak egy módszert jobbnak, mint a másikat, ha a születendő gyermek súlya nagyobb.) Itt most a gyerekek súlya a függő változó, és az orvosi beavatkozás a vizsgált egyetlen faktor, aminek három szintje van. Ennél fogva, a kezelések száma is három. A vizsgálat eredménye egyébként az volt, hogy nincsen lényeges különbség a kezelések között. Mivel az egyik „kezelés” az volt, hogy nem kell műteni, hanem szigorúan fektetni kell a kismamát, ezért a vizsgálat eredménye az, hogy ilyen esetben ez a legjobb módszer.
Példák 3. példa: Egy üzemben négy gyártósoron készítenek csapágygolyókat. Megvizsgálandó, hogy a golyók átmérői azonosaknak tekinthetők-e, vagy valamelyik gyártósort le kell állítani, hogy a többihez igazítsák. Itt is egyfaktoros elemzésről van szó (ez a faktor a gyártósor), a szintek száma most négy. A függő változó a golyók átmérője. 4. példa: Egy üzemben mérik a dolgozók hiányzási rátáit. Megvizsgálandó, hogy a hiányzási ráták különbözőek-e a nemek, családi állapotok, beosztások, iskolai végzettségek, korok, fizetési kategóriák által meghatározott csoportok között. Itt többfaktoros vizsgálatról van szó. A függőváltozó a hiányzási ráta, ami 0 és 1 közé eső arányszám minden dolgozó esetén. A faktorok között most célszerű interakciót feltételezni. Pl. a beosztások, korok és a fizetési kategóriák között van összefüggés.
Példák 5. példa Három különböző műtrágya hatását mérték 9, 6, ill. 8 kísérleti alanyon. Itt az egyetlen tényező a műtrágya, annak 3 szintje van. A műtrágya hatására a terméseredményeket a fenti táblázat mutatja. Vizsgálják azt a nullhipotézist, hogy a terméseredmények várható értékei egyenlőek-e! 6. példa Egy cég szeretne egy új energiaitalt bevezetni a piacra. Ehhez az országban 4 régiót jelöltek ki tesztelés céljából, a vizsgált szempontok a csomagolás, a reklámkampány és a koffeintartalom voltak, miden faktornál négy különböző értéket vizsgáltak, összesen 16 kísérletet végeztek. Az eredmény az adott idő alatt vásárolt energiaital mennyisége volt száz doboz egységben.
Kísérleti elrendezések Több faktor hatásának egyidejű vizsgálatakor a módszereket három csoportba sorolhatjuk: a.) hierarchikus osztályozás b.) keresztosztályozás c.) nem teljes kísérleti elrendezések
Hierarchikus osztályozás A faktorok hierarchiában vannak és egy faktor összes szintje a felette álló faktor csak egy szintjéhez kapcsolódik: Ilyen kísérleti beállítást követünk, amikor p osztály tanulóinak tudását akarjuk összehasonlítani, r különböző tantárgy számonkérése útján.
Keresztosztályozás Az A és B faktor szintjeinek minden (i,j) párosításához (kezelés, cella) veszünk egy- vagy többelemű mintát: Kettőnél több faktor esetén az kezelés kombinációhoz veszünk mintát, ahol k a faktorok száma.
Nem teljes kísérleti elhelyezések Olyankor alkalmazandó, amikor egy vizsgálandó faktor mellett más, nem kívánt de számontartott hatás is fellép, és azokat ki akarjuk küszöbölni. véletlen blokkok módszere A C faktor hatását úgy elimináljuk, hogy a B faktor minden szintjéhez az A faktor szintjeinek egy véletlen permutációját rendeljük. Pl. amikor r földterületen p műtrágya-beállítás mellett vizsgáljuk a terméshozamot azért, hogy a domborzati hatást kiküszöböljük ( C faktor) az egyes táblákon a műtrágyakezeléseket meg kell keverni.
Nem teljes kísérleti elhelyezések latin négyzetek módszere Ez speciális három faktoros kísérleti terv a faktoronkénti p kezelés esetén az elvileg lehetséges kezelés helyett, csak kezelést igényel, az alábbi szisztéma szerint: A mátrix minden egyes sora és oszlopa a C faktor szintjeinek egy permutációja. Így az A és B faktorok szintjeinek minden egyes párosításához csak egyetlen faktorszintet rendelünk a C faktorból.
Nem teljes kísérleti elhelyezések latin négyzetek módszere Pl. egy lehetséges 4x4-es latin négyzet az alábbi: Az (A2,B3) kezeléspárhoz ekkor a C4-es faktorszint tartozik. A latin négyzetek módszere feltételezi, hogy a faktorok közötti interakciók nem jelentősek.
Nem teljes kísérleti elhelyezések latin négyzetek módszere További 4x4-es latin négyzet: Érdekesség: nincs felfedezett képlet a különböző nxn-es latin négyzetek számára vonatkozóan!
Nem teljes kísérleti elhelyezések kiegyensúlyozott nem teljes blokk Ha a blokkok száma kisebb a kezelések számánál, akkor egy 7x7-es problémánál alkalmazható az alábbi elrendezés: Ilyenkor a B faktor minden szintjéhez az A faktorok egy kombinációját rendeljük. Pl. 7 alomból származó állatokon 7 különböző gyógyszer hatását akarjuk vizsgálni, de mindegyik alomból csak 4 állat áll a rendelkezésünkre, tehát az egy alomhoz tartozó állatok között nem oszthatjuk szét az összes gyógyszeradagot.
Az alkalmazás feltételei • A függőváltozó eloszlásának normálisnak kell lennie. Tehát tetszőleges kezeléshez tartozó mintának követnie kell a normális eloszlást. • A minták szórásnégyzeteinek meg kell egyezniük. Ez azon múlik, hogy a kezelések eredményét azonos módon mérik-e. • Az egyes kezelésekhez tartozó mintáknak függetleneknek kell lenniük.
A módszerek fázisai • Először a minták várható értékeinek egyezésére vonatkozó nullhipotézist ellenőrizzük. • Másodszor, ha a nullhipotézist el kellett vetni, megvizsgáljuk, milyen relációknál mutatkozik szignifikáns eltérés, és mi lehet ennek az oka. (Posthoc analysis)
Egyszeres osztályozás (One-way ANOVA) Egy X normális eloszlású változónak egyetlen L szintű faktorváltozóval való kapcsolatát vizsgáljuk (one-way-ANOVA). A X-re vett n elemű mintát a faktor szintjei szerint L csoportba soroljuk: A nullhipotézis az, hogy az L db minta átlagai között nincs különbség: A képletben ai az i szinthez tartzozó várható érték. Látható, hogy akétmintás t-próba többmintás kiterjesztéséről van szó.
Egyszeres osztályozás (One-way ANOVA) az egyes csoportok átlagai a teljes mintaátlag a teljes négyzetösszeg a csoportok közötti négyzetösszeg a csoportokon belüli négyzetösszeg
Egyszeres osztályozás (One-way ANOVA) Megmutatható, hogy Amennyiben igaz a nullhipotézis a statisztika F- eloszlású lesz (L-1), (n-L) szabadságfokokkal. Tehát a nullhipotézis elfogadását az F-eloszlásból vett kritikus értékkel (illetve a hozzá tartozó szignifikancia-szinttel) bírálhatjuk el.
Egyszeres osztályozás (One-way ANOVA) Ha nullhipotézist el kell vetni, akkor lehetőség van az (ai-aj) eltérések nagyságának megbecsülésére Student próbával. Az alapmintára vonatkozó normalitási feltételből következik, hogy az i-edik és j-edik csoportok elméleti várhatóértékei különbségére az alábbi konfidencia-intervallum szerkeszthető: ahol t a Student táblázatból az 1- szignifikanciaszinthez és n-L szabadsági fokhoz tartozó kritikus érték.
Kétszeres osztályozás (interakció nélkül) Ha egy folytonos függőváltozó, és két nominális változó faktorváltozó adott, kétszeres osztályozásról beszélünk. Tegyük fel hogy az egyik faktor értékei az 1, 2, ..., L a másik faktor értékei az 1, 2, ..., K közül valók. Így a mintát összesen KxL részhalmazra bonthatjuk: A kifejezésekben pl. az (j,k) párosítás esetén megszorított részminta (vagy cella) i-edik eleme. Feltesszük, hogy a minták normális eloszlásúak, és hogy a szórásaik ismeretlenek, de azonos értékűek.
Kétszeres osztályozás (interakció nélkül) A modellünk, ha a két nominális változó között kölcsönhatást (interakciót) nem tételezünk fel az, hogy a függő változónak a cellákra leszűkített részmintái várható értékeinek az egyik nominális változó által magyarázható részei azonosak. Vagyis a (j,k) cella elméleti várhatóértéke alakú, ahol az első tag az első faktor j szintjéből, a második tag pedig a második faktor k szintjéből eredő tag. A nullhipotézisünk az, hogy az első faktor szintjeihez ugyanakkorahatás tartozik.
Kétszeres osztályozás (interakció nélkül) az első faktor i szintjéhez tartozó átlag az második faktor j szintjéhez tartozó átlag a teljes mintaátlag Az átlagok mintaelemszáma:
Kétszeres osztályozás (interakció nélkül) a teljes négyzetösszeg az első faktor magyarázta négyzetösszeg a második faktor magyarázta négyzetösszeg a véletlen ingadozásokat mérő négyzetösszeg
Kétszeres osztályozás (interakció nélkül) Megmutatható, hogy: Ha a nullhipotézis igaz, akkor jelölésekkel F-eloszlást fog követni (L-1, (L-1)(K-1) ) szabadságfokokkal. Tehát, ha a próbastatisztika értéke szignifikáns, a nullhipotézist elfogadjuk, azaz az első faktornak nincsen hatása a célváltozóra.
Kétszeres osztályozás (interakció nélkül) Az eljárás alkalmas a nullhipotézis ellenőrzésére is, de akkor a próbastatisztika számlálójába az kifejezés kerül. Ha az eredeti nullhipotézist elvetjük, akkor az első faktor szintjei okozta különbségekre, azaz az ai-aj eltérésekre konfidencia intervallum szerkeszthető.
Kétszeres osztályozás interakcióval Ha a két nominális faktor között interakciót tételezünk fel, akkor az (i,j) cella elméleti várhatóértékének a felbontása az alábbiakban módosul: A ci,j tag éppen azt fejezi ki, hogy az (i,j) párosításnál a hatások egymást erősítik, vagy gyengítik. A módszer alkalmas egyidejűleg három hipotézis ellenőrzésére:
Kétszeres osztályozás interakcióval A hipotézisek eldöntéséhez a következő statisztikákra van szükség: a teljes minta átlaga az első faktor i szintjeinél az átlagok a második faktor j szintjénél az átlagok
Kétszeres osztályozás interakcióval az (i,j) cellaátlag a teljes négyzetösszeg az átlagos cella-elemszám
Kétszeres osztályozás interakcióval az első faktor magyarázta négyzetösszeg a második faktor magyarázta négyzetösszeg az interakcióval magyarázott négyzetösszeg a csoportokon belüli ingadozásokat mérő véletlen hibatag
Kétszeres osztályozás interakcióval Először a H1,2 hipotézist vizsgáljuk. Ha ez fennáll, a statisztikának F-eloszlást kell követnie. Ha ez a hányados szignifikánsan nagyobb mint a kritikus érték, az interakciót tényként könyvelhetjük el. Ilyenkor lehetőség van arra, hogy a ci,j tagokra konfidencia intervallumokat szerkeszthessünk.
Kétszeres osztályozás interakcióval Ha H1,2-t elfogadjuk, vagyis interakció sehol nincsen, akkor QA,B-ét hozzáadjuk a Qb hibataghoz, létrehozva a Qb*=QA,B+Qb hibatagot. Ilyenkor a H2 hipotézist a statisztikával ellenőrizzük.
Kétszeres osztályozás interakcióval A H1 hipotézist a próbastatisztikával az előzőekhez hasonlóan végezhetjük.
A latin négyzetek módszere A latin négyzetek módszere háromfaktoros, nem teljes kísérleti elrendezéses modell. Tegyük fel, hogy a célváltozónkkal három kategóriaváltozó van kapcsolatban, mindegyik r>1 szinttel. Ha véletlen blokkok módszerét követnénk, akkor minden szintkombinációhoz legalább egy megfigyelést kellene tennünk, azaz legalább r3 mérést kellene végeznünk. A latin négyzetek módszerével viszont már r2 adattal is tudunk dönteni. Pl. Tegyük fel, hogy a búza terméshozamát mérjük 5 különböző műtrágya adagolás mellett. A terméshozamra azonban a talaj minősége és az öntözött csapadékmennyiség is hatással van. A három faktor tehát a műtrágya-adagolás, a talajminőség és a öntözés mennyisége. Mindhárom faktorhoz 5 szintet kell kialakítani, ha a latin négyzetek módszerét alkalmazzuk. Kérdés: a műtrágya adagolás van-e hatással a terméshozamra?
A latin négyzetek módszere Definíció: Az olyan rxr-es mátrixokat, melynek minden sora és oszlopa az 1, 2, …, r számok egy permutációja, latin négyzetnek nevezünk. Két különböző 5x5-ös latin négyzet:
A latin négyzetek módszere Tekintsünk egy H=(hij) rxr-es latin négyzetet! A három faktor minden i, j=1, 2, …, r (i, j, hij) szintbeállítása mellett figyeljük meg a célváltozó értékét! Jelöljük ezeket Xijh-val! Feltesszük, hogy a Xijh változó teljesen független normális eloszlásúak és EXijh=fh+bi+cj, Xijh=. A célváltozó várható értékére mindhárom faktor additív taggal van hatással. Arról a nullhipotézisről szeretnénk dönteni, hogy a harmadik faktor szintjei nincsenek hatással a célváltozóra, azaz H0: f1=f2=…=fr
A latin négyzetek módszere az első faktor i szintjének átlaga a második faktor j szintjének átlaga a harmadik faktor h szintjének átlaga a teljes mintaátlag
A latin négyzetek módszere a teljes négyzetösszeg az első faktor magyarázta négyzetösszeg a második faktor magyarázta négyzetösszeg a harmadik faktor magyarázta négyzetösszeg a véletlen ingadozásokat kifejező négyzetösszeg
A latin négyzetek módszere Megmutatható, hogy Q=Q1+Q2+Q3+Q4. Q szabadságfoka r2-1 Q1, Q2, Q3 szabadságfoka egyaránt r-1 Q4 szabadságfoka (r-1)(r-2) Mivel r2-1=3(r-1)+(r-1)(r-2) és a Q3-ban a lineáris kifejezések várható értékei 0-ák, ha a nullhipotézis igaz, így alkalmazható a Fisher-Cohran tétel.
A latin négyzetek módszere Tehát, ha igaz a nullhipotézis, Eloszlása (r-1) és (r-1)(r-2) szabadságfokú F-eloszlást követ. Ha elvetjük a nullhipotézist, az fi-fj különbségekre konfidencia-intervallum szerkeszthető a t(r-1)(r-2) eloszlás segítségével.
A szórásanalízis elméleti háttere Definíció: Ha Xn szabadságfokú Chi-négyzet eloszlású, akkor a•X „a>0” paraméterű és n szabadságfokú Chi-négyzet-eloszlás lesz. Definíció: Legyenek X1, X2, …Xn teljesen független 0 várhatóértékű és a varianciájú normális eloszlású változók. Legyenek továbbá Li=i1•X1+i2•X2+…+ in•Xn (i=1,…,m) lineáris kifejezések. Azt mondjuk, hogy az L1, L2, …, Lm rendszer szabadságfoka m-r, ha pontosan r db olyan ij együtthatórendszer létezik, hogy i1•L1+ i2 •L2+…+ im •Lm=0 és i12+ i12+…+ i12=1 (i=1,…, r). Definíció: A Q=L12+L22+…+Lm2 négyzetösszeg szabadságfoka az L1, L2, …, Lm rendszer szabadságfokával egyezik meg.
Fisher-Cohran tételek Tétel (Addíciós tétel): Ha Q1, Q2, …, Qk teljesen független rendre n1, n2, …, nk szabadságfokú a>0 paraméterű Chi-négyzet eloszlásúváltozók, akkor a Q= Q1+ Q2+ …+ Qk szintén Chi négyzet eloszlású lesz n= n1+ n2+ …+nk szabadságfokkal és a>0 paraméterrel. Tétel (Partíciós tétel):Legyenek X1, X2, …Xn teljesen független 0 várhatóértékű és a varianciájú normális eloszlású változók, Qj=XTAjX (j=1,2,…, k) kvadratikus alakok, ahol rank(Ai)=ni.Tegyük fel, hogy n= n1+ n2+ …+nk és Q1+ Q2+ …+ Qk = X12+X22+ …+Xn2 . Akkor a Q1, Q2, …, Qk kifejezések rendre n1, n2, …, nk szabadságfokú a>0 paraméterű teljesen független Chi-négyzet eloszlású változók