320 likes | 903 Views
Diskriminaciona i kanonička analiza. Diskriminaciona i kanonička analiza. Imamo podatke koje smo prikupili od različitih preduzeća o broju zaposlenih, prihodu firme, želji za izvozom, zainteresovanost za vladinu pomoć....
E N D
Diskriminaciona i kanonička analiza • Imamo podatke koje smo prikupili od različitih preduzeća o broju zaposlenih, prihodu firme, želji za izvozom, zainteresovanost za vladinu pomoć.... • Ako nas zanima da li se preduzeća koja imaju veliku želju da izvoze značajno razlikuju od preduzeća koja imaju malu želju da izvezu (deskripcija). • Ako želimo da formiramo pravilo koje će nam pomoći da na osnovu prihoda firme i ostalih nezavisnih promenljivih koje su date u sledećoj tabeli odredimo da li ta firma ima veliku ili malu želju da izveze svoj proizvod (da predvidimo kojoj grupi pripada ). • Ako nas zanima da li to pravilo vrši ispravnu klasifikaciju preduzeća • Ako nas zanima koja nezavisna promenljiva najviše doprinosi da firma ima malu ili veliku želju da izveze. • Koju ćemo tehniku koristiti?
Diskriminaciona i kanonička analiza • Diskriminacionu analizu • Zašto? • Imamo jednu nemetričku zavisnu promenljivu i više metričkih nezavisnih promenljivih. • Imamo unapred definisane grupe. Velika želja za izvozom i mala želja za izvozom. • Želimo da na osnovu podataka o zavisnoj i nezavisnim promenljivama formiramo pravilo na osnovu kojeg ćemo znati kojoj (unapred određenoj) grupi pripada (naravno i na osnovu informacija o nezavisnim promenljivama).
Sličnosti i razlike između diskriminacione analize i drugih analiza
Diskriminaciona i kanonička analiza Sprovođenje diskriminacione analize treba da se vrši u nekoliko koraka: • Formirati grupe • Oceniti diskriminacionu funkciju • Odrediti značajnost funkcije i varijabli • Interpretirati diskriminacionu funkciju • Izvesti klasifikaciju i validaciju
2. Ocena diskriminacione funkcije • Rezultat diskriminacione analize je diskriminaciona funkcija koja ima sledeći oblik: Gde su: Z –diskriminacioni „skor“(rezultat); bi–diskriminacioni koeficijent uz i-tu nezavisnu promenljivu; Xi–i-ta nezavisna promenljiva (prediktor).
2. Ocena diskriminacione funkcije • Ako su ispunjene pretpostavke primene diskriminacione analize možemo dalje nastaviti sa primenom i analizom. • Koliko diskriminacionih funkcija treba da imamo u ovom našem primeru? • Jednu • Zašto? • Broj diskriminacionih funkcija je min(m-1,p). Gde je m broj grupa m=2 a p broj nezavisnih promenljivih p=4. Znači manji broj od 1 i 4 je 1. • Pošto je diskriminaciona funkcija slična regresionoj sledeći korak je ocenjivanje diskriminacionih koeficijenata.
2. Ocena diskriminacione funkcije • Imamo tri vrste koeficijenata: • Obični diskriminacioni koeficijenti – služe za računanje diskriminacionog skora na osnovu kojeg vršimo dodeljivanje grupi i komentarišu se kao i regresioni koeficijenti u regresiji. • Standardizovani diskriminacioni koeficijenti – kao i beta koeficijenti kod regresije pokazuju značajnost nezavisnih promenljivih (veći koeficijent znači veći doprinos nezavisne promenljive diskriminaciji između grupa) • Diskriminaciona opterećenja – ona predstavljaju obične korelacione koeficijente između nezavisne promenljive i cele diskriminacione jednačine odnosno diskriminacionih skorova.
3. Određivnje značajnost funkcije i varijabli • Kao i kod regresione analize i ovde moramo da utvrdimo značajnost diskriminacione funkcije. • Značajnost se testira testiranjem nulte hipoteze o jednakosti grupnih sredina (centroida) H0: μA=μB. Ako se ona odbaci znači da su centroidi statistički različiti odnosno da stvarno postoji razlika izmeđ grupa koje su unapred određene. • Test koji se koristi za testiranje ovih hipoteza zove se Wilksovoλ i računa se kao odnos unutargrupne varijanse i ukupne varijanse. Što je veće wilksovo λ to su centroidi sličniji odnosno funkcija ne diskriminiše dobro opservacije (ne odbacuje se nulta hipoteza) • Ova statistika ima F raspored
3. Određivnje značajnost funkcije i varijabli • U našem primeru wilksovo lambda iznosi 0,766 a realizovana značajnost 0,004. • Šta možemo zaključiti? • Da imamo dovoljno dokaza da odbacimo nultu hipotezu. Centroidi se razlikuju odnosno diskriminacija između grupa je značajna. • Nakon ovakvog zaključka možemo da krenemo sa interpretacijom rezultata. Standardizovani Kanonička korelacija=0,483 diskriminacioni koeficijenti: Diskriminaciona opterećenja X1–0,825X1–0,585 X2 -0,196X2–0,249 X3-0,824X3–0,541 X4. –0,156 X4–0,358
4. Interpretacija diskriminacione funkcije • Šta nam pokazuje kanonička korelacija? • U ovom slučaj kanonička korelacija iznosi 0,483 a predstavlja isto što i višestruki koeficijent R u regresionoj analizi. • Slično, kanonička korelacija na kvadrat je isto što i koeficijent determinacije kod regresije. • Tako da možemo reći da je 23,3% varijanse zavisne promenljive –“želja za izvozom”objašnjena modelom. • Šta nam pokazuju standardizovani diskriminacioni koeficijenti?
4. Interpretacija diskriminacione funkcije i klasifikacija (5) • Pokazuju da nezavisne promenljive X1 i X3 odnosno broj zaposlenih i godine funkcionisanja fime na domaćem tržištu su najvažnije diskriminacione promenljive. U najvećoj meri one određuju kojoj grupi pripada firma. • Šta pokazuju diskriminaciona opterećenja? • Na primer, pokazuje da 58,5 posto varijanse nezavisna promenljiva X1 deli sa diskriminacionom funkcijom. • Kako glasi pravilo diskriminacije ako centroid za grupu velika želja za izvozom iznosi 0,713 a centroid druge grupe iznosi (-0,413) a veličine grupa 22 i 38 respektivno? • Tačka preseka je Z=(nAZbarB + nBZbarA)/ nA + nB =0,3. Znači ako je diskriminacioni skor novog preduzeća manji od 0,3 preduzeće ima malu želju za izvozom i suprotno.
5. Validacija • Na osnovu podataka iz Klasifikacione matrice izračunati proporciju pogodaka Proporcija pogodaka je (16+29)/60=75%
Diskriminaciona analiza • Jedan istraživač želi da sprovede višestruku diskriminacionu analizu sa tri grupe i zainteresovan je za korišćenje informacija za tri varijable koje je prikupio tokom istraživanja. Koliko diskriminacionih funkcija je moguće konstruisati? Broj grupa (m) iznosi 3 a broj promenljivih (p) je takođe 3. Broj diskriminacionih funkcija se odredjuje kao min (m-1),(p) odnosno manji od ova dva broja. Znači min(2),(3) odnosno moguće je konstruisati 2 diskriminacione funkcije ali to ne znači da moramo obe da iskoristimo.
Diskriminaciona analiza • Na osnovu klasifikacione matrice odrediti da li diskriminaciona analiza daje poboljšane rezultate klasifikovanja u odnosu na kriterijum maksimalne šanse i na kriterijum proporcionalne šanse. • Kriterijum maksimalne šanse 22/60*100=36,6% • Kriterijum proporcionalne šanse ((22/60)2+ (21/60)2+ (17/60)2)*100= =33,7% • Proporcija pogotka diskriminacione funkcije (15+14+8)/60*100= =61,7% • Diskriminaciona analiza daje poboljšanje rezultata klasifikovanja od 68,5% (61,7-36,6)/36,6
Kanonička korelacija • Ako kod prvog primera (prva tabela na prezentaciji) želimo da utvrdimo korelaciju između zavisnih i nezavisnih promenljivih koju statističku analizu treba da primenimo? • Kanoničku korelacionu analizu. • Zašto? • Zato što su promenljive na intervalnoj skali a želimo da utvrdimo povezanost dve grupe promenljivih i to baš korelaciju nezavisnih promenljivih sa zavisnim promenljivama. • Kanonička korelacija je proširenje višestrukog regresionog modela.
Kanonička korelacija • Koliko kanoničkih funkcija imamo u ovom primeru? • Broj kanoničkih funkcija je m= min (p,q) gde je p broj zavisnih promenljivih a q broj nezavisnih promenljivih. Znači manji broj od 2 i 4 je 2. • Šta pokazuju sledeće tabele? Greška u knjizi. • Pokazuju kako izgledaju funkcije za kriterijumske i varijable prediktora. • V1=0,774Y2-0.044Y1 V2=-0,0662Y2+0,8723Y1
Kanonička korelacija • 1 - kanonička korelacija između V1 i U1. • 2- kanonička korelacija između V2 i U2. • Kanoničke korelacije za prvi par i drugi par iznose 0,85 i 0,57. • Pokazuje da su kanoničke korelacije, odnosno ove dve funkcije 1 i 2, značajne na nivou od 1%. • Količina varijanse koja je zajednička za linearne kombinacije prve i druge funkcije odnosno procenat varijanse koji dele V1 i U1 je 72,3% a V2 i U2 je 32,63%. Test H0: kanonička korelacija je nula
Kanonička korelacija • Komentarisati standardizovane kanoničke koeficijente i kanonička opterećenja koja su data u sledećim tabelama • Standardizovani kanonički koeficijenti pokazuju relativnu važnost/značajnost varijabli. • Vrednosti koje su zaokružene pokazuju koje promenljive više utiču na vrednost linearne jednačine. • U jednačini V1 zavisna promenljiva Y2 mnogo više utiče na V1 nego Y1..
Kanonička korelacija • Iako opšte gledano standardizovani kanonički koeficijenti i kanonička opterećenja (loadings) treba da pokažu istu stvar u teoriji se preporučuje da se koriste kanonička opterećenja. • Prva funkcija V1 je predstavljena promenljivom Y2 (0,99), a druga funkcija V2 je predstavljena promenljivom Y1 (0,99)
Kanonička korelacija • Kriterijumska varijabla Y2 proizvodi najveću korelaciju sa prvom linearnom kombinacijom varijabli prediktora, a kriterijumska varijabla Y1 ima veću korelaciju sa drugom linearnom kombinacijom varijabli prediktora. • Sve ovo do sada navedeno pokazuje nam da su potrebni rezultati obe funkcije za objašnjenje varijacija u ove dve kriterijumske (zavisne) varijable.
Kanonička analiza • Kako je kanonička analiza različita od regresione? • Kada istraživač ima više varijabli kriterijuma (zavisne varijable) i više prediktor varijabli (nezavisne varijable), odgovarajuća statistička tehnika je kanonička korelacija. Ona je nastavak višestruke regresije gde se ispituje veza između jedne zavisne promenljive i više nezavisnih.