270 likes | 800 Views
ANALIZA VARIJANSE. .055. Testiranje hipoteza:srednje vrednosti i proporcije Zadatak 8.
E N D
.055 Testiranje hipoteza:srednje vrednosti i proporcijeZadatak 8 • Sproveden je eksperiment da se odredi koju od tri reklame treba koristiti kako bi se na tržište uveo novi personalni računar. Ukupno 120 ljudi koji su razmišljali o kupovini personalnog računara je slučajnim postupkom podeljeno u tri grupe od po 40 ljudi. Svakoj grupi je pokazana drugačija reklama i svakoj osobi je postavljeno pitanje o njihovoj sklonosti da kupe reklamirani brend. Korišćena je skala od 1(verovatno ne ) do 7 (verovatno da). Rezultati su pokazali da je prosečna sklonost kupovini iznosila: Reklama A: 5,5 Reklana B: 5,8 Reklama C: 5,2 Šta biste vi preporučili? Koju statističku tehniku biste koristili? Primenili smo analizu varijanse (uslovi su ispunjeni jer je veličina uzoraka jendaka) i dobili sledeću tabelu:
Testiranje hipoteza:srednje vrednosti i proporcij Zadatak 8 • Kako glasi odgovarajuća nulta hipoteza? A alternativna hipoteza? • H0:populacijske sredine su jednake odnosno ne postoji razlika između reklama. • Ha:populacijske sredine nisu jednake odnosno postoji razlika bar između dve reklame, odnosno bar dve reklame imaju različitu efektivnost. • Koliki je F-odnos? • F-odnos je 6/2=3 • Da li je rezultat značajan na nivou značajnosti od 0,10? Anivou 0,05? A nivou 0,01? • Da. Ne. Ne. • Da li postoje razlike između uticaja ove tri reklame? • Moguće. Postoje dokazi da razlike (na nivou značajnosti od 0,10) postoje ali ne možemo biti sigurni.
Deskriptivne mere • Veličina uzoraka nije jednaka – proveravamo homogenost varijansi odnosno testiramo H0:σ1=σ2=σ3 nasuprot H1: varijanse nisu jednake.
Pošto je dokazano da su varijanse homogene sprovodimo ANOVA test • Pošto smo dokazali da postoji statistički značajna razlika između grupa želimo da vidimo između kojih grupa postoji razlika
Ako je 1-apsolutno se ne slažem 7-apsolutno se slažem Kupci koji imaju dece rađe kupuju nove proizvode (jer im je prosečan stav viši) nego kupci koji nemaju dece.
Korelaciona i regresiona analiza • Slučajan uzorak od osam marketinških izveštaja pruža podatke o godišnjoj prodaji (u hiljadama) i cenama (u dolarima), kao što je prikazano u tabeli. • Odrediti uzoračku korelaciju između prodaje i cene • Proveriti na nivou značajnosti od 5% da je populacijski koeficijent korelacije jednak nuli
Korelaciona i regresiona analiza • Testiramo nultu hipotezu: H o: ρ =0 H a: ρ0 Za nivo značajnosti od 5% Za testiranje ove hipoteze koristimo t test sa n-2 stepeni slobode tizrač = 1,1 6 tkritičnoza = 0, 05 i df = 6 = ± 2,4 5 Pošto je test dvostrani iz tablice čitamo t vrednost za nivo značajnosti od 0,05/2=0,025 Pošto je, t izrač < t kritično, kažemo da nemamo dovoljno dokaza da odbacimo nultu hipotezu. Nemamo dovoljno dokaza da potvrdimo povezanost između prodaje i cene.
Korelaciona i regresiona analiza Napomena:ako je moguće uvek prvo testirati hipotezu H o: ρ=0 a tek onda komentarisati koeficijent korelacije.
Korelaciona i regresiona analiza • Ako ocenjeni regresioni model Ý=b0 + b1X, ima r2 od 0,64, onda bismo mogli reći, (Odaberite jedan tačan odgovor): • 64% varijacija zavisne varijable objašnjen je nezavisnom varijablom. • Uzoračka korelacija između Y i X bila je 0,80. • 64% tačaka leži na regresionoj pravoj • Samo a i b. • Nijedno od gore pomenutih
Korelaciona i regresiona analiza • Učinjen je pokušaj da se oceni očekivana stopa prinosa na osnovu kamatne stope na državne zapise na španskom tržištu. Za uzorak od 62 kvartalnih opservacija, ocenjena je linearna regresija, Ŷ = 0,00027 + 0,7916X Gde je Ŷ = stvarna promena očekivane stope prinosa X = promena u referentnoj kamatnoj stopi koja je predviđena stopom prinosa Koeficijent determinacije je bio 0,1, a ocenjena standardna devijacija ocene nagiba populacijske regresione prave iznosi 0,27. • Dajte tumačenje nagiba ocenjene regresione prave. • Dajte tumačenje koeficijenta determinacije. • Testirati nultu hipotezu da je nagib populacijske regresione prave jednak nuli nasuprot alternativnoj hipotezi da je prava vrednost nagiba pozitivna i dati tumačenje dobijenog rezultata. • Testirati nultu hipotezu da je nagib populacijske regresione prave jednak jedinici i dati tumačenje dobijenog rezultata.
Korelaciona i regresiona analiza • Nagib pokazuje da za jediničnu promenu referentne kamatne stope koja je predviđena stopom prinosa, doći će do promene od 0,7916 u stvarnoj promeni očekivane stope prinosa. • Koeficijent determinacije pokazuje da je 10 procenata od ukupne varijacije Y je objašnjeno sa X. • Ho : 1 = 0 Ha : 1 > 0 za testiranje koristimo t test sa n-2 stepeni slobode t=(b1-ß1) / sb1 tizrač = 2.93 tkritično = 1.671(za =0.05) test je jednosmeran Stoga, kažemo da imamo dovoljno dokaza da odbacimo nultu hipotezu i zaključimo da je 1, pozitivno i da postoji efekat X na Y. • Ho:1 = 1 Ha:1 1tizrač= -0.77 tkritično= ± 2 (za = 0.05) test je dvostrani Nemamo dovoljno dokaza da odbacimo nultu hipotezu i zaključujemo da je 1jednako jedinici.
Korelaciona i regresiona analiza • Analitičar koji radi za naftnu kompaniju razvio je formalni model linearne regresije za ocenu prodaje za svojih 42 benzinskih pumpi. Ocenjeni model je Ŷ=b0 + b1X1 Gde je Ŷ= prosečna mesečna prodaja u galonima X= površina stanice u kvadratnim stopama X1=X-Xbar *=(razlika u odnosu na srednju vrednost) Neki empirijski rezultati su bili:
Korelaciona i regresiona analiza • Šta znači r2 ? Znači da 30% varijacija Y je objašnjeno X-om. Takođe pokazuje da je korelacija između X1 i Y kvadratni koren iz 0,30 • Interpretirati ocene parametara b0 i b1. b1 je ocena promene Y za jediničnu promenu X1. b0 je ocena Y kada je X jednako nuli (ako pretpostavke o linearnosti važe i za X=0). • Da li je varijabla X1 značajna? Na kom nivou? H0 : β1=0, H1 : β1≠0; Test je dvostrani pa je t za 0,05 i 40df =±1,684 - Da, na nivou od 0,1; t za 0,025 i 40df = ± 2,021 - Ne, na nivou od 0,05 t za 0,005 i 40df = ± 2,704 - Ne, na nivou od 0,01 • Predložena je nova stanica sa 30 000 kvadratnih stopa. Koliku prodaju biste predvideli? Kakve pretpostavke stoje iza ocene. 72 000 ali pod pretpostavkom da jednačina važi za ekstremne vrednosti. U podacima na osnovu kojih smo ocenili model nema takvih podataka.
Korelaciona i regresiona analiza • Vezano za prethodno pitanje. Ako se dve dodatne varijable dodaju modelu u prethodnom pitanju, onda Ý=b0 + b1X1 + b2X2 + b3X3 Gde je X2 = prosečni dnevni tok saobraćaja, automobila X3 = broj konkurentskih stanica Empirijski rezultati su dati u sledećoj tabeli: 12
Korelaciona i regresiona analiza • Koja od nezavisnih varijabli se čini da ima najveći uticaj na zavisnu varijablu? Najveći uticaj odnosno značajnost ima promenljiva X1. Značajnost određuje t vrednost a ne veličina koeficijenta uz datu promenljivu • Da li su X1, X2, i X3 zančajni na nivou 0,05? Tablična t vrednost je 2,021 pa možemo reći da nemamo dovoljno dokaza da odbacimo nultu hipotezu da su koeficijenti jednaki nuli. Iako smo doneli ovakav zaključak vidimo da se r2 povećao. Šta to znači? Multikolinearnost. Ona drži t vrednosti na niskom nivou. U suštini ove promenljive jesu značajne ali se ne zna koje jer su korelisane. Kada bi nezavisne varijable bile statistički nezavisne, onda bi R2 bio jednak zbiru bivarijantnih r2 svake nezavisne promenljive- • Interpretirati b2. Ovaj parametar ukazuje da, ako se varijabla X2 promeni za jednu jedinicu, očekivana promena varijable Y je b2 jedinica pod uslovom da su ostale nezavisne promenljive konstantne. Naziva se koeficijent parcijalne regresije.
Korelaciona i regresiona analiza • Ocenite obim prodaje uzimajući u obzir sledeće inpute: x1 = 20 000 x2 = 2 500 x3 = 0 Kako možete da kvalifikujete ovu ocenu? Koje pretpostavke modela mogu biti narušene? Obim prodaj bi bio 100 000 iako su vrednosti nezavisne promenljive u okviru datih granica. Jedan od mogućih razloga zašto Y nije u okviru svojih granica jeste promena uslova u okruženju. Narovno Y neće biti tačno 100 000. Prvo zbog toga što ovaj model ne objašnjava 55% varijabiliteta Y, a drugo postoji mogućnost greške prilikom ocenjivanja koeficijenata. • Jedan viši menadžer tvrdi da vaš model ne valja i kao dokaz navodi stanicu u Krozbiju, Severna Dakota, gde je x1 = 5 000 x2 = 2 000 x3 = 0 Ipak, prodaja dostiže 50 000, što je mnogo više od one koja se dobija ocenom preko modela. Kako ćete odgovoriti na ovaj napad? Možda ova stanica nije kao i ostale koje su birane u uzorak. Ovo je oblast gde postoje farme i ljudi dolaze sa velike udaljenosti za gorivo. Model ne uključuje promenljivu koja opisuje ovakve uslove a moguće je da se formira jedna.
Korelaciona i regresiona analiza Beta koeficijenti se mogu interpretirati i kao obični regresioni koeficijenti kada su sve promenljive izražene u standardizivanim vrednostima. Ovi koeficijenti, za razliku od običnih regresionih koeficijenata, ne zavise od jedinice merenja promenljivih, pa u tom smislu pružaju bolje mogućnosti poređenja značaja pojedinih nezavisnih promenljivih u predviđanju zavisne promenljive. Na osnovu vrednosti regresionih koeficijenat možemo zaključiti da od posmatrane tri nezavisne promenljive najveći značaj ima nezavisna promenljiva sveža hrana, koju sledi atraktivan prostor, a zatim razumne cene.
Korelaciona i regresiona analiza U tabeli se testira hipoteza H0: R2=0 za svaki od tri modela koji su predstavljeni na prethodnom slajdu. Ako pogledamo signifikantnost vidimo da je R2 značajno za svaki model.
Korelaciona i regresiona analiza • Pošto imamo slučaj da su regresioni koeficijent i koeficijenti determinacije za sva tri modela značajni, postavlja se pitanje koji model koristiti. Kako bismo izabrali model treba testirati razliku u koeficijentima determinacije odnosno H0: R22-R21=0 i H0: R23-R22=0 • Ako pogledamo odgovarajuće signifikantnosti (realizovane p-vrednosti) vidimo da u oba slučaja imamo dovoljno dokaza da odbacimo nultu hipotezu i da zaključimo da je razlika koeficjenata determinacije statistički značajna odnosno da je širi model značajno više objašnjava varijabilitet nezavistne varijable nego uži model. Odnosno treba koristiti širi model, odnosno treći model u ovom zadatku. H0: R22-R21=0 H0: R23-R22=0