190 likes | 339 Views
Dagens program. Information Alle projekter er godkendt Sumkurve Opsamling T-test Variansanalyse (one-way) ANOVA Intro til projekt 3 (Excels LOPSLAG og pivottabel) Forsvar / kritik samt i gang med projekt 3. Eksempel på en problemstiling.
E N D
Dagens program Information Alle projekter er godkendt Sumkurve Opsamling T-test Variansanalyse (one-way) ANOVA Intro til projekt 3 (Excels LOPSLAG og pivottabel) Forsvar / kritik samt i gang med projekt 3
Eksempel på en problemstiling • En virksomhed vil øge trafikken på sin hjemmeside v.hj.a. AdWords. • Marketingafdelingen har testet 3 kampanger i løbet af 4 uger: • A: Samme type som konkurrenterne • B: Teknisk orienterede annoncer • C: ”Fjollede” annoncer (med rim) • Antallet af klik pr. annoncetype er registreret. • Hvad er den afhængige og uafhængige variabel? • Hvilke slags variable er der tale om?
Variansanalyse • Andre eksempler på problemstillinger • Er brugertilfredsheden på de tre højest placerede hjemmesider i Bedst på Net forskellige? • Er biografforbruget før, under og efter medlemsskab af Biografklub Danmark forskelligt? • I variansanalysen sammenligner vi gennemsnit fra flere grupper. • g bruges som betegnelse for antallet af grupper. • Hver gruppe repræsenterer en population. • Responsvariablens g gns. repræsenterer de g middel-værdier i populationerne, som skrives µ1, µ2, … µg
Variansanalysens hypoteser • Nul-hypotesen er, at populationernes middelværdier er ens: • H0: µ1 = µ2 = …= µg • Alternativhypotesen er: • Ha: Mindst to af populationernes middel-værdier er forskellige.
Variansanalysens forudsætninger • Populationsfordelingerne af de g responsvariable • er normalfordelte og • har samme standardafvigelse. • Randomisering • I stikprøvebaserede undersøgelser (surveys) stammer data fra g uafhængige stikprøver (fra de g populationer). • I et eksperiment er forsøgsenhederne allokeret tilfældigt (randomly) på de g grupper.
Datagrundlag for de 3 kampanger • Gns. fra de 3 stik-prøver repræsenterer gns. fra de tre popu-lationer: • µ1 = gns. for A • µ2 = gns. for B • µ3 = gns. for C • Hvad er nul- og alternativhypotesen?
Har populationerne samme μ? • Herunder ses datasættet fra forrige slide (nederst) og et nyt sæt. • I begge datasæt er gns. 100 • Hvad er forskellen på de to datasæt? • I hvilket datasæt er beviserne stærkest mod H0: μ1 = μ2 = μ3?
ANOVAs teststørrelse F • ANOVAs teststørrelse: • Jo større variationen er mellem grupper (between groups) i fht. variationen indenfor grupper (within groups), des større bliver teststørrelsen. • Teststørrelsen følger en F-fordeling • Jo større F er, des stærkere er beviserne mod H0
ANOVA er en signifikanstest Trin 4 og 5 Omregning af Ftil en P-værdi Konklusion. H0 afvises, da P < 5 %.Middelværdierne måformodes at være forskellige: De 3 kam-panger giver forskelligt antal klik pr. uge.
ANOVA er en signifikanstest Fremgangsmåde – de fem trin Forudsætninger Randomiserede stikprøver (simpel tilfældig udvælgelse) Normalfordelte populationer med ens standardafvigelser Hypoteseformulering H0: µ1 = µ2 = …= µg Ha: min. to af middelværdierne er forskellige Beregning af teststørrelsen, F Omregning af teststørrelsen til en P-værdi Konklusion
Data og ANOVA i Excel • I Excel vælges Data Analyse (efter installation af Analysis ToolPak) og derefter ANOVA (single factor). • Dataområdet udpeges og der klikkes OK
Beregning af BETWEEN SS Det samlede gns. er 100. Estimatet på BETWEEN SS beregnes som gruppegns. afvigelser fra det samlede gns.
Beregning af WITHIN SS Estimatet på WITHIN SS beregnes som den vægtede sum af gruppernes varianser.s2 = variansen (= std.afv.2) n-1 = df = frihedsgrader
Den samlede variation, SS Gns. af alle obs. er 100
ANOVA på de reviderede data (øverste punkter i figuren herunder)
Om ANOVA • OK med mindre afvigelser på den første af testens forudsætninger (normalfordelte responsvariable med samme standardafvigelse) • Testen går galt, hvis • stikprøvefordelingerne er meget skæve og stikprøverne er små. Tjek om der er outliers (begynd med boxplot). • der er store forskelle på standardafvigelserne (er tilfældet hvis den største std.afv. er dobbelt så stor som den mindste). • Når der mange grupper, giver F-testen bedre kontrol over type 1 fejlen end et stort antal parvise t-test. • F-testen fortæller ikke, hvilke grupper der er forskellige
Om ANOVA • One-way ANOVA har: • 1 kvantitativ responsvariabel • 1 kategoriseret forklarende variabel • Two-way ANOVA har: • 1 kvantitativ responsvariabel • 2 kategoriserede forklarende variable