1.27k likes | 1.41k Views
Dette har skjett i tidigere episode:. Regression Anova Hypotestestning Statistica, Excel. Dagens Brunch:. Alla test hänger ihop Vilket test ska man välja? Tolka grafer! Flera förklaringsvariabler på en gång Bygga statistiska modeller Jämföra statistiska modeller (= testa)
E N D
Dette har skjett i tidigere episode: • Regression • Anova • Hypotestestning • Statistica, Excel
Dagens Brunch: • Alla test hänger ihop • Vilket test ska man välja? • Tolka grafer! • Flera förklaringsvariabler på en gång • Bygga statistiska modeller • Jämföra statistiska modeller (= testa) • R och R commander
Repetition av variabler • Respons (y) vs. Förklaring (x) • Kontinuerliga variabler • Kategoriska variabler • Jämföra statistiska modeller (= testa)
1.0 Vårfryle 0.8 0.6 Sannolikhet att välja vårfryle 0.4 0.2 Knippfryle 0.0 4.5 5.5 6.5 7.5 Myrstorlek - 16 14 - Fröstorlek 12 10 8 6 Pissmyror Svartmyror Kategorisk Responsvariabel Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel
Logistisk stripchart Barplot (Stapeldiagram) Kategorisk Responsvariabel Scatterplot (Punktdiagram) Stripchart även: barplot, plot of means, boxplots Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel
Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Kategorisk Responsvariabel Regression även: korrelation Anova även: t-test Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel
En kontinuerlig responsvariabel& en eller flera förklaringsvariabler Generell linjär modell +
En binär responsvariabel(Antingen... Eller...) & en eller flera förklaringsvariabler Generaliserad linjär modell +
Generella linjära modeller med: Flera kontinuerliga förklaringarbrukar kallas multipel regression Flera kategoriska förklaringarbrukar kallas flervägs-ANOVA En kontinuerlig förklaring och en (eller ibland flera) kategoriska förklaringar brukar kallas ANCOVA.
Jämföra modeller: Ett enkelt exempel Lavdiameter i cm Trädomkrets i dm
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Lavdiameter i cm Trädomkrets i dm
n <- 6 medel.x <- 3 sd.x <- 1 medel.y <- 3 sd.y <- 1 R2 <- 0 # OBS! NOLL! library(MASS) kovarians<- matrix(c(sd.y^2,rep(sqrt(R2)*sd.x*sd.y,2),sd.x^2),2,2) y.och.x <- mvrnorm(n=n,mu=c(medel.y,medel.x),Sigma=kovarians) y <- y.och.x[,1] x <- y.och.x[,2] plot(x,y,pch=19,cex=3,ylim=c(0,5),xlim=c(0,5)) abline(lm(y~x), lwd=5, col="red")
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Lavdiameter i cm Trädomkrets i dm
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Lavdiameter i cm Svar: p = 0,028 Trädomkrets i dm
Vad säger p-värdet? • Hur stor är risken att få detta (eller ännu osannolikare) resultat av en slump. (Fast det egentligen inte finns någon skillnad.) • Om p-värdet är < 0,05 • Det är sjukt osannolikt att resultatet bara beror på slump. • Om p-värdet är > 0,05 • Det kan inte uteslutas att resultatet bara beror på slumpen. • MEN!! Vi vet inte att det bara beror på slumpen. • Det kan finnas en riktig skillnad. Även om vi inte kunde ”bevisa” det.
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Alltså: Är den röda linjen signifikant bättre än den blå (bara medel)? Lavdiameter i cm mx <- y ~ x vs m0 <- y ~ 1 Trädomkrets i dm
Alltså: Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Är den röda linjen signifikant bättre än den blå? Det vill säga: Passar den röda linjen siginifikant bättre? Minskar bruset signifikant mycket? Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Lavdiameter i cm Trädomkrets i dm
Residualerna… …är det brus som inte förklaras av förklaringsvariabeln Bruset kan bestå av mätfel, faktorer som vi inte kollat eller ”ren slump” I en regression är residualerna avståndet från datapunkterna till regressionslinjen I en Anova är residualerna avståndet från datapunkterna till gruppens medelvärde Ju större brus desto svårare att se signalen (av förklaringsvariabeln) högre p-värde
Förra sidan igen: Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Samma sak: Vad är chansen att av en slump få ett stickprov där modellen mx <- y ~ x ger en så här stor minskning i brus jämfört med modellen m0 <- y ~ 1 Lavdiameter i cm Trädomkrets i dm
Förra sidan igen: Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Samma sak: Vad är chansen att av en slump få ett stickprov där modellen mx <- y ~ x ger en så här stor minskning i brus jämfört med modellen m0 <- y ~ 1 Svar: p = 0,028
Artantal på 10 lokaler av olika storlek, 5 i Halland och 5 i Uppland.
5 tänkbara förklaringsmodeller • Artantalet beror bara på medelvärdet. • Artantalet beror på vilket landskap lokalen ligger i. • Artantalet beror på hur stor area lokalen har. • Artantalet beror både på i vilket landskap lokalen ligger OCH hur stor lokalen är. • Artantalet beror på lokalens storlek, men förhållandet mellan storlek och artantal är olika i de olika landskapen.
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m2 <- artantal ~ area m1 <- artantal ~ landskap m0 <- artantal ~ 1 # förklaras bara av totalmedlet
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area p = 0,65
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area p = 0,65
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area p = 0,65
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area p = 0,65 p = 0,0074
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area p = 0,65 p = 0,0074 p = 0,067
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area p = 0,65 p = 0,0074 p = 0,067
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067 p = 0,017
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067 p = 0,017