310 likes | 464 Views
Informationer 4 lektioner tilbage 1-2 til indv. vejl. Opsamling Projekt 3 Regionsfordeling Antal links, etc. Regression Korrelation Igang med projekt 3. Dagens program. Opsamling: Chi-i-anden fordeling og teststørrelse. 2.
E N D
Informationer 4 lektioner tilbage 1-2 til indv. vejl. Opsamling Projekt 3 Regionsfordeling Antal links, etc. Regression Korrelation Igang med projekt 3 Dagens program
Første trin i en regressions-analyse er at identificere den afhængige og / de uafh. variabel. Y benyttes som forkortelse for ”the dependent variable” aka. criterion / outcome variable afhæng. var / responsvar. X benyttes som forkortelse for ”the independent variable” aka. predictor variable uafh. / forklarende variable Hvilke oplysninger (her til højre) er responsvariable hhv. forklarende variable? Responsvariable: Forklarende variable: Titlen i headeren er beskrivende Hjemmesiden giver alt i alt et positivt helhedsindtryk. Man kan ud fra teksten på alle links forstå, hvor de fører hen. Det er nemt at finde rundt på hjemmesiden. Teksterne på hjemmesiden er skrevet i et klart og letforståeligt sprog. Hjemmesiden indeholder det, jeg har behov for. Regressionsanalyse. Trin 1 Y: Uafhængig variabel X: Afhængig variabel
Regressionsanalyse. Trin 2 • Andet trin i en regressionsanalyse er at plotte sine data i et x-y diagram. • På x-aksen afsættes den forklarende variabel • På y-aksen afsættes responsvariablen • Eksempler på problemstillinger vedr. brugervenlighed • Har antallet af sider på et website betydning for om de besøgende ”let kan finde det, de leder efter”? • Har antallet af links i hovedmenuen betydning for, om ”det er nemt at finde rundt på hjemmesiden”? • Har lix-tallet betydning for, om brugerne oplever, at ”teksterne er skrevet i et klart og letforståeligt sprog”?
Eksempel på analyse af brugervenlighed ved spørgsmålet: ”Jeg fandt let det, jeg ledte efter”. • En stikprøve på 20 udtages blandt landets kommuner. • Webmasteren spørges, hvor mange sider der er på kommunens website. • Data kobles til scoren på spørgsmålet ”Jeg fandt let det, jeg ledte efter.” • Antal sider. Gns: 1.127. Std.afv.: 162. • Brugervenlighed. Gns: 2,7. Std.afv.: 0,7.
Regressionsanalyse. Trin 4Plot x og y mod hinanden og se om de danner en ret linje
Regressionsanalyse. Trin 5Estimer regressionsligningen • Hvis punkterne i x-y diagrammet omtrent danner en ret linje, er det meningsfuldt at (få Excel / SPSS til) tegne en ret linje igennem punkterne og finde ligningen for linjen. • Ligningen for regressionslinjen er: • ŷ er et estimat på y (responsvariablen) ud fra ligningen • a er linjens skæring med y-aksen • b er hældningen på kurven
Stå i x-y diagrammet, højreklik på punkterne og vælg: ”Add trendline”
Eksempel: Brugervenlighed og antal web-sider Man kan også gå i Excel Data Analyse og vælge regressionsanalyse.
Eksempel: Brugervenlighed og antal web-sider To fordele ved denne metode: Dels får man testet om modellens parametre er 0. Dels kan man anvende flere forklarende variable.
Eksempel: Brugervenlighed og antal web-sider • Analysen fortæller os: • Brugervenlighed = 0,0034 x antal sider – 1,15. • Hældningen på linjen er 0,0034. Skæring med y-aksen er i -1,15 • Har en kommune 1.500 sider, er et kvalificeret gæt, at kommunen scorer: 0,0034 x 1.500) - 1,15 = 3,87 – 1,15 = 2,72 på BV-spørgsmålet. • Regressionsanalysen kan bruges til at forudsige værdien af y, når man kender værdien af x. • Forudsigelsen er i sagens natur ikke 100% præcis, y varierer. • Man bør tjekke for outliers, da de kan påvirke resultatet betydeligt
Kausalitet: Årsag og virkning Figuren viser ændringen i helhedsindtryk ved en ændring i kvaliten af indhold (udviklingen over 2 år) Hvis man ønsker en stigning i y på ca. 8,5, kræver det en stigning i x på 10 (alt andet lige). Figuren viser sammenhængen mellem x og y (kvaliten af indhold og helhedsindtryk) for samme år Hvis man får oplyst x, kan man gætte (”forudsige”), hvad y er.
Fører øget brugervenlighed fx. til øget salg? Y = salg Y, responsvariabel Fælles • Antal besøgende på hjemmesiden Kommercielle organisationer • Antal besøgende, der køber (hitrate) • Størrelsen af købet (basketsize) Ikke-kommercielle organisationer • Brugerne betjener sig selv (færre pers. og tlf. henvendelser) • Fremme af organisationens formål X = brugervenlighed
Kausalitet: Årsag og virkning Betingelser for kausalitet Rækkefølge (X → Y, ikke X ← Y) Association mellem X og Y. Udtrykkes operationelt f.eks. ved regression eller en korrelationskoefficient, f.eks. r. Positive r værdier tyder på en positive association (sammenhæng) Negative r værdier tyder på en negative association r værdier tæt på +1 eller -1 tyder på en stærk lineær association r værdier tæt på 0 tyder på en svag association Udelukkelse af andre forklaringer X: Salg af is, Y: Drukne ulykker Hypotese: X → Y Z: Årstid Mere plausibel hypotese: X ← Z → Y 4 P’er
Populations regressionsligning • Populationens regressionsligning beskriver relationen i populationen mellem y’s gennemsnit og x. Ligningen er: • α er populationsligningens skæring med y-aksen. • β er is populationsligningens hældning. • α og β er parametere. • I praksis estimerer vi populationens regressionsligning på basis af data fra en stikprøve. Stikprøvens regressionsligning er: ŷ = a + bx
Multipel regression • Har antallet af links i hovedmenuen betydning for, om ”det er nemt at finde rundt på hjemme-siden”? • y = Det er nemt at finde rundt på hjemmesiden • x1 = Antal hovedmenupunkter, f.eks. 5 som på www.kk.dk • x2 = Antal links pr. hoved-menupunkt, f.eks. 12 i punktet ”Borger”. • x3 = Antal links på forsiden • Populationsmodel: • Stikprøvemodel:
Residualer • Ligningen, ŷ = a + bx, kaldes en regressionsmodel. Den benyttes til at forudsige gennemsnittet af y-værdierne ved de forskellige x-værdier. • Forskellen, (y – ŷ), mellem en faktisk observeret værdi og en forudsigelse er en fejl (error) i forudsigelsen. Fejlen kaldes et residual. • Et residual er den lodrette afstand mellem observationen og regressionslinjen. • Hver observation har et residual. Hvornår er det 0?
Hvor god er modellen til at forudsige y? • Consider the prediction error: The difference between the observed and predicted values of y (the residual) • Using the regression line to make a prediction, each error is: • Using only the sample mean, , to make a prediction, each error is:
Hvor god er modellen til at forudsige y? • When we predict y using (that is, ignoring x), the error summary equals: • This is called the total sum of squares
Hvor god er modellen til at forudsige y? • When we predict y using x with the regression equation, the error summary is: • This is called the residual sum of squares
Hvor god er modellen til at forudsige y? • When a strong linear association exists, the regression equation predictions tend to be much better than the predictions using • We measure the proportional reduction in error and call it, r2
Hvor god er modellen til at forudsige y? • We use the notation r2 for this measure because it equals the square of the correlation r
Hvor god er modellen til at forudsige y? • Properties: • r2 falls between 0 and 1 • r2=1 when . This happens only when all the data points fall exactly on the regression line • r2=0 when . This happens when the slope b=0, in which case each • The closer r2 is to 1, the stronger the linear association: The more effective the regression equation is compared to in predicting y
Learning Objective 3:Correlation r and Its Square r2 • Both r and r2 describe the strength of association • ‘r’ falls between -1 and +1 • It represents the slope of the regression line when x and y have been standardized • ‘r2’ fallsbetween 0 and 1 • It summarizes the reduction in sum of squared errors in predicting y using the regression line instead of using
Model • En (statistisk) model er ikke eksakt beskrivelse af virkeligheden. • Modellen er ”kun” en approksimation • Den er praktisk nyttig, hvis den estimerer relationen mellem x og y relativt godt. • Sort: Virkeligheden. Rød en estimeret regressionsligning.
Eksempel: Korrelation • En stikprøve på 18 udtages blandt studerende på ITU. • De bedes vurdere brugervenligheden af en app på fire parametre: • Vejledningen • Menustrukturen • Det visuelle udtryk • Brugervenligheden, alt i alt
Eksempel: Korrelation I Excels Data Analyse vælger man Korrelation.
Korrelation • Korrelationen, som forkortes med bogstavet r, beskriver den linære association mellem x og y. • Korrelationen ‘r’ har samme fortegn, +/-, som hældningen, b, i regressionsligningen. • Korrelationen ‘r’ er et tal i intervallet mellem -1 og +1, begge tal inklusiv. • Jo større absolut værdi af r, des stærkere er den lineære association. • Man kan ikke bruge hældningen, b, til at beskrive styrken af associationen mellem x og y, fordi hældningens nummeriske værdi afhænger af den enhed, der måles i. • Korrelationen er en standardiseret version af hældningen. • Korrelationen afhænger ikke af den enhed, der måles i.