220 likes | 415 Views
Dagens program. Forsvar og kritik Teori Regression Korrelation Øvelser Forberedelse af opgave 3. Første trin i en regressions-analyse er at identificere responsvariablen og den / de forklarende variable. Y benyttes som forkortelse for responsvariablen
E N D
Dagens program Forsvar og kritik Teori Regression Korrelation Øvelser Forberedelse af opgave 3
Første trin i en regressions-analyse er at identificere responsvariablen og den / de forklarende variable. Y benyttes som forkortelse for responsvariablen X benyttes som forkortelse for de forklarende variable. Hvilke af de 8 spørgsmål i BedstPåNet (her til højre) er responsvariable hhv. forklarende variable? Responsvariable: Forklarende variable: Hjemmesiden giver alt i alt et positivt helhedsindtryk. Kvaliteten af hjemmesidens indhold er høj. Det er nemt at finde rundt på hjemmesiden. Teksterne på hjemmesiden er skrevet i et klart og letforståeligt sprog. Jeg fandt let det, jeg ledte efter. Jeg oplever, at hjemmesiden er hurtig og virker, som den skal uden at lave fejl. Hjemmesiden indeholder det, jeg har behov for. Hjemmesiden giver mig fordele, som jeg ikke kan opnå på andre måder (f.eks. via telefon, brev / mail eller personlig kontakt). Regressionsanalyse
Problemstillinger vedr. brugervenlighed • Har antallet af sider på et website betydning for om de besøgende ”let kan finde det, de leder efter”? • Har antallet af links i hovedmenuen betydning for, om ”det er nemt at finde rundt på hjemme-siden”? • Har lix-tallet betydning for, om brugerne oplever, at ”teksterne er skrevet i et klart og letforståeligt sprog”?
Analyse af: ”Jeg fandt let det, jeg ledte efter”. • En stikprøve på 20 udtages blandt landets ca. 98 kommuner. • Webmasteren spørges, hvor mange sider der er på kommunens website. • Data kobles til scoren på spørgsmålet ”Jeg fandt let det, jeg ledte efter.” • Antal sider. Gns: 1.127. Std.afv.: 162. • Brugervenlighed. Gns: 2,7. Std.afv.: 0,7. • Andet trin i en regressionsanalyse er at tegne et x-y diagram. • På x-aksen afsættes den forklarende variabel • På y-aksen afsættes responsvariablen
Regressionsanalyse • Hvis punkterne i x-y diagrammet omtrent danner en ret linje, er det meningsfuldt at (få Excel / SPSS til) tegne en ret linje igennem punkterne og finde ligningen for linjen. • Ligningen for regressionslinjen er: • ŷ er et estimat på y (responsvariablen) ud fra ligningen • a er linjens skæring med y-aksen • b er hældningen på kurven
Når du står i x-y diagrammet, højreklik på punkterne og vælg: ”Add trendline”
Eksempel: Brugervenlighed og antal web-sider Man kan også gå i Excel Data Analyse og vælge regressionsanalyse.
Eksempel: Brugervenlighed og antal web-sider To fordele ved denne metode: Dels får man testet om modellens parametre er 0. Dels kan man anvende flere forklarende variable.
Eksempel: Brugervenlighed og antal web-sider • Analysen fortæller os: • Brugervenlighed = (0,0034 x antal sider) –1,15. • Hældningen på linjen er 0,0034. Skæring med y-aksen er i -1,15 • Har en kommune 1.500 sider, er et kvalificeret gæt på score på brugervenligheden, at kommunen score:(0,0034 x 1.500) - 1,15 = 3,87 – 1,15 = 2,72 • Regressionsanalysen kan bruges til at forudsige værdien af y, når man kender værdien af x. • Forudsigelsen er i sagens natur ikke 100% sikker, y varierer. • Man bør tjekke for outliers, da de kan påvirke resultatet betydeligt
Residualer • Ligningen, ŷ = a + bx, kaldes en regressionsmodel. Den benyttes til at forudsige gennemsnittet af y-værdierne ved de forskellige x-værdier. • Forskellen, y- ŷ, mellem en faktisk observeret værdi og en forudsigelse er en fejl (error) i forudsigelsen. Fejlen kaldes residualet. • Et residual er den lodrette afstand mellem observationen og regressionslinjen. • Hver observation har et residual. Hvornår er det 0?
Regressionslinjen og -ligningen • Man kan beregne hvor tæt punkterne i x-y diagrammet ligger på regressionslinjen. • Regressionslinjen er den linje, som minimerer summen af de kvardrerede residualer. • Jo tættere punkterne ligger på linjen, des mindre er summen af de kvardrerede residualer.
Populations regressionsligning • Populationens regressionsligning beskriver relationen i populationen mellem y’s gennemsnit og x. Ligningen er: • α er populationsligningens skæring med y-aksen. • β er is populationsligningens hældning. • α og β er parametere. • I praksis estimerer vi populationens regressionsligning på basis af data fra en stikprøve. Stikprøvens regressionsligning er: ŷ = a + bx
Model • En (statistisk) model er ikke eksakt beskrivelse af virkeligheden. • Modellen ”kun” er en approksimation • Den er praktisk nyttig, hvis den estimerer relationen mellem x og y relativt godt. • Sort: Virkeligheden. Rød en estimeret regressionsligning.
Multipel regression • Har antallet af links i hovedmenuen betydning for, om ”det er nemt at finde rundt på hjemme-siden”? • y = Det er nemt at finde rundt på hjemmesiden • x1 = Antal hovedmenupunkter, f.eks. 5 som på www.kk.dk • x2 = Antal links pr. hoved-menupunkt, f.eks. 12 i punktet ”Borger”. • x3 = Antal links på forsiden • Populationsmodel: • Stikprøvemodel:
Eksempel: Korrelation • En stikprøve på 18 udtages blandt studerende på ITU. • De bedes vurdere praj-løsningen på www.kk.dk • Følgende parametre blev vurderet: • Vejledningen • Menustrukturen • Det visuelle udtryk • Brugervenligheden, alt i alt
Eksempel: Korrelation I Excels Data Analyse vælger man Korrelation.
Korrelation • Korrelationen, som forkortes med bogstavet r, beskriver den linære association mellem x og y. • Korrelationen ‘r’ har samme fortegn, +/-, som hældningen, b, i regressionsligningen. • Korrelationen ‘r’ er et tal i intervallet mellem -1 og +1, begge tal inklusiv. • Jo større den absolutte værdi af r, des stærkere er den lineære association. • Man kan ikke bruge hældningen, b, til at beskrive styrken af associationen mellem x og y, fordi hældningens nummeriske værdi afhænger af den enhed, der måles i. • Korrelationen er en standardiseret version af hældningen. • Korrelationen afhænger ikke af den enhed, der måles i.