1 / 31

Dagens program

Informationer 4 lektioner tilbage 1-2 til indv. vejl. Opsamling Projekt 3 Regionsfordeling Antal links, etc. Regression Korrelation Igang med projekt 3. Dagens program. Opsamling: Chi-i-anden fordeling og teststørrelse. 2.

march
Download Presentation

Dagens program

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Informationer 4 lektioner tilbage 1-2 til indv. vejl. Opsamling Projekt 3 Regionsfordeling Antal links, etc. Regression Korrelation Igang med projekt 3 Dagens program

  2. Opsamling: Chi-i-anden fordeling og teststørrelse 2

  3. Første trin i en regressions-analyse er at identificere den afhængige og / de uafh. variabel. Y benyttes som forkortelse for ”the dependent variable” aka. criterion / outcome variable afhæng. var / responsvar. X benyttes som forkortelse for ”the independent variable” aka. predictor variable uafh. / forklarende variable Hvilke oplysninger (her til højre) er responsvariable hhv. forklarende variable? Responsvariable: Forklarende variable: Titlen i headeren er beskrivende Hjemmesiden giver alt i alt et positivt helhedsindtryk. Man kan ud fra teksten på alle links forstå, hvor de fører hen. Det er nemt at finde rundt på hjemmesiden. Teksterne på hjemmesiden er skrevet i et klart og letforståeligt sprog. Hjemmesiden indeholder det, jeg har behov for. Regressionsanalyse. Trin 1 Y: Uafhængig variabel X: Afhængig variabel

  4. Regressionsanalyse. Trin 2 • Andet trin i en regressionsanalyse er at plotte sine data i et x-y diagram. • På x-aksen afsættes den forklarende variabel • På y-aksen afsættes responsvariablen • Eksempler på problemstillinger vedr. brugervenlighed • Har antallet af sider på et website betydning for om de besøgende ”let kan finde det, de leder efter”? • Har antallet af links i hovedmenuen betydning for, om ”det er nemt at finde rundt på hjemmesiden”? • Har lix-tallet betydning for, om brugerne oplever, at ”teksterne er skrevet i et klart og letforståeligt sprog”?

  5. Eksempel på analyse af brugervenlighed ved spørgsmålet: ”Jeg fandt let det, jeg ledte efter”. • En stikprøve på 20 udtages blandt landets kommuner. • Webmasteren spørges, hvor mange sider der er på kommunens website. • Data kobles til scoren på spørgsmålet ”Jeg fandt let det, jeg ledte efter.” • Antal sider. Gns: 1.127. Std.afv.: 162. • Brugervenlighed. Gns: 2,7. Std.afv.: 0,7.

  6. Regressionsanalyse. Trin 4Plot x og y mod hinanden og se om de danner en ret linje

  7. Regressionsanalyse. Trin 5Estimer regressionsligningen • Hvis punkterne i x-y diagrammet omtrent danner en ret linje, er det meningsfuldt at (få Excel / SPSS til) tegne en ret linje igennem punkterne og finde ligningen for linjen. • Ligningen for regressionslinjen er: • ŷ er et estimat på y (responsvariablen) ud fra ligningen • a er linjens skæring med y-aksen • b er hældningen på kurven

  8. Stå i x-y diagrammet, højreklik på punkterne og vælg: ”Add trendline”

  9. Eksempel: Brugervenlighed og antal web-sider

  10. Eksempel: Brugervenlighed og antal web-sider Man kan også gå i Excel Data Analyse og vælge regressionsanalyse.

  11. Eksempel: Brugervenlighed og antal web-sider To fordele ved denne metode: Dels får man testet om modellens parametre er 0. Dels kan man anvende flere forklarende variable.

  12. Eksempel: Brugervenlighed og antal web-sider • Analysen fortæller os: • Brugervenlighed = 0,0034 x antal sider – 1,15. • Hældningen på linjen er 0,0034. Skæring med y-aksen er i -1,15 • Har en kommune 1.500 sider, er et kvalificeret gæt, at kommunen scorer: 0,0034 x 1.500) - 1,15 = 3,87 – 1,15 = 2,72 på BV-spørgsmålet. • Regressionsanalysen kan bruges til at forudsige værdien af y, når man kender værdien af x. • Forudsigelsen er i sagens natur ikke 100% præcis, y varierer. • Man bør tjekke for outliers, da de kan påvirke resultatet betydeligt

  13. Kausalitet: Årsag og virkning Figuren viser ændringen i helhedsindtryk ved en ændring i kvaliten af indhold (udviklingen over 2 år) Hvis man ønsker en stigning i y på ca. 8,5, kræver det en stigning i x på 10 (alt andet lige). Figuren viser sammenhængen mellem x og y (kvaliten af indhold og helhedsindtryk) for samme år Hvis man får oplyst x, kan man gætte (”forudsige”), hvad y er.

  14. Fører øget brugervenlighed fx. til øget salg? Y = salg Y, responsvariabel Fælles • Antal besøgende på hjemmesiden Kommercielle organisationer • Antal besøgende, der køber (hitrate) • Størrelsen af købet (basketsize) Ikke-kommercielle organisationer • Brugerne betjener sig selv (færre pers. og tlf. henvendelser) • Fremme af organisationens formål X = brugervenlighed

  15. Kausalitet: Årsag og virkning Betingelser for kausalitet Rækkefølge (X → Y, ikke X ← Y) Association mellem X og Y. Udtrykkes operationelt f.eks. ved regression eller en korrelationskoefficient, f.eks. r. Positive r værdier tyder på en positive association (sammenhæng) Negative r værdier tyder på en negative association r værdier tæt på +1 eller -1 tyder på en stærk lineær association r værdier tæt på 0 tyder på en svag association Udelukkelse af andre forklaringer X: Salg af is, Y: Drukne ulykker Hypotese: X → Y Z: Årstid Mere plausibel hypotese: X ← Z → Y 4 P’er

  16. Outliers

  17. Populations regressionsligning • Populationens regressionsligning beskriver relationen i populationen mellem y’s gennemsnit og x. Ligningen er: • α er populationsligningens skæring med y-aksen. • β er is populationsligningens hældning. • α og β er parametere. • I praksis estimerer vi populationens regressionsligning på basis af data fra en stikprøve. Stikprøvens regressionsligning er: ŷ = a + bx

  18. Multipel regression • Har antallet af links i hovedmenuen betydning for, om ”det er nemt at finde rundt på hjemme-siden”? • y = Det er nemt at finde rundt på hjemmesiden • x1 = Antal hovedmenupunkter, f.eks. 5 som på www.kk.dk • x2 = Antal links pr. hoved-menupunkt, f.eks. 12 i punktet ”Borger”. • x3 = Antal links på forsiden • Populationsmodel: • Stikprøvemodel:

  19. Residualer • Ligningen, ŷ = a + bx, kaldes en regressionsmodel. Den benyttes til at forudsige gennemsnittet af y-værdierne ved de forskellige x-værdier. • Forskellen, (y – ŷ), mellem en faktisk observeret værdi og en forudsigelse er en fejl (error) i forudsigelsen. Fejlen kaldes et residual. • Et residual er den lodrette afstand mellem observationen og regressionslinjen. • Hver observation har et residual. Hvornår er det 0?

  20. Hvor god er modellen til at forudsige y? • Consider the prediction error: The difference between the observed and predicted values of y (the residual) • Using the regression line to make a prediction, each error is: • Using only the sample mean, , to make a prediction, each error is:

  21. Hvor god er modellen til at forudsige y? • When we predict y using (that is, ignoring x), the error summary equals: • This is called the total sum of squares

  22. Hvor god er modellen til at forudsige y? • When we predict y using x with the regression equation, the error summary is: • This is called the residual sum of squares

  23. Hvor god er modellen til at forudsige y? • When a strong linear association exists, the regression equation predictions tend to be much better than the predictions using • We measure the proportional reduction in error and call it, r2

  24. Hvor god er modellen til at forudsige y? • We use the notation r2 for this measure because it equals the square of the correlation r

  25. Hvor god er modellen til at forudsige y? • Properties: • r2 falls between 0 and 1 • r2=1 when . This happens only when all the data points fall exactly on the regression line • r2=0 when . This happens when the slope b=0, in which case each • The closer r2 is to 1, the stronger the linear association: The more effective the regression equation is compared to in predicting y

  26. Learning Objective 3:Correlation r and Its Square r2 • Both r and r2 describe the strength of association • ‘r’ falls between -1 and +1 • It represents the slope of the regression line when x and y have been standardized • ‘r2’ fallsbetween 0 and 1 • It summarizes the reduction in sum of squared errors in predicting y using the regression line instead of using

  27. Model • En (statistisk) model er ikke eksakt beskrivelse af virkeligheden. • Modellen er ”kun” en approksimation • Den er praktisk nyttig, hvis den estimerer relationen mellem x og y relativt godt. • Sort: Virkeligheden. Rød en estimeret regressionsligning.

  28. Eksempel: Korrelation • En stikprøve på 18 udtages blandt studerende på ITU. • De bedes vurdere brugervenligheden af en app på fire parametre: • Vejledningen • Menustrukturen • Det visuelle udtryk • Brugervenligheden, alt i alt

  29. Korrelation

  30. Eksempel: Korrelation I Excels Data Analyse vælger man Korrelation.

  31. Korrelation • Korrelationen, som forkortes med bogstavet r, beskriver den linære association mellem x og y. • Korrelationen ‘r’ har samme fortegn, +/-, som hældningen, b, i regressionsligningen. • Korrelationen ‘r’ er et tal i intervallet mellem -1 og +1, begge tal inklusiv. • Jo større absolut værdi af r, des stærkere er den lineære association. • Man kan ikke bruge hældningen, b, til at beskrive styrken af associationen mellem x og y, fordi hældningens nummeriske værdi afhænger af den enhed, der måles i. • Korrelationen er en standardiseret version af hældningen. • Korrelationen afhænger ikke af den enhed, der måles i.

More Related