Statistik 1 – Lektion 4

Statistik 1 – Lektion 4 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

Sidste kursusgang • Mindste kvadraters metode. • Spredningsdiagrammer. • Lineær regression. • Outliers. • Regressionskoefficienter. • Signifikans. • Transformation for at opnå linearitet.

Denne kursusgang • Tilpasset determinationskoefficient. • Estimering af værdier for den afhængige variabel kontrolleret for uafhængige variable. • Grafisk fremstilling af kontrolleret sammenhæng mellem afhængig og uafhængig variabel. • Dummy variable. • Kontrol af linearitetsforudsætninger. • Multikollinearitet. • Interaktionsled. • Additive indeks.

Tilpasset determinationskoefficient • R2 vil altid vokse når vi smider flere variable ind i modellen. Ved n-1 uafhængige variable har vi eksempelvis altid R2 = 1, men dette resultat er fuldstændig meningsløst. • Tilpasset R2 tager højde for antallet af uafhængige variable, og er altid mindre end R2. Brug derfor altid tilpasset R2 ved modeller med mange uafhængige variable, og når modeller med forskelligt antal uafhængige variable skal sammenlignes. • Man kan generelt bare bruge tilpasset R2 for at undgå at holde styr på begge værdier. • R2adj = 1 - ( (1-R2)(N-1 / N - k - 1) )

Eksempel 1 • Udelad respondenter med ekstrem rejselængde på hverdage (select cases, if condition…, hverdtot<897). • Udfør en multipel regressionsanalyse af følgende uafhængige variablers effekter på den samlede rejselængde i løbet af ugens hverdage (hverdtot): • Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun). • Personlig årsindtægt (persind2). • Hvorvidt respondenten er erhvervsaktiv (erhvakt). • Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs). • Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år respondenten er (alder3) . • Vi kan se at R2adj er mindre end R2, men at forskellen ikke er stor. Det skyldes at antallet af uafhængige variable (k=5) i forhold til antallet af observationer (n=1635) ikke er særlig stort. • R2adj = 1 - ( (1-R2)(N-1 / N - k - 1) )

Estimering af værdier (prædiktion) • Som regel et af de primære formål med at foretage statistisk analyse. • Vi ønsker måske at kunne udtale os om transportforbruget på baggrund af afstanden til centrum. • Vi har en ide om indflydelsen ud fra regressionsanalysen, men vi kan ikke umiddelbart forudsige noget ud fra bare at se på disse tabelværdier. • Derfor beregner vi en ny variabel ud fra den model vi har opstillet for transportforbruget, hvor vi bruger regressionskoefficienterne fra analysen sammen med gennemsnittet for de uafhængige variable, med undtagelse af den variabel som vi ønsker at forudsige fra (afsfun) . • Det svarer til at vi ser på sammenhængen mellem transportforbrug (hverdtot) og centrumsafstand (centafs) i vores model, hvis alle andre variable fastholdes.

Eksempel 2 • Vi bruger regressionskoefficienterne fra forrige opgave til at udregne en forventet værdi for transportforbruget, der afhænger af boligens afstand til Københavns centrum. • Model: y=a1x1+a2x2+…+anxn+b • y: den forventede værdi for transportomfanget (den nye variabel) • xi: gennemsnittet for variabel i • ai: regressionskoefficienten for variabel i • b: regressionskonstanten • Først finder vi gennemsnittet for persind2, alder3, erhvakt og erhvrejs (analyze>descriptivestatistics>descriptives). • Så beregner vi den nye variabel hverdforv (brug tranform>compute). • Vi bruger formlen ovenfor, og indsætter værdierne fra regressionsanalysen og de respektive gennemsnit. • NB: For variablen afsfun bruger vi ikke gennemsnittet, men indsætter selve variablen. Ellers ville vi bare få en ret linje, mens vi ved at afstanden til centrum ikke har en lineær sammenhæng med transportforbruget, og det er denne sammenhæng vi gerne vil kunne udtale os om.

Eksempel 2 (fortsat)

Eksempel 2 (fortsat) • For at lave en grafisk fremstilling af sammenhængen mellem vores nye variabel for forventet transportforbrug (hverdforv) anvender vi bare et spredningsdiagram (graphs>legecydialogs>scatter). • Vi kan bruge centafs på horisontalaksen selvom vi har brugt den transformerede variabel afsfun i regressionsanalysen, da afsfun blot er en funktion på centafs. Dermed får vi plottet sammenhængen mellem forventet transportmængde (hverdforv) og afstand fra centrum mål i kilometer (centafs), i stedet for en eller anden obskur måleenhed, somafsfuner opgivet i. • Vi har nu en graf, der fint illustrerer den forventede sammenhæng mellem de to variable, beregnet ud fra vores observationer og model. Den passer fint overens med de analyser vi har lavet i tidligere kursusgange, hvor vi bl.a. fik en indikation af at effekten af afstand til Københavns centrum ikke er særlig stor, når folk bor mere end 30 kilometer væk fra København

Eksempel 2 (fortsat)

Dummy variable

Dummy variable • Dummy variable bruges i tilfælde, hvor man har uafhængige variable på nominal eller ordinal måleniveau. Det er blot en række dikotome (binære) variable, der bruges i stedet for den oprindelige variabel, da dikotome variable kan anvendes til lineær regression. • Dermed omgår man problemet med, at nominale og ordinale variable ikke har noget skalaforhold. Har vi f.eks. en variabel, der angiver hvilket amt folk bor i med et tal (0-4), så giver det ikke mening at regne med, at amt 2 har dobbelt så stor indflydelse på den afhængige variabel som amt 1, og at amt 0 slet ikke har nogen indflydelse. Tallene angiver jo kun kategorier, det er ikke en skala. • Hvis vi i stedet laver en variabel for hvert amt undtagen ét (forklaring følger), så kan vi f.eks. lade en ny variabel kaldet amt4 have værdien 1 for alle folk i amt 4, mens folk i amt 0, 1, 2 og 3 har værdien 0. Ligeledes for variablene amt1, amt2 og amt3. Vi behøver ikke en amt0 variabel, da vi ved at folk i amt 0 bare er dem, der har værdien nul på alle de andre dummy variable. • Vi skal altså bruge n-1 dummy variable til en variabel med n kategorier. Fordelen ved dette frem for kategori variablen er, at vi nu får en regressionskoefficient for alle amterne (undtagen amt 0), så vi kan måle forskelle i deres indflydelse på den afhængige variabel. Amt 0s indflydelse er givet i resten af modellen.

Dummy variable

Opgave 1 • Variablen boligtyp har oprindeligt disse værdier: 1: Parcelhus2: Række-, kæde- eller gårdhus3: Tofamiliehus4: Etagehus5: Højhus6: Anden boligtype • Vi laver en ny variabel boligtyp2 ud fra variablen boligtyp, hvor værdien 6 (anden boligtype) skal omkodes til ”missing value”. De respondenter, der ikke bor i nogen af de øvrige boligtyper vil dermed automatisk blive udelukket fra analysen. Denne nye variabel (boligtyp2) skal derefter omkodes til de tre dummy variabler bolig_taet, bolig_etage og bolig_hoej, hvor bolig_taet skal inkludere både dem, der bor i række-, kæde- eller gårdhus og dem, der bor i tofamiliehus (dvs. både værdi 2 og 3 fra boligtyp2).

Opgave 1 (fortsat)

Opgave 2 • Vi vil nu bruge de nye dummy variable til regressionsanalyse. • Vi vil undersøge hvordan de forskellige boligtyper påvirker tætheden af indbyggere og arbejdspladser indenfor det boligområde, hvor boligen ligger (omrtaet). Lav en regressionsanalyse, som viser dette. • Hvor høj er befolkningstætheden gennemsnitligt i de boligområder, hvor respondenterne bosat i henholdsvis enfamiliehuse, tæt-lav bebyggelse, etagehuse og højhuse hører hjemme?

Kontrol af linearitetsforudsætninger • Spredningsdiagrammer. • Partiel korrelation. • Casewisediagnostics. • Durbin-Watson (bør ligge mellem 1,5-2,5). • Residualplots.

Multikollinearitet • Multikollinearitet i regressionsmodellen opstår, hvis to eller flere uafhængige variable har høj indbyrdes korrelation. • Dette svækker ikke som sådan modellens prædiktionsevne ellers reliabilitet, men det gør det svært at estimere individuelle variables indflydelse. • Tolerance under 0,2 og/el. VIF over 5 (variance inflation factor) er en stærk indikation af multikollinearitet.

Eksempel 3 • Vi laver en regressionsanalyse med biltransport på hverdage som den afhænge variabel. Fravælg først respondenter med ekstreme rejselænger (dvs. bilhverd<820). • De uafhængige variable skal være: • Tæthed i lokalområdet (loktaet). • Uddannelseslængde (skoleaar). • Personlig årsindkomst (persindt2). • Erhvervsaktivitet (erhvakt). • Erhvervsrejse (erhvrejs). • Alder i forhold til 50 år (alder3). • Bilejerskab (bilejer). • Undersøg Durbin-Watson koefficienten, gennemsnittet for residualerne og evt. multikollinearitet.

Opgave 3 • Udfør nu samme regressionsanalyse som i eksempel 3, men tilføj følgende uafhængige variable: • Antal indbyggere per hektar (inbhlok). • Antal arbejdsplads i lokalområdet (arbhalok). • Undersøg også her Durbin-Watson koefficienten, gennemsnittet for residualerne og evt. multikollinearitet. • Virker regressionskoefficienterne troværdige? • Hvis ja, hvorfor virker de troværdige? • Hvis nej, giver nogle af vores tests en ide om hvor problemet ligger?

Interaktionsled • Interaktionsled kan bruges når styrken af sammenhængen mellem to variable er afhængig af en tredje variabel. • Det kan betragtes lidt som en situation, hvor den samlede effekt af to variable er større end summen af deres individuelle effekt. • Et eksempel på dette kunne være tæthed i lokalområdet og bilejerskab, og deres indflydelse på samlet transport. Vi forventer at begge variable har en indflydelse på transportforbruget, men vi forventer måske også at bilejerskab har meget mindre indflydelse i tæt bebyggede områder, hvor man har mange andre transportmuligheder, uanset om man har en bil eller ej. • Man beregner blot den nye variabel med transform>compute, og indsætter derefter den nye variabel som uafhængig variabel. • Der kan opstå høj kollinearitet ved brugen af interaktionsled!

Opgave 4 • Lav en ny variabel lokbil, der er en interaktionsvariabel mellem tætheden i lokalområdet (loktaet) og bilejerskabet (bilejer). • Lav samme regressionsanalyse som i opgave 3, men fjern de to uafhængige variable, der skabte problemer (inbhlok og arbhlok), og tilføj den nye variabel lokbil samt variablen. • Vi kan se at forklaringsgraden stiger en smule, men der bliver problemer med kollinearitet.

Opgave 5 • Udfør samme regressionsanalyse som i eksempel 4, men vælg denne gang backward i stedet for enter som modelsøgnings metode (under method). • Hvilke ændringer sker der i modellen? Hvorfor?

Additive indeks • Additive indeks er blot en sammenlægning af flere forskellige nominelle eller ordinale variables værdier. • Det kan f.eks. være at man har haft mange forskellige spørgsmål omkring folks holdning til specifikke spørgsmål om deres holdning til forskellige udsagn, der alle er samlet under et hovedemne. Man kan så efterfølgende lave et additivt indeks for respondenternes samlede holdning til dette emne. • Man skal være opmærksom på, at spørgsmålene kan være stillet på en måde, så en høj score i et spørgsmål kan være udtryk for en positiv holdning overfor emnet, mens en høj score i det næste spørgsmål er udtryk for en negativ holdning. Det kan derfor være nødvendigt at omkode variablene eller tage højde i formlen for den nye variabel. • Et eksempel kunne være holdning til reduktion CO2 udledning, hvor meget enig = 1 og meget uenig = 10: • Udsagn 1: Jeg arbejder aktivt for at reducere mit CO2 udslip. • Udsagn 2: Jeg rejser med tog i stedet for fly når det er muligt. • Udsagn 3: Jeg foretrækker at køre i min egen bil. • Det burde være klart, at hvis man er meget enig i de to første udsagn, og meget uenig i det tredje, så er man positivt indstillet overfor reduktion af CO2 udledning. Men man kan ikke bare lægge alle tallene sammen, da enig alle steder er kodet som værdien 1, uanset om udsagnet er for eller imod CO2 udledning.

Opgave 6 • Nedenfor ses et uddrag af spørgeskemaet til undersøgelsen i Hovedstadsområdet. Svarene er kodet med værdien 1 for ”helt enig” op til værdien 5 for ”helt uenig”. • Lav et additivt indeks kaldet transphold for respondenters holdning til kollektiv transport ud fra deres svar på de to nedenstående udsagn (svarene ligger hhv. i variablene transp4 og transp6). • Indekset skal være en sum, hvor en positiv værdi angiver en positiv holdning til kollektiv transport, mens en negativ værdi angiver en negativ holdning til kollektiv transport. • Foretag til slut en lineær regressionsanalyse med det nye indeks som afhængig variabel, og koen, skoleaar og alder2 som uafhængige variable. Tolk resultatet.

Opgave 7 (repetition) • En undersøgelse blandt 879 tilfældigt udvalgte respondenter i Aalborg har vist, at 77% af borgerne ønsker en 3. Limfjordsforbindelse. Beregn et 95% konfidensinterval for dette resultat. • I en tidligere undersøgelse blandt 916 respondenter var det kun 72% af borgerne, der ønskede forbindelsen. Politikerne har derfor udtalt, at den nye undersøgelse er et udtryk for, at de voksende trængselsproblemer har øget efterspørgslen på en 3. Limfjordsforbindelse blandt byens borgere. Er denne tolkning korrekt?

Opgave 8 (repetition) • Udfør en multipel regressionsanalyse af følgende uafhængige variablers effekter på den samlede rejselængde i løbet af ugens hverdage (hverdtot): • Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun2). • Uddannelseslængde (skoleaar). • Personlig årsindtægt (persind2). • Hvorvidt respondenten er erhvervsaktiv (erhvakt). • Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs). • Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år respondenten er (alder3) . • Respondenter med ekstreme rejselængder skal udelades fra analysen. • Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet af ugens hverdage? • Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder. • Hvilke kønsspecifikke forskelle kan vi se ud fra resultaterne?

Næste gang • Logistisk regression. • Bruges når den afhængige variabel er dikotom. • Kort gennemgang da det ikke er centralt for pensum. • Forberedelse til eksamen. • Vi gennemgår nogle typeopgaver fra kurset. • Hvis i har spørgsmål enten til teori, opgaver eller eksamensformen er der rigeligt med tid til dem. • Miniprojekt. • I får opgaverne til miniprojektet udleveret til frokost. • Der er ingen der forhindrer jer i at arbejde sammen om opgaverne, men husk nu at eksaminationen er individuel.

Statistik 1 – Lektion 4

Statistik 1 – Lektion 4

Presentation Transcript

Valg af en projektmodel

STATISTIK DESKRIPTIF

EA – SOA - G

MASTERING 7 QC TOOLS FOR IMPROVEMENT

istatistik

SENSUS PENDUDUK 2010

STATISTIK PERIKANAN

KULIAH STATISTIK 2012

DENETİM / VERGİ / DANIŞMANLIK

Statistik Politik dan Kemanan

HD-A3 2009: Mikroøkonomi #2 Efterspørgsel

STATISTIK (PNU 121 SKS 2/1)

STATISTIK HORTIKULTURA

KIMIA ANALITIK

Lektion 7

Keselamatan dan Kesihatan Pekerjaan

Einführung in die Programierung Prof. Dr. Bertrand Meyer

Pemanfaatan data SDKI untuk kajian demografi

HD 2009: Mikroøkonomi #4 Monopolistisk konkurrence og oligopol

STATISTIK PENDIDIKAN EDU5950 SEM1 2013-14

BAB 14 PENGUJIAN HIPOTESIS SAMPEL KECIL

UJI KRUSKAL WALLIS