Simpel og multipel lineær regression

Statistikog kvantitativ metodePolitik & Administration og Samfundsfag3. semester efterår 2006Lektion 11, mandag den 13. novemberMultipel lineær regression

Simpel og multipel lineær regression Lineær formel med én uafhængig variabel(simpel lineær regression): Lineær formel med to uafhængige variable(simpleste form af multipel lineær regression): Lineær formel med k uafhængige variable(generaliseret udgave af multipel lineær regression):

Eksempel: Uddannelse og kriminalitet i danske kommuner • Der skal i det følgende ses på sammenhængen mellem uddannelsesniveau og kriminalitetsniveau i danske kommuner. Eksemplet er parallelt til eksempel 11.1 i Agresti & Finlay vedrørende en tilsvarende sammenhæng i 67 counties i Florida. • Ligesom i Agresti & Finlays eksempel skal der efterfølgende kontrolleres for urbaniseringsgrad.

Operationalisering • Kriminalitet: Antal politianmeldte tyverier pr. 1.000 indbyggere i kommunen. • Uddannelsesniveau: Andel indbyggere på 25+ der har en høj videregående uddannelse. • Urbanisering: Et mål dannet ud fra oplysninger om andel indbyggere bosat i urbaniserede områder af forskellig størrelse (mindste områder der regnes for urbaniseret er 250 indbyggere). Målet går fra 0 til 100, hvor 100 betyder, at samtlige indbyggere bor i bymæssig bebyggelse. NB! Hvis man virkelig ønskede at måle f.eks. kriminalitet i dens fulde bredde, er det selvfølgelig problematisk alene at se på politianmeldelser og tyverier. Begge dele er en indsnævring.

Den bivariate sammenhæng mellem uddannelse og anmeldte tyverier (1) Man angiver ofte den justerede r2-værdi(SPSS skriver altid ’R’ med stort, uanset om det er simpel eller multipel regression) r2, som er forklaringsgraden, kan beregnes ud fra ’sum of squares’:

Den bivariate sammenhæng mellem uddannelse og anmeldte tyverier (2) • Når andel med høj videregående uddannelse stiger med 1, stiger antallet af politianmeldte tyverier pr. 1.000 indb. med 0.999 – dvs. så godt som 1,0. • Den standardiserede koefficient fortæller, at der er tale om en moderat effekt. Når andel med høj videregående uddannelse stiger med 1 standardafvigelse, stiger antallet af politianmeldte tyverier pr. 1.000 indb. med 0,249 standardafvigelser. • Sammenhængen er statistisk højsignifikant.

Den bivariate sammenhæng mellem uddannelse og anmeldte tyverier (3) • Det er højst overraskende, at en stigning af højtuddannede i kommunen skulle få antallet af tyverier i kommunen til at stige. Man kunne forledes til at konkludere, at højtuddannede begår mere kriminalitet, men det ville være en fejlslutning. • I dette tilfælde ville det være en såkaldt ’økologisk fejlslutning’, som vedrører det at slutte fejlagtigt fra sammenhænge på et højere liggende niveau (kommuner) til et lavere liggende niveau (individer). Kommentar vedr. den standardiserede regressionskoefficient:I den bivariate situation er kvadratet af den standardiserede koefficient lig med determinationskoefficienten r2 (forklaringsgraden): 0,2492=0,062

Korrelationsmatrix Urbaniseringsvariablen korrelerer stærkt positivt med variablene for tyverier og videregående uddannelse. Derfor er urbaniseringsvariablen oplagt kandidat som kontrolvariabel.

Opdelt scatterplot • Når sammenhængen vises opdelt på tre forskellige kategorier af urbaniseringsgrad mere end antydes det, at der ikke findes nogen positiv sammenhæng mellem andel med høj videre-gående uddannelse og anmeldte tyverier.

Kontrol for urbanisering (1) • Det væsentlige er her, at forklaringskraften forbedres ganske meget, nemlig fra ca. 6 pct. til ca. 55 pct. • Dvs. at ca. 55 pct. af variansen på den afhængige variabel forklares af de to uafhængige variable tilsamen.

Kontrol for urbanisering (2) • Den multiple korrelationskoefficient er lig med 0,738. • Denne størrelse kan beregnes som korrelationen mellem forventede observerede værdier af den afhængige variabel. • Kvadratet af den multiple korrelationskoefficient er lig med forklaringskraften, R2, som også kan beregnes ud fra ’sum of squares’.

Kontrol for urbanisering (3) • Det fremgår, at kontrollen for urbaniseringsgrad har vendt op og ned på effekten fra videregående uddannelse, sådan at der nu er en statistisk signifikant negativ effekt. Kommuner med stor andel med videregående uddannelse har alt andet lige færre tyverier end andre kommuner. • Samtidig hermed ses en meget stærk effekt fra urbaniseringsgrad på antallet af tyverier, sådan at jo mere urbaniseret, jo flere tyverier vil der typisk forekomme. • I denne forholdsvis simple model antages det, at der ikke forekommer interaktion, således f.eks. at effekten fra urbaniseringsgrad er den samme for alle andele af videregående uddannelse.

Diagrammer over sammenhænge Eksempel på Simpsons paradoks: Bivariat Andelmed høj udd. Tyverierpr. 1.000 indb. Trivariat(kontrolleret) Andelmed høj udd. Tyverierpr. 1.000 indb. Urbaniserings-grad

Eksempler på kontrol af forudsætninger (1) Normalfordelte fejlled (ikke så afgørende når stikprøven er stor):

Kommune nummer 343 kunne evt. undersøges nøjere. Eksempler på kontrol af forudsætninger (2) Linearitet, homoskedasticitet og indflydelsesrige cases:

Eksempler på kontrol af forudsætninger (3) Homoskedasticitet og indflydelsesrige cases:

Eksempler på kontrol af forudsætninger (4) Linearitet i effekten fra den enkelte variabel samt indflydelsesrige cases:

Eksempler på kontrol af forudsætninger (5) Linearitet i effekten fra den enkelte variabel samt indflydelsesrige cases:

Bemærkninger til eksemplet (1) Der kan udledes to meget sikre konklusioner: • Der er en meget stærk og statistisk højsignifikant positiv effekt fra urbaniseringsgrad på antallet af politianmeldt tyverier pr. 1.000 indbyggere. • Der er ingen positiv effekt fra andel med høj videregående uddannelse på antallet af tyverier. Samt en noget mere usikker: • Den negative effekt fra andel med høj videregående uddannelse på antallet af tyverier er noget usikker på trods af den lave p-værdi. Det er nemlig vanskeligt ud fra det partielle plot at se, om effekten holder over hele spektret af værdier for uddannelsesgrad. Nøjere undersøgelse viser da også, at effekten er lidt tvivlsom og i hvert fald ikke gælder over hele spektret.

Bemærkninger til eksemplet (2) • I det viste eksempel består datasættet af samtlige danske kommuner, hvilket vil sige, at der analyseres på populationen og ikke en stikprøve. • Da man normalt vil sige, at noget med en vis statistisk sikkerhed gælder i populationen, kan det virke lidt mærkværdigt at udregne signifikans-niveauer for effekterne i disse populationsanalyser. • Som oftest betragtes populationen dog i sådanne tilfælde som værende ubegrænset stor. I den ubegrænsede population findes noget systematik, f.eks. i form af kausale sammenhænge, og den aktuelle observerbare situation af kommuner er blot en stikprøve fra denne population. • Man kan også formulere det sådan, at man er interesseret i at se, om sammenhængene må være udtryk for noget systematisk, eller de blot kan være opstået i populationen pga. tilfældigheder.

Eksempel på præsentation af resultater (1)

Multikollinearitet (yderkanten af pensum) • Multikollinearitet betyder, at den enkelte uafhængige variabel kan bestemmes mere eller mindre af de øvrige uafhængige variable. • Perfekt multikolleniaritet betyder, at en uafhængig variabel ikke tilfører modellen ny forudsigelseskraft overhovedet. • Mindre end perfekt multikollinearitet kan skabe problemer i estimationen af regressionsparametrene, og der kan beregnes forskellige størrelser, der angiver størrelsen af problemet. • En såkaldt VIF (Variance Inflation Factor) på over 4 bliver sædvanligvis regnet som alvorlig for den pågældende variabel. Her er der ingen problemer.

Inddragelse af interaktionsparameter (1) Der er forsøgt inddraget et interaktionsparameter mellem urbaniseringsgrad og andel højtuddannede. Inddragelse heraf giver en ganske lille stigning i forklaringskraft fra ca. 54 pct. til ca. 55 pct. (justeret).

Inddragelse af interaktionsparameter (2) • Interaktionsleddet er dog statistisk signifikant på 0,01 niveau. • Koefficienterne bliver ret vanskelige at tolke nu! F.eks. ser det umiddelbart ud til, at videregående uddannelse alligevel har en positiv effekt. Denne koefficient gælder imidlertid alene for en urbaniseringsgrad på nul. • Man kan nu udregne ligninger for effekten fra uddannelse ved forskellige værdier af urbaniseringsgrad. F.eks. ses her ligningen, når urbaniserings-graden er lig med 10:

Inddragelse af interaktionsparameter (3) Effekt fra videregående uddannelse for forskellige urbaniseringsgrader: Urbanisering = 100 Urbanisering = 50 Urbanisering = 10

Inddragelse af interaktionsparameter (3) • Det kan lade sig gøre, at justere de uafhængige variable før dannelsen af interaktionsleddet på en sådan måde, at ’main effects’ bevares som i modellen uden interaktion: Model uden interaktion Model med interaktion

Multipel regression på data fra spørgeskemaundersøgelse • Som det blev vist i de sidste overheads fra lektion 10, er det ved spørgeskemadata vanskeligere grafisk at checke forudsætningerne for at foretage lineær regression. • Herudover forekommer det oftere på sådanne data, at forudsætningerne ikke er overholdt. • Hvis man vil blive indenfor den lineære regression, er det først og fremmest vigtigt at sørge for, at den afhængige variabel er kvantitativ og tilnærmelsesvis intervalskaleret; og som et minimum bør den afhængige variabel kunne antage syv forskellige værdier. • Mht. de uafhængige variable stilles der for det første ikke de samme fordelingsmæssige krav, som der gør til den afhængige, og for det andet vil de uafhængige variable også altid kunne transformeres om til en serie dummy-variable. • I det følgende vises eksempel på lineær regression med dummy-variable.

Eksempel: Uddannelsens effekt på selvplacering • I overheads til lektion 10 blev der vist en simpel lineær regression med uddannelsens effekt på selvplacering, hvor uddannelse blev målt som antal år brugt på uddannelse. • Det kan imidlertid tænkes, at denne uddannelsesvariabel ikke er den mest optimale. For det første vil folk, der er langsomme til at komme igennem uddannelsessystemet antages at placere sig højere i samfundspyramiden, end folk der er hurtige. For det andet kan det meget vel tænkes, at også uddannelsestypen betyder noget, sådan f.eks. at selv korte videregående uddannelser betyder mere for selvplaceringen end en lærlingeuddannelse.

Uddannelse som en serie dummy-variable • Jeg vil nu prøve at benytte en variabel for erhvervsuddannelsestype i stedet for. Variablen er vist herunder • Først har jeg foretaget en rekodning af erhvervsuddanelse efter følgende retningslinjer, hvor den ny variabels værdier er noteret yderst til højre i tabellen. Dernæst har jeg dannet en dummy-variabel for hver eneste af disse seks kategorier, med værdierne nul og én.

Frekvenser for de to første dummier Ingen erhvervsuddannelse: Tillært udd. af kortere varighed, specialarbejderuddannelse eller efg basis: Dummierne skal matche den samlede tabel!

Husk referencekategori • Når man opererer med serier af dummy-variable i regressionsmodeller, skal man altid huske at en enkelt af disse skal udelades af modellen. Denne svarer som oftest til den mindste eller største værdi på den kategorivariabel, som dummierne er dannet over, og den kaldes for ’referencekategorien’. • Årsagen til denne udeladelse er, at en variabel i en regressionsmodel ikke må kunne forklares perfekt af en eller flere andre variable i modellen. I dette eksempel er der dannet i alt seks dummier over en variabel med seks kategorier, og kender man værdierne på de fem, vil man altid kunne bestemme værdien af den sidste. • At medtage den sidste dummy ville svare til at medtage to dummier for variablen ’køn’. • Fænomenet at en uafhængig variabel kan forklares/bestemmes helt af en eller flere andre uafhængige variable kaldes for perfekt ’multikollinearitet’, og det gør, at modellen ikke kan beregnes. Ofte vil der i regressionsmodeller kunne opstå meget stærk grad af multikollinearitet af andre årsager end den her nævnte, og dette vil også skabe problemer for estimationen af parameterne.

Den nye regressionsmodel med dummier • ’Ingen erhvervsuddannelse’ er her referencekategori, og foruden erhvervs-uddannelse er der inddraget en dummy for, hvorvidt man har en studenter-eksamen eller lignende. Et effektestimat fra en af dummierne for erhvervs-uddannelse tolkes som effekten fra denne kategori på selvplaceringen i forhold til værdien på referencekategorien.

Bemærkninger til modellen • Dummierne for erhvervsuddannelse koblet med variablen for studen-tereksamen el. lign. forklarer noget mere end variablen for antal års uddannelse. Desuden er det tydeligt fra estimaterne af de rå (ikke standardiserede) regressionskoefficienter, at man ikke bør inddrage erhvervsvariablen uden dummy-rekodning (effekten ville ikke være lineær). • Hvis opgaven var at forklare variationen på selvplacering, ville man selvfølgelig inddrage andre relevante uafhængige variable. Eksemplet her skal imidlertid mest af alt bruges som en præsentation af multipel lineær regression på spørgeskemadata.

Simpel og multipel lineær regression

Simpel og multipel lineær regression

Presentation Transcript

Class Outline

Notes 6: Multiple Linear Regression

Chapter 14 Multiple Regression Analysis and Model Building

Chapter 2. Transmission Line Theory

Illustration of Regression Analysis

Fehlbildungen des Urogenitaltaktes

“One Nevada” Transmission Line (ON-Line)

V. Regression Diagnostics

Testing Assumptions of Linear Regression

Multilevel Regression Models

Regression Models

The Least Squares Principle

Relationships Regression

Statistical Inference and Regression Analysis: GB.3302.30

Lecture 5 Advanced (= Modern) Regression Analysis

Logistic Regression and Discriminant Function Analysis

Binary Logistic Regression

Chapter 12: Analyzing Association Between Quantitative Variables: Regression Analysis

Fujitsu POS 소개자료

MT2004

Lecture Slides