Simpel og multipel lineær regression

Statistikog kvantitativ metodePolitik & Administration og Samfundsfag3. semester efterår 2007Lektion 11, mandag den 12. novemberMultipel lineær regression

Simpel og multipel lineær regression Lineær formel med én uafhængig variabel(simpel lineær regression): Lineær formel med to uafhængige variable(simpleste form af multipel lineær regression): Lineær formel med k uafhængige variable(generaliseret udgave af multipel lineær regression):

Eksempel: Uddannelse og kriminalitet i danske kommuner • Der skal i det følgende ses på sammenhængen mellem uddannelsesniveau og kriminalitetsniveau i danske kommuner. Eksemplet er parallelt til eksempel 11.1 i Agresti & Finlay vedrørende en tilsvarende sammenhæng i 67 counties i Florida. • Ligesom i Agresti & Finlays eksempel skal der efterfølgende kontrolleres for urbaniseringsgrad.

Operationalisering • Kriminalitet: Antal politianmeldte tyverier pr. 1.000 indbyggere i kommunen. • Uddannelsesniveau: Procentandel indbyggere på 25+ der har en høj videregående uddannelse. • Urbanisering: Et mål dannet ud fra oplysninger om andel indbyggere bosat i urbaniserede områder af forskellig størrelse (mindste områder der regnes for urbaniseret er 250 indbyggere). Målet går fra 0 til 100, hvor 100 betyder, at samtlige indbyggere bor i bymæssig bebyggelse. NB! Hvis man virkelig ønskede at måle f.eks. kriminalitet i dens fulde bredde, er det selvfølgelig problematisk alene at se på politianmeldelser og tyverier. Begge dele er en indsnævring.

Den bivariate sammenhæng mellem uddannelse og anmeldte tyverier (1) Man angiver ofte den justerede r2-værdi(SPSS skriver altid ’R’ med stort, uanset om det er simpel eller multipel regression) r2, som er forklaringsgraden, kan beregnes ud fra ’sum of squares’:(med termerne fra Agresti & Finlay!) RSS = Regression Sum of SquaresTSS = Total Sum of Squares

Den bivariate sammenhæng mellem uddannelse og anmeldte tyverier (2) • Når procentandel med høj videregående uddannelse stiger med 1, stiger antallet af politianmeldte tyverier pr. 1.000 indb. med 0.999 – dvs. så godt som 1,0. • Den standardiserede koefficient fortæller, at der er tale om en moderat effekt. Når andel med høj videregående uddannelse stiger med 1 standardafvigelse, stiger antallet af politianmeldte tyverier pr. 1.000 indb. med 0,249 standardafvigelser. • Sammenhængen er statistisk højsignifikant.

Den bivariate sammenhæng mellem uddannelse og anmeldte tyverier (3) • Det er højst overraskende, at en stigning af højtuddannede i kommunen skulle få antallet af tyverier i kommunen til at stige. Man kunne forledes til at konkludere, at højtuddannede begår mere kriminalitet, men det ville være en fejlslutning. • I dette tilfælde ville det være en såkaldt ’økologisk fejlslutning’, som vedrører det at slutte fejlagtigt fra sammenhænge på et højere liggende niveau (kommuner) til et lavere liggende niveau (individer). Kommentar vedr. den standardiserede regressionskoefficient:I den bivariate situation er kvadratet af den standardiserede koefficient lig med determinationskoefficienten r2 (forklaringsgraden): 0,2492=0,062

Korrelationsmatrix Urbaniseringsvariablen korrelerer stærkt positivt med variablene for tyverier og videregående uddannelse. Derfor er urbaniseringsvariablen oplagt kandidat som kontrolvariabel.

Opdelt scatterplot • Når sammenhængen vises opdelt på tre forskellige kategorier af urbaniseringsgrad mere end antydes det, at der ikke findes nogen positiv sammenhæng mellem andel med høj videre-gående uddannelse og anmeldte tyverier.

Kontrol for urbanisering (1) • Det væsentlige er her, at forklaringskraften forbedres ganske meget, nemlig fra ca. 6 pct. til ca. 55 pct. • Dvs. at ca. 55 pct. af variansen på den afhængige variabel forklares af de to uafhængige variable tilsamen.

Kontrol for urbanisering (2) • Den multiple korrelationskoefficient er lig med 0,738. • Denne størrelse kan beregnes som korrelationen mellem forventede observerede værdier af den afhængige variabel. • Kvadratet af den multiple korrelationskoefficient er lig med forklaringskraften, R2, som også kan beregnes ud fra ’sum of squares’.

Kontrol for urbanisering (3) • Det fremgår, at kontrollen for urbaniseringsgrad har vendt op og ned på effekten fra videregående uddannelse, sådan at der nu er en statistisk signifikant negativ effekt. Kommuner med stor andel med videregående uddannelse har alt andet lige færre tyverier end andre kommuner. • Samtidig hermed ses en meget stærk effekt fra urbaniseringsgrad på antallet af tyverier, sådan at jo mere urbaniseret, jo flere tyverier vil der typisk forekomme. • I denne forholdsvis simple model antages det, at der ikke forekommer interaktion, således f.eks. at effekten fra urbaniseringsgrad er den samme for alle andele af videregående uddannelse.

Diagrammer over sammenhænge Eksempel på Simpsons paradoks: Bivariat Andelmed høj udd. Tyverierpr. 1.000 indb. Trivariat(kontrolleret) Andelmed høj udd. Tyverierpr. 1.000 indb. Urbaniserings-grad

Eksempler på kontrol af forudsætninger (1) Normalfordelte fejlled (ikke så afgørende når stikprøven er stor):

Kommune nummer 343 kunne evt. undersøges nøjere. Eksempler på kontrol af forudsætninger (2) Linearitet, homoskedasticitet og indflydelsesrige cases:

Eksempler på kontrol af forudsætninger (3) Homoskedasticitet og indflydelsesrige cases:

Eksempler på kontrol af forudsætninger (4) Linearitet i effekten fra den enkelte variabel samt indflydelsesrige cases:

Eksempler på kontrol af forudsætninger (5) Linearitet i effekten fra den enkelte variabel samt indflydelsesrige cases:

Bemærkninger til eksemplet (1) Der kan udledes to meget sikre konklusioner: • Der er en meget stærk og statistisk højsignifikant positiv effekt fra urbaniseringsgrad på antallet af politianmeldt tyverier pr. 1.000 indbyggere. • Der er ingen positiv effekt fra andel med høj videregående uddannelse på antallet af tyverier. Samt en noget mere usikker: • Den negative effekt fra andel med høj videregående uddannelse på antallet af tyverier er noget usikker på trods af den lave p-værdi. Det er nemlig vanskeligt ud fra det partielle plot at se, om effekten holder over hele spektret af værdier for uddannelsesgrad. Nøjere undersøgelse viser da også, at effekten er lidt tvivlsom og i hvert fald ikke gælder over hele spektret.

Eksempel på præsentation af resultater (1)

Multikollinearitet (yderkanten af pensum) • Multikollinearitet betyder, at den enkelte uafhængige variabel kan bestemmes mere eller mindre af de øvrige uafhængige variable. • Perfekt multikolleniaritet betyder, at en uafhængig variabel ikke tilfører modellen ny forudsigelseskraft overhovedet. • Mindre end perfekt multikollinearitet kan skabe problemer i estimationen af regressionsparametrene, og der kan beregnes forskellige størrelser, der angiver størrelsen af problemet. • En såkaldt ’tolerance’ på under 0,2 bliver sædvanligvis regnet som alvorlig for den pågældende variabel. Her er der ingen problemer.

Inddragelse af interaktionsparameter (1) Der er forsøgt inddraget et interaktionsparameter mellem urbaniseringsgrad og andel højtuddannede. Inddragelse heraf giver en ganske lille stigning i forklaringskraft fra ca. 54 pct. til ca. 55 pct. (justeret).

Inddragelse af interaktionsparameter (2) • Interaktionsleddet er dog statistisk signifikant på 0,01 niveau. • Koefficienterne bliver ret vanskelige at tolke nu! F.eks. ser det umiddelbart ud til, at videregående uddannelse alligevel har en positiv effekt. Denne koefficient gælder imidlertid alene for en urbaniseringsgrad på nul. • Man kan nu udregne ligninger for effekten fra uddannelse ved forskellige værdier af urbaniseringsgrad. F.eks. ses her ligningen, når urbaniserings-graden er lig med 10:

Inddragelse af interaktionsparameter (3) Effekt fra videregående uddannelse for forskellige urbaniseringsgrader: Urbanisering = 100 Urbanisering = 50 Urbanisering = 10

Inddragelse af interaktionsparameter (3) Ofte vil man centrere de to variable, der interagerer, inden man beregner interaktionsleddet, sådan at ’main-effects’ er mere intuitivt tolkbare. Model uden interaktion Model med interaktion Effekt fra ’andel med videregående uddannelse ved den gennemsnitlige urbaniseringsgrad.

Multipel regression på data fra spørgeskemaundersøgelse • Som det blev vist i de sidste overheads fra lektion 10, er det ved spørgeskemadata vanskeligere grafisk at checke forudsætningerne for at foretage lineær regression. • Herudover forekommer det oftere på sådanne data, at forudsætningerne ikke er overholdt. • Hvis man vil blive indenfor den lineære regression, er det først og fremmest vigtigt at sørge for, at den afhængige variabel er kvantitativ og tilnærmelsesvis intervalskaleret; og som et minimum bør den afhængige variabel kunne antage syv forskellige værdier (tommelfingerregel). • Mht. de uafhængige variable stilles der for det første ikke de samme fordelingsmæssige krav, som der gør til den afhængige, og for det andet vil de uafhængige variable også altid kunne transformeres om til en serie dummy-variable. • I det følgende vises eksempel på lineær regression med dummy-variable.

Husk referencekategori • Når man opererer med serier af dummy-variable i regressionsmodeller, skal man altid huske at en enkelt af disse skal udelades af modellen. Denne svarer som oftest til den mindste eller største værdi på den kategorivariabel, som dummierne er dannet over, og den kaldes for ’referencekategorien’. • Årsagen til denne udeladelse er, at en variabel i en regressionsmodel ikke må kunne forklares perfekt af en eller flere andre variable i modellen. I dette eksempel er der dannet i alt to dummier for hver af de uafhængige diskrete variable. • At medtage den sidste dummy ville svare til at medtage to dummier for variablen ’køn’. • Fænomenet at en uafhængig variabel kan forklares/bestemmes helt af en eller flere andre uafhængige variable kaldes for perfekt ’multikollinearitet’, og det gør, at modellen ikke kan beregnes. Ofte vil der i regressionsmodeller kunne opstå meget stærk grad af multikollinearitet af andre årsager end den her nævnte, og dette vil også skabe problemer for estimationen af parameterne.

Eksempel: Uddannelsens effekt på selvplacering • I overheads til lektion 10 blev der vist en Gamma-analyse med faderens skoleuddannelses effekt på respondentens selvplacering i samfunds-pyramiden. Og efter den bivariate analyse vistes en analyse, hvor der kontrolleredes for respondentens egen uddannelse. • I det følgende går jeg igennem samme eksempel, blot nu med lineær regression i stedet for, og hvor skalaen på den afhængige variabel for selvplacering bibeholdes fra 1 til 10. Først vises en analyse, hvor det antages, at de uafhængige variable er intervalskaleret. Dernæst en analyse med dummy-variable. • Forinden resumeres lige konklusionen fra Gamma-analysen:Faders uddannelse har en effekt på respondentens selvplacering, men stort set kun gennem respondentens egen uddannelse.

Eksempel fortsat Fordelingen på den afhængige variabel for respondentens selvplacering i samfunds-pyramiden.

Eksempel fortsat Konklusionen er substantielt den samme som i Gamma-analysen. Effekten fra faderens uddannelse på selvplacering falder her fra 0,16 (0,155) i bivariat til 0,05 (0,046) i kontrolleret analyse. Analysen her er imidlertid ikke ’helt fin i kanten’, da effekten fra de to uafhængige variable ikke kan antages at være lineær.

Eksempel fortsat Lineær regression med dummy-variable. Først effekt af faders uddannelse på respondentens selvplacering. Statistisk sikker, men svag, effekt. Benyt generelt ikke de standardiserede regressions-koefficienter i lineær regression med dummy-variable!

Eksempel fortsat Tabellen med regressionskoefficienter igen: Forskellen i selvplacering mellem en respondent, hvor faderen har en høj uddannelse, og en respondent, hvor faderen har en lav uddannelse er typisk 0,615 (på skalaen fra 0 til 10).

Eksempel fortsat Model med variable for både faderens og respondentens egen uddannelse. Læg mærke til, hvordan effekten fra faderens uddannelse stort set forklares via effekten fra egen uddannelse. Før var begge dummier for faderens uddannelse statistisk signifikante. Det er ingen af dem længere.

Samme model, men andre referencekategorier

Samme model kan med fordel laves i den procedure, der hedder GLM SPSS syntax for den ordinære procedure for lineær regression SPSS syntax for lineær regression med diskrete variable via GLM-proceduren

GLM output Fordelen, der her skal fremhæves, ved GLM er F-testen for serier af dummier. F.eks. fremgår, at effekten fra faderens uddannelse ikke længere er signifikant.

Bemærkninger til modellerne • I alle de gennemgåede modeller (Gamma, lineær regression, lineær regression med dummyvariable) fås samme substantielle konklusion: faderens uddannelse har en statistisk signifikant effekt på selvplacering i samfundspyramiden, men stort set kun gennem respondentens egen uddannelse. • Hvis der udføres lineær regression i analysen, er det mest korrekt at benytte en model med dummyvariable for de diskrete uafhængige variable. Men den konklusionen ændres altså ikke herved i dette tilfælde. • Det er som regel en fordel at anvende proceduren GLM i forbindelse med lineær regression med dummyvariable, da der her beregnes signifikansniveau for de enkelte diskrete uafhængige variable. I REGRESSION-proceduren beregnes alene signifikansniveau for dummy-variablenes effekter hver især.

Simpel og multipel lineær regression