1 / 57

Introductie tot de lineaire regressie

Introductie tot de lineaire regressie. Twee gemiddelden Meer gemiddelden Nog meer gemiddelden: Enkelvoudige regressie en correlatie Multiple lineaire regressie. RECAP: twee gemiddelden: t-test. RECAP: twee gemiddelden: t-test. RECAP: twee gemiddelden: t-test.

denali
Download Presentation

Introductie tot de lineaire regressie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introductie tot de lineaire regressie • Twee gemiddelden • Meer gemiddelden • Nog meer gemiddelden: • Enkelvoudige regressie en correlatie • Multiple lineaire regressie

  2. RECAP: twee gemiddelden: t-test

  3. RECAP: twee gemiddelden: t-test

  4. RECAP: twee gemiddelden: t-test

  5. RECAP: meerdere gemiddelden: variantie analyse (AN O VA)

  6. RECAP: meerdere gemiddelden: variantie analyse (AN O VA)

  7. RECAP: meerdere gemiddelden: variantie analyse (AN O VA)

  8. Introductie tot de lineaire regressie • Inleiding Doel: bestuderen van de relatie tussen twee continue variabelen X en Y statistisch verband: associatie (# causaal verband); positief vs negatief wanneer het doel is te weten of twee variabelen geassocieerd zijn: correlatie onderzoek wanneer het doel is de ene variabele uit de andere te voorspellen: regressie onderzoek

  9. Introductie tot de lineaire regressie Stap 1: spreidingsdiagramma (scatterplot) Zijn DNA-index en proliferatieindex geassocieerd? • Correlatie-onderzoek

  10. Introductie tot de lineaire regressie • Correlatie-onderzoek

  11. Introductie tot de lineaire regressie • Correlatie-onderzoek

  12. Introductie tot de lineaire regressie • Correlatie-onderzoek

  13. Introductie tot de lineaire regressie • Correlatie-onderzoek Stap 2: berekenen van een correlatiecoëfficiënt Pearson Spearman Kendall Waarde: -1 tot +1 -1 en +1 geven perfect verband aan Meest gebruikt: Pearson (productmoment-correlatiecoëfficiënt), r Toets en betrouwbaarheidsinterval Populatie correlatiecoëfficiënt:

  14. Introductie tot de lineaire regressie • Pearson productmoment-correlatiecoëfficiënt

  15. Introductie tot de lineaire regressie • Correlatie-onderzoek

  16. Introductie tot de lineaire regressie • Pearson productmoment-correlatiecoëfficiënt

  17. Introductie tot de lineaire regressie • Pearson productmoment-correlatiecoëfficiënt Deel teller en noemer door n-1, dan is waarin SX en SY de steekproefstandaardafwijkingen zijn van X en Y en SXY is de zgn steekproefcovariantie van X en Y

  18. Introductie tot de lineaire regressie • Covariantie: gevoelig voor mate van associatie Gemiddelde leeftijd Gemiddelde pols

  19. Introductie tot de lineaire regressie • Covariantie: gevoelig voor mate van associatie

  20. Introductie tot de lineaire regressie • Pearson productmoment-correlatiecoëfficiënt Test: Nul hypothese: correlatiecoëfficiënt is 0 Betrouwbaarheidsinterval

  21. Introductie tot de lineaire regressie • Correlatiematrix

  22. Introductie tot de lineaire regressie • Correlatiematrix

  23. Introductie tot de lineaire regressie • Drie-dimensioneel:

  24. Introductie tot de lineaire regressie • Correlatie-onderzoek

  25. Introductie tot de lineaire regressie • Correlatie-onderzoek

  26. Introductie tot de lineaire regressie • Correlatie-onderzoek

  27. Introductie tot de lineaire regressie • Correlatie-onderzoek Contraindicaties, voorwaarden X en Y: bivariate normaalverdeling Lineariteit Uitbijters

  28. Introductie tot de lineaire regressie • Correlatie-onderzoek Voorwaarden niet voldaan Niet parametrische equivalent: SPEARMAN Correlatiecoëfficiënt

  29. Introductie tot de lineaire regressie • Enkelvoudige lineaire regressie (simple linear regression) X en Y: spelen verschillende rol Y (afhankelijke variabele) wordt verklaard door X (onafhankelijke variabele) X-en moeten geen aselecte steekproef zijn Er mag evenwel niet geselecteerd worden voor Y. Eerste stap: spreidingsdiagramma Y heeft voor elke waarde van X een kansverdeling met als gemiddelde µ(x) Doel regressie-analyse: het maken van een schatting van µ(x) voor elke waarde van x µ(x) = alfa + beta.x alfa en beta worden geschat (a en b).

  30. Introductie tot de lineaire regressie • Enkelvoudige lineaire regressie Stap 1: spreidingsdiagramma (scatterplot)

  31. Introductie tot de lineaire regressie • Enkelvoudige lineaire regressie

  32. Introductie tot de lineaire regressie • Enkelvoudige lineaire regressie Voor elke observatie is Y e (het residu) verwijderd van de verwachte waarde ei

  33. Introductie tot de lineaire regressie • Enkelvoudige lineaire regressie Verwachte waarde van residu (e) = 0 Criterium: ‘kleinste kwadratencriterium’ (least squares) d.w.z. dat de som van de gekwadrateerde geschatte residuen minimaal is: Berekening van de richtingscoëfficient wordt dan: (de covariantie tussen X en Y gedeelt door de steekproefvariantie van X)

  34. Introductie tot de lineaire regressie • Enkelvoudige lineaire regressie

  35. Introductie tot de lineaire regressie • Enkelvoudige lineaire regressie

  36. Introductie tot de lineaire regressie • Enkelvoudige lineaire regressie

  37. Introductie tot de lineaire regressie • Relatie correlatie & lineaire regressie Als r nul is, is ook b nul

  38. Introductie tot de lineaire regressie • Verklaarde variantie Hoe goed men Y kan voorspellen op basis van gemiddelde: hangt af van variabiliteit Bij gebruik X hangt de variabiliteit af van de variabiliteit van Y voor een gegeven waarde van X r² kan geïnterpreteerd worden als de relatieve reductie van de variabiliteit van Y door gebruik te maken van de regressie van Y op X r² x 100% is het percentage door X ‘verklaarde variantie’

  39. Introductie tot de lineaire regressie • Enkelvoudige lineaire regressie

  40. Introductie tot de lineaire regressie • Enkelvoudige lineaire regressie Voorwaarden: Lineariteit: de relatie tussen Y en X is lineair (som residuen 0) Gelijke varianties: de standaardafwijking van Y is voor alle waarden van X gelijk (variantie van e constant) Normaliteit: voor elke waarde van X volgt Y een normale verdeling (e normaal) Evaluatie: op basis van spreidingsdiagramma op basis van residuenplot

  41. Multiple lineaire regressie • Inleiding: multiple regressie Meerdere onafhankelijke variabelen: Multiple of multivariate regressie ? Voorspellen Y of wegwerken verstoring ? Typeverdeling Y Regressiemodel normaal multiple lineaire regressie dichotoom multiple logistische regressie Poisson Poisson regressie overlevingsduurgegevens Cox proportionele hazard regressie

  42. Multiple lineaire regressie • Multiple lineaire regressie Veronderstelling: Y normaal verdeeld met gemiddelde: Verdeling X-en: geen eisen aselect, select, gestratificeerd… Y is wel aselect getrokken gegeven de waarden van de verschillende X-en Regressiecoëfficiënten: gemiddelde toename van Y bij de toename van één eenheid X. geeft de invloed van X weer, gecorrigeerd voor de andere X-en.

  43. Multiple lineaire regressie • Multiple lineaire regressie Alternatieve formulering: waarbij e een normaal verdeling volgt met als gemiddelde 0 en onbekende standaardafwijking sigma, die niet van de Xi’s afhangt. De regressiecoëfficiënten worden opnieuw geschat door gebruik te maken van het kleinste kwadratencriterium moet minimaal zijn. Schattingen (+ se (p-waarde) en betrouwbaarheidsintervallen): computerprogramma nodig

  44. Multiple lineaire regressie • Voorbeeld Medisch onderzoeker heeft in een ontwikkelingsland uit enkele plattelandsdorpen 31 mensen willekeurig geselecteerd. Bij hen werd de systolische bloeddruk, het lichaamsgewicht, de leeftijd en de polsfrequentie gemeten. Aan de hand van een multiple regrssie wordt nagegaan hoe de systolische bloeddruk afhangt van gewicht, leeftijd en polsslag. afhankelijke variabele : Y (systolische bloeddruk in mm Hg) onafhankelijke variabelen : X1 (gewicht in kg) X2 (leeftijd in jaren) X3 (polsfrequentie in slagen/minuut)

  45. Multiple lineaire regressie • Analyse: • Eerst enkelvoudige regressies • Onderlinge correlaties tussen X-en? • Multiple lineaire regressie • Schatten van de intercept en van de regressiecoëfficiënten • kleinste kwadratencriterium • computerprogramma nodig • standaardfouten voor de coëfficiënten en p-waarde voor toetsing nul-hypothese (regressiecoëfficiënt = 0) • Interpretatie • cave: causaliteit?

  46. Multiple lineaire regressie • Voorbeeld

  47. Multiple lineaire regressie • Voorbeeld

  48. Multiple lineaire regressie • Voorbeeld

  49. Multiple lineaire regressie • Voorbeeld

  50. Multiple lineaire regressie • Voorbeeld

More Related