350 likes | 512 Views
Grote datasets Henry Kuipers Hogeschool Van Hall Larensteijn Leeuwarden. Opbouw presentaties. Voorbeelden “grote” datasets Visualiseren van de relaties tussen de variabelen d.m.v. een conceptueel model Verborgen variabelen en interacties tussen variabelen
E N D
Grote datasets Henry Kuipers Hogeschool Van Hall Larensteijn Leeuwarden
Opbouw presentaties • Voorbeelden “grote” datasets • Visualiseren van de relaties tussen de variabelen d.m.v. een conceptueel model • Verborgen variabelen en interacties tussen variabelen • Stappenplan om te komen tot een “best passend model” met de voorspellers voor een afhankelijke variabele (Bron: “AppliedlogisticregressionHosmer & Lemeshow ” )
Voorbeelden grote datasets • GIS (Geografische Informatiesystemen)vegetatiekaarten,hoogtekaartenlocatiegegevens (via zenders)etc. etc. • InternetKlimaatgegevensdigitaal enquêteren (b.v. via fora) • Gedigitaliseerde gegevens van organisaties
Voorbeelden “grote” datasets • Stichting Hulphond Nederland Welke factoren hebben in welke mate een invloed op de uitval van aspirant hulphonden tijdens het opleidingstraject?
Voorbeeld “Stichting Hulphond” Het bestand bestond uit 30 kenmerken van 443 honden =30*443=13290 gegevens
Voorbeeld“Stichting Hulphond” Oorspronkelijk 29 voorspellers waarvan uiteindelijk 18 gebruikt voor onderzoek. Van 11 voorspellers waren bepaalde klassen ondervertegenwoordigd omdat voor de analyse die gebruikt werd je minstens 30 honden per klasse nodig had. Bijvoorbeeld: 15 van de 443 honden hadden een mannelijke trainer . Dit waren te weinig om het effect van het geslacht van de trainer op uitval te bepalen.
Voorbeeld “Blanding’s turtles Invloed van biotische en abiotische factoren op het nest succes van het Blanding’s schildpad (Emydoideablandingii) Welke biotische en abiotische factoren hebben invloed op het nest succes van het Blanding’s schildpad in Nova Scotia en hoe beïnvloeden ze het nest succes
Voorbeeld “Blanding’s turtles Time of emergence was defined as the number of days elapsed between the date when the first hatchling emerged (date of first hatchling) and the date when the last hatchling emerged (date of last hatchling). Incubation time for each nest was defined as the number of days elapsed between oviposition (nesting date) and the emergence of the first hatchling (date of first hatchling) (Standing et al., 1999). Kejimkujik National Park (KNP); McGowan Lake (ML) Het bestandbestonduit 14 kenmerken van 162 nesten =14*162= 2268 gegevens
Conceptueel model Via een conceptueel model kun je grafisch weergeven hoe de variabelen onderling samenhangen Zoek literatuur om je verwachtingen te onderbouwen
Modelontwikkeling Waarom kun je niet simpel via een enkelvoudige analyse bepalen welke voorspellers (onafhankelijke variabelen) van invloed zijn op de afhankelijke variabele? • Verborgen (confounding) variabelen • Interactie tussen de onafhankelijke variabelen
Verborgen variabelen • Via een enkelvoudige analyse heb je bepaald dat mannen significant gemiddeld meer verdienen dan vrouwen. • Het blijkt dat de mannen in de steekproef gemiddeld ouder zijn dan de vrouwen • Ook geldt dat hoe ouder men is des te meer men verdient. • Dan kun je je afvragen of de gevonden relatie tussen geslacht en inkomen niet veroorzaakt wordt door het feit dat de vrouwen in de steekproef gemiddeld jonger zijn.
Verborgen variabelen Dus bij het bepalen van de relatie tussen geslacht en inkomen zou leeftijd een verborgen variabele kunnen zijn. Een variabele kan alleen een verborgen variabele zijn als: De variabele van invloed is op de afhankelijke variabele (dus leeftijd moet invloed hebben op inkomen) De verdeling van de verborgen variabele is niet gelijk voor elke waarde van de onafhankelijke variabele (ofwel de verdeling van leeftijd verschilt voor de beide geslachten)
Interactie tussen 2 onafhankelijke variabelen Uit enkelvoudige analyses blijkt dat Opleiding heeft een significant invloed op besteed bedrag aan boeken (P <0,001) Geslacht heeft geen invloed op besteed bedrag aan boeken (P=0,194)
Interactie tussen 2 onafhankelijke variabelen Wat we hier zien is dat het effect van geslacht op besteed bedrag aan boeken afhangt van de opleiding (bij hoge opgeleiden zien we een groot verschil tussen mannen en vrouwen terwijl dit bij de ander 2 opleidingen niet zo is) Er is dan sprake van een interactie tussen opleiding en geslacht wat betreft het effect op besteed bedrag aan boeken
Modelbouw Doelstelling: te komen tot een “best” passend model met voorspellers voor de afhankelijke variabele binnen de wetenschappelijke context van het probleem Men probeert vaak het aantal voorspellers te minimaliseren om zo een numeriek stabiel model te krijgen . Des te meer variabelen je in een model neemt des te meer het model afhangt van de gebruikte data. De verhouding tussen het aantal variabelen en de steekproefgrootte moet dus niet te klein zijn
Selectie van variabelen Er zijn geautomatiseerde methoden om tot een eindmodel te komen met de “beste” voorspellers : backward-, forward- of stepwise selectie; best subset selectie (, met k het aantal voorspellers). Nadelen geautomatiseerde methoden: Het eindmodel bevat niet de voor het onderzoek belangrijke variabelen maar alleen maar irrelevante controle variabelen. De onderzoeker assisteert de computer om te komen tot een eindmodel terwijl het natuurlijk het omgekeerde moet gelden.
Stappenplan modelselectie “Hosmer & Lemeshow” • Stap 1: • Voer een enkelvoudige analyse uit voor elke voorspeller. • Selecteer de voorspellers die voor het onderzoek belangrijk zijn en alle andere voorspellers (vaak controle variabelen) met een significantie P<0,25 (Bendel en Afifi (1977)) • Stap 2: • Voer een meervoudige analyse uit met alle voorspellers die geselecteerd zijn uit stap 1 (=model1) • Verwijder niet-significante controle variabelen (P>0,05) uit het model en voer opnieuw een meervoudige analyse uit met de overgebleven voorspellers (=model2) • Vergelijk het effect van elke variabele in model 2 met die van model 1.Indien hier grote verschillen tussen bestaan moet je controleren of eerder verwijderde variabelen teruggeplaatst moeten worden • Stap3: • Indien je verwacht dat het effect van een voorspeller op de afhankelijke variabele afhangt van een andere voorspeller voeg dan deze interactie aan het model toe en bepaal de significantie. Doe dit voor elke interactieterm apart. • Alleen interactietermen die biologisch belangrijk zijn en die een P<0,1 hebben toevoegen aan het eindmodel.
Voorbeeld stappenplan In hoeverre hangt het geboortegewicht van een baby af van de levensstijl van de moeder? levensstijl: wel/niet roken; wel/geen alcoholgebruik controlevariabelen: kenmerken baby: geslacht; eerstgeboren (ja/nee); kenmerken moeder : lengte; gewicht; leeftijd; opleidingsniveau; stad (Groningen/Rotterdam)
Voorbeeld stappenplan (stap 1) 1) richtingscoëfficiënt 2) gemiddelde verschil groep=0 en groep=1 3) gemiddeld verschil < MAVO en =MAVO 4) gemiddelde verschil <MAVO en >MAVO 5) gemiddelde verschil =MAVO en >MAVO
Veel voorkomende problemen • multicollineariteit (sterke relaties tussen de voorspellers). Deze zorgt voor hogere waarden van de standaard errors van de coëfficiënten van de voorspellers in het model waardoor deze minder snel significant van nul verschillen. • Factoren waarbij bepaalde klassen ondervertegenwoordigd zijn. • Covariaten waarbij je niet over het hele bereik waarnemingen hebt. • Covariaten die een heel scheve verdeling bezitten. • Niet lineaire relaties tussen de voorspeller (covariaat) en de afhankelijke variabele. • Afhankelijke waarnemingen of meerdere waarnemingen aan 1 subject • Uitbijters (outliers) • Niet voldoen aan de eisen van de multivariate techniek (ook vaak het gevolg van bovenstaande problemen)