480 likes | 608 Views
Introduktion til biostatistik 2008 Biostatistics kap 1 , 2 og 3 Uge 46 Inge Henningsen. Introduktion til (bio)statistik. Hvad er (bio)statistik Data Planlægning af forsøg (Design) Gentagelser/Den videnskabelige metode Brug af statistiske metoder. Hvad er (bio)statistik?.
E N D
Introduktion til biostatistik 2008 • Biostatistics kap 1 , 2 og 3 • Uge 46 • Inge Henningsen Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Introduktion til (bio)statistik • Hvad er (bio)statistik • Data • Planlægning af forsøg (Design) • Gentagelser/Den videnskabelige metode • Brug af statistiske metoder Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Hvad er (bio)statistik? • Statistiske Metoder omfatter procedurer for • At planlægge undersøgelser • Indsamle data • Præsentere og opsummere data • Slutte fra en stikprøve (et udvalg af data) til en bagvedliggende population Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Data – Grundlaget for undersøgelser • Observationer med variabilitet/usikkerhed • Biologisk variation • “Målefejl” • “Crap in – crap out” Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Planlægning af forsøg • Afgrænsning af undersøgelsespopulation/referenceramme • Valg af undersøgelsesenheder (randomisering) • Målemetoder • Repræsentativitet/Generalisering • Stikprøvestørrelse Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Planlægning af forsøg • Afgrænsning af undersøgelsespopulation/referenceramme • Valg af undersøgelsesenheder (randomisering) • Målemetoder • Repræsentativitet/Generalisering • Stikprøvestørrelse Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Gentagelse/den videnskabelige metode • Sammenhæng er ikke kausalitet • Metaanalyser Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Brug af statistiske metoder • Det vigtigste er at forstå den sammenhæng i hvilken de statistiske procedurer bruges • Denne sammenhæng omfatter • Formålet med undersøgelsen • Data • Hvordan data er indsamlet og målt • Grundlaget for at bruge de forskellige statistiske procedurer • Mere end at kunne bruge en statistikpakke!!!! Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Data og tal • 2.1 Data: Numerisk Repræsentation • 2.2 Observationer og Variable • 2.3 Skalaer • 2.4 Reliabilitet and Validitet • 2.6 Almindelige Problemer med Data Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Data og tal • 2.1 Data: Numerisk Repræsentation • 2.2 Observationer og Variable Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Data dig40 (udsnit) • id trtmt age race sex bmi creat sysbp • 2289 0 76 1 1 30.586 1.700 130 • 6745 0 45 1 1 22.850 1.398 130 • 1322 1 45 1 2 43.269 0.900 115 • 538 1 31 1 1 27.025 1.159 120 • 999 1 47 1 2 30.506 1.386 120 • 3103 0 60 1 1 29.867 1.091 140 • 1954 1 77 1 1 26.545 1.307 140 • 5750 1 76 1 1 39.837 1.455 140 • 1109 0 68 1 2 27.532 1.534 144 • ......... Inge Henningsen, University of Copenhagen, inge@math.ku.dk
2.3 Skalaer Nominal/kategorisk Ordinal/ordnet Interval/afstand giver mening Ratio/interval + nulpunkt Inge Henningsen, University of Copenhagen, inge@math.ku.dk
2.4 Reliabilitet (pålidelighed) og Validitet • Reliabilitet - gentagen brug af metoden vil give (omtrent) de samme resultater • Validitet - måler metoden det man tror at den måler Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Almindelige dataproblemer • Manglende værdier • Outliers • Koder som 99 eller 999 for manglende observationer behandles som datra • Ændringer i målemetode/ i kodning/ niveauskift for proces etc. • Data er for “pæne” • Falsifikation agl@lysgaard.com Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Introduktion til biostatistik 2008 • Biostatistics kap 3 • Inge Henningsen Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Hvad er (bio)statistik? • Statistiske Metoder omfatter procedurer for • At planlægge undersøgelser • Indsamle data • Præsentere og opsummere data • Slutte fra en stikprøve (et udvalg af data) til en bagvedliggende population Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Data – Grundlaget for undersøgelser • Data er “Numerisk Repræsentation” • Observationer og Variable • Målinger og skalaer • Observationer med variabilitet/usikkerhed • Biologisk variation • “Målefejl” Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Data dig40 (udsnit) • id trtmt age race sex bmi creat sysbp • 2289 0 76 1 1 30.586 1.700 130 • 6745 0 45 1 1 22.850 1.398 130 • 1322 1 45 1 2 43.269 0.900 115 • 538 1 31 1 1 27.025 1.159 120 • 999 1 47 1 2 30.506 1.386 120 • 3103 0 60 1 1 29.867 1.091 140 • 1954 1 77 1 1 26.545 1.307 140 • 5750 1 76 1 1 39.837 1.455 140 • 1109 0 68 1 2 27.532 1.534 144 • ......... Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Skalaer Nominal/kategorisk Ordinal/ordnet Interval/afstand giver mening Ratio/interval + nulpunkt Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Beskrivelse af datasæt • Summariske mål • Niveau • Gennemsnit • Median • Modus • Variabilitet • Range • Interquartile range • Varians • Spredning Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Middelværdi og varians Spredning = standardafvigelse Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Quartiler • 25%-quartil= 25% af observationerne ligger til venstre for punktet • 50%-quartil = 50% af observationerne ligger til venstre for punktet (median) • 75%-quartil= 75% af observationerne ligger til venstre for punktet • Interquartil-afstand = 75%-quartil – 25%-quartil Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Nogle noter om SAS systemet • PC-SAS. Version 9.1 for Windows • SAS (= Strategic Analysis system) er Statistik-system/”Statistik-pakke” • Andre systemer Inge Henningsen, University of Copenhagen, inge@math.ku.dk
SAS Program • SAS er et selvstændigt sprog. • Kræver (formelt) ikke kendskab til programmering • Særheder: • Variable deklareres ikke • Linieskift betyder ikke noget. I stedet bruges ’;’ • SAS-program Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Data dig40 (udsnit) • id trtmt age race sex bmi creat sysbp • 2289 0 76 1 1 30.586 1.700 130 • 6745 0 45 1 1 22.850 1.398 130 • 1322 1 45 1 2 43.269 0.900 115 • 538 1 31 1 1 27.025 1.159 120 • 999 1 47 1 2 30.506 1.386 120 • 3103 0 60 1 1 29.867 1.091 140 • 1954 1 77 1 1 26.545 1.307 140 • 5750 1 76 1 1 39.837 1.455 140 • 1109 0 68 1 2 27.532 1.534 144 • ......... Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Co-transfections assay • Undersøgelse af effekten af v-H-ras på to geners promotorer, MARC og UPase. Data stammer fra co-transfektions assays af et reporter konstrukt indeholdene enten promotoren for MARC eller for UPase. Den respektive promotor er klonet ind i et plasmid der indeholder genet for Luciferase, sådan at genet kommer under promotorens kontrol. Luciferase omdanner luciferin til et flourescerende stof. Jo mere promotor aktivitet, jo større mængder Luciferase og jo større lysintensitet fås. For hver af 6 promotorer, MARC740, UPase-n, MARC184, MARC208, MARC740c og MARC740i, foretoges 3 målinger af mængden af Luciferase efter tilsættelse af 1.5 $\mu$g Ras plasmid. Målingerne, der er korrigeret for udsving i transmissions- effektivitet og for aktivitet ved 0 $\mu$g Ras plasmid, er i det følgende betegnet foldinduktionen. Logaritmen til foldinduktionen er angivet i tabellen nedenfor. Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Datasæt Logaritme til foldinduktion efter tilsættelse af Plasmid i 6 forsøg Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Datasæt Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Datatrin • Datasættet har 37 observationer og • 4 variable • type, h, l, u, • der for hver observation angiver hhv • type • andel højmokylær M • andel lav molekylær M • andel uglykosyleret M • Kilde: Collinge et al, Nature vol 383, 24. oktober 1996. Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Datatrin • Datasættet har 43 observationer og 3 variable • type, genotype, art • der for hver observation angiver hhv • type • genotype • genese • Kilde: Collinge et al, Nature vol 383, 24. oktober 1996. Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Data dig40 (udsnit) • id trtmt age race sex bmi creat sysbp • 2289 0 76 1 1 30.586 1.700 130 • 6745 0 45 1 1 22.850 1.398 130 • 1322 1 45 1 2 43.269 0.900 115 • 538 1 31 1 1 27.025 1.159 120 • 999 1 47 1 2 30.506 1.386 120 • 3103 0 60 1 1 29.867 1.091 140 • 1954 1 77 1 1 26.545 1.307 140 • 5750 1 76 1 1 39.837 1.455 140 • 1109 0 68 1 2 27.532 1.534 144 • ......... Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Skalaer Nominal/kategorisk Ordinal/ordnet Interval/afstand giver mening Ratio/interval + nulpunkt Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Beskrivelse af datasæt • Summariske mål • Niveau • Gennemsnit • Median • Modus • Variabilitet • Range • Interquartile range • Varians • Spredning Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Middelværdi og varians Spredning = standardafvigelse Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Quartiler • 25%-quartil= 25% af observationerne ligger til venstre for punktet • 50%-quartil = 50% af observationerne ligger til venstre for punktet (median) • 75%-quartil= 75% af observationerne ligger til venstre for punktet • Interquartil-afstand = 75%-quartil – 25%-quartil Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Nogle noter om SAS systemet • PC-SAS. Version 9.1 for Windows • SAS (= Strategic Analysis system) er Statistik-system/”Statistik-pakke” • Andre systemer Inge Henningsen, University of Copenhagen, inge@math.ku.dk
SAS Program • SAS er et selvstændigt sprog. • Kræver (formelt) ikke kendskab til programmering • Særheder: • Variable deklareres ikke • Linieskift betyder ikke noget. I stedet bruges ’;’ • SAS-program Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Datamatrix Datatrin Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Datamatrix Datatrin Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Data dig40 (udsnit) • id trtmt age race sex bmi creat sysbp • 2289 0 76 1 1 30.586 1.700 130 • 6745 0 45 1 1 22.850 1.398 130 • 1322 1 45 1 2 43.269 0.900 115 • 538 1 31 1 1 27.025 1.159 120 • 999 1 47 1 2 30.506 1.386 120 • 3103 0 60 1 1 29.867 1.091 140 • 1954 1 77 1 1 26.545 1.307 140 • 5750 1 76 1 1 39.837 1.455 140 • 1109 0 68 1 2 27.532 1.534 144 • ......... Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Co-transfections assay • Undersøgelse af effekten af v-H-ras på to geners promotorer, MARC og UPase. Data stammer fra co-transfektions assays af et reporter konstrukt indeholdene enten promotoren for MARC eller for UPase. Den respektive promotor er klonet ind i et plasmid der indeholder genet for Luciferase, sådan at genet kommer under promotorens kontrol. Luciferase omdanner luciferin til et flourescerende stof. Jo mere promotor aktivitet, jo større mængder Luciferase og jo større lysintensitet fås. For hver af 6 promotorer, MARC740, UPase-n, MARC184, MARC208, MARC740c og MARC740i, foretoges 3 målinger af mængden af Luciferase efter tilsættelse af 1.5 $\mu$g Ras plasmid. Målingerne, der er korrigeret for udsving i transmissions- effektivitet og for aktivitet ved 0 $\mu$g Ras plasmid, er i det følgende betegnet foldinduktionen. Logaritmen til foldinduktionen er angivet i tabellen nedenfor. Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Datasæt Logaritme til foldinduktion efter tilsættelse af Plasmid i 6 forsøg Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Datasæt Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Datatrin • Datasættet har 37 observationer og • 4 variable • type, h, l, u, • der for hver observation angiver hhv • type • andel højmokylær M • andel lav molekylær M • andel uglykosyleret M • Kilde: Collinge et al, Nature vol 383, 24. oktober 1996. Inge Henningsen, University of Copenhagen, inge@math.ku.dk
Datatrin • Datasættet har 43 observationer og 3 variable • type, genotype, art • der for hver observation angiver hhv • type • genotype • genese • Kilde: Collinge et al, Nature vol 383, 24. oktober 1996. Inge Henningsen, University of Copenhagen, inge@math.ku.dk