190 likes | 403 Views
Mitmene testimine ülegenoomsetes uuringutes. Märt Möls. Mitmese testimise probleemist. Statistilisel testil on lubatud eksida (olulisuse nivool α =0,05 võivad kuni 5% testidest anda eksliku valepositiivse tulemuse...) 100 sõltumatu arulageda testi puhul:
E N D
Mitmese testimise probleemist • Statistilisel testil on lubatud eksida (olulisuse nivool α=0,05 võivad kuni 5% testidest anda eksliku valepositiivse tulemuse...) • 100 sõltumatu arulageda testi puhul: 0,05*100=5 valepositiivset tulemust; 0,95100=0,0059 ehk tõenäosusega 0,6% ei saa me ühtegi valepositiivset tulemust.
Mitmese testimise probleem on muidugi ammu teada... Farmaatsiakompaniid kordavad kliinilisi katseid senikaua, kuni saavad statistiliselt olulise tulemuse Vaata näiteks suhteliselt hästi dokumenteeritud ravimiga Seroxat - GlaxoSmithKline – seotud juhtumit: Law, ethics and medicine: Seroxat and the suppression of clinical trial data: regulatory failure and the uses of legal ambiguity L McGoey, E Jackson J Med Ethics 2009;35:107-112 doi:10.1136/jme.2008.025361
Geeniteaduses ei vii probleemi ignoreerimine kahjuks paljude artiklite ja rikkuseni... • Mõõdetakse ~300 000... ~2 000 000 SNP iga inimese kohta... SNP – üksiku nukleotiidi polümorfism: ...CCCTGCCTCCCC(C/T)CCAGATGGCG... • 600 000 SNP testimisel tõenäosus mitte saada valepositiivset tulemust: 1,4∙10-13366 Probleem on liiga ilmne tema ignoreerimiseks...
Klassikalised lahendused • Bonferroni meetod • Bonferron-Holm • Sidak • FDR – valeavastusmäär (fikseeritakse ülempiir valesti vastuvõetud alternatiivsete hüpoteeside osakaalule – näiteks valepositiivsete testitulemuste keskmine osakaal ei tohi olla üle 5%)
Bonferroni meetodi põhiolemus P(“valeavastus”) ≤ 0,05/2 +0,05/2 = 0,05
Bonferroni meetodi puudused • Ilmne puudus Enamasti • Esialgu märkamatuks jääv puudus: Arvutused olulisuse nivool 0,05 on lihtsamad kui olulisuse nivool 0,05/10000...
Näide eksitavast rusikareeglist T-test: andmed olgu normaaljaotusega või olgu valim suur
Mittetöötava rusikareegli näide:t-test, “suur valim” (n=100) kasutatud vale testitulemuse olulisuse nivoo (I liiki vea) tõenäosus 0,05 0,0504 0,0005 0,00053 0,000005 0,0000073 0,000005 (ühepoolne) 0,000011 0,000011*10000 ≠ 0,05 Bonferroni meetod võimendab üles ka kõige pisema eksimuse eeldustes suureks probleemiks.
Probleemsed võivad olla ka mitteparameetrilised testid... Kui me ei riski teha eelduseid uuritava tunnuse jaotuse kohta, siis kasutame mitteparameetrilisi teste? Wilcoxon, Kruskal-Wallis, ...? Iseenesest hea idee, aga... ... statistikatarkvara (R,SAS, ...) kasutab enamike nende testide puhul ligikaudseid meetodeid olulisustõenäosuse (p-value) arvutamiseks...
Mida siis teha? Permutatsioonitest? 1. Paiguta fenotüübi väärtused juhuslikult; 2. leia olulisustõenäosus (p-väärtus) kõigi testide ehk kõigi SNP’de jaoks; 3. leia väikseim p-väärtus kõigi testide seast; 4. korda samme 1-3 palju kordi (näiteks 10000 korda); 5. vaata, kui sageli kohtasid sind huvitavast p-väärtusest pisemaid p-väärtuseid...
Seos inimese sotsiaalsuse ja genotüübi vahel - koostöö prof J. Alliku ja prof. M. Remmiga Teste (SNP’e): 299 280 Inimesi: 596 Parim p-väärtus: 0,00000072 Bonferroni otsus: 0,00000072 > 0,05/299280 (= 0,000000167) 299280*0,00000072 > 0,05 0,215 > 0,05 Seose olemasolu ei saa tõestada...
Bonferroni vs permutatsioonitest • Bonferroni korrigeeritud p-väärtus: 299280*0,00000072 = 0,215 • Permutatsioonitest, 0,17 (≈236000*0,00000072) Efektiivne testide arv: 236 000 Kirjandusest: 500 000 SNP’i -> ef. teste ~ 260 000 Piirväärtus teatud juhul (α=0,05,...) ~650 000
Kuidas edasi? SNP asemel testida piirkondade olulisust? Vaatame näiteks 100 SNP pikkuseid juppe? Esialgne hinnang: p-väärtus ~0,03 ???
Lootust on... Kahtlane piirkond on geeni KCNV2 ees ja sees... Mutatsioonid geenis KCNV2 põhjustavad veidrusi värvide tajumisel... Kes näevad kaasinimesi roosades toonides, suhtlevad nendega ka meelsamini?