420 likes | 696 Views
Взаимодействие генов и оценка генетических рисков. А.В. Рубанович. Институт общей генетики им. Н.И. Вавилова РАН. rubanovich@vigg.ru. 5 SNP в генах репарации двойных разрывов ДНК. Нет даже намеков на сопряженность с заболеванием. <. <. <. <. <. Ура! p -value = 0.041.
E N D
Взаимодействие генов и оценка генетических рисков А.В. Рубанович Институт общей генетики им. Н.И. Вавилова РАН rubanovich@vigg.ru
5 SNP вгенах репарации двойных разрывов ДНК Нет даже намеков на сопряженность с заболеванием < < < < < Ура!p-value = 0.041 Тест на недоверчивость Combined effect of polymorphisms in Rad51 and Xrcc3 on breast cancer risk and chromosomal radiosensitivity. Vral A, Willems P, et al. 2011. Mol Med Rep; 4(5): 901-12. Контроль Больные Далее для каждого человека считаем число рисковых генотипов и сравниваем здоровых и больных по Стьюденту Частоты вариантову здоровых ибольных не отличаются Но может надо посмотреть совместное действие 5 SNP? «Рисковые» генотипы (чаще у больных) Вывод: 5 SNP совокупно определяют предрасположенность к РМЖ
Проголосуем? • Кому этот вывод кажется правдоподобным? • Кто считает его лукавым и продиктованным желанием опубликовать статистически значимый результат? • Кто не определился?
То, что здесь вычислялось, называется Genetic Risk Score (GRS) т.е. индекс (показатель, балл) генетического риска
Подлинное название моей лекции: Индексы генетического риска, эпистаз, гаплотипы, множественные регрессии и другие верные способы сделать случайные генетические ассоциации статистически значимыми или как читать работы по ассоциативным генетическим исследованиям
0, гомозигота по протективному аллелю Gi = 1, гетерозигота 2, гомозигота по рисковому аллелю В результате научные журналы заполонили подозрительно красивые картинки, которых не может быть в экспериментальной биологии Genetic Risk Score (GRS) т.е. индекс (показатель, балл) генетического риска Другие названия: gene-gene interactions, combined effects, epistatic effects, joined effect, multi-locus genetic risk, combined analysis of multiple genetic variants... GRS = G1 + G2 + G2 + …т.е. сумма по генотипированным SNP (возможно с весами), обнаружившим тенденцию к сопряженности с заболеванием Дальше можно сравнивать больных и здоровых по уровню GRS, используя критерий Стьюдента или Манна-Уитни
Частота Nature Genetics 42, 132–136 (2010) Эффект (OR) Число рисковых аллелей Подобные картинки всегда отражают некую математическую, а не биологическую закономерность
> < < < > Можно печататься! Все незначимо! Богатство как заболевание (case – control) Так будет всегда! «Значимость» гарантирована, если числопризнаков 5 (независимо от объемов выборок и встречаемости вариантов признаков) Предрасполагающий «гаплотип»: 10001 0.040
! AUC = 0.724 «Парадокс сложения рисков» При увеличении числа признаков кажущаяся «значимость» различий групп по среднему числу рисковых факторовначеловека может быть сколь угодно велика (т.е. р-value 0). Число изученных признаков, заведомо не связанных с заболеванием Кажущаяся значимость отличий по сумме рисковых факторов Начиная с 5 признаков, различиявсегда будут «значимы»
Если заболевание не связано с признаком, то распределения для X1и X0одинаковы При увеличении числа изученныхпризнаков (m)t-статистикадляразличий по сумме «рисковых» факторов растет как Распределение для разности X1-X0 Распределение для разности по модулю. Среднее равно = Отчего это происходит? Все дело в том, что выявление рисковых факторов и оценка их совместного действия проводились для одной и той же выборки Пусть X0и X1 – число обладателей определенного статуса по некому бинарному признаку в двух выборках (0 –контроль, 1 - больные). Даже если эти признаки никак не связаны с заболеванием! Дальше самое важное: В качестве рискового фактора мы берем то значение признака, которое чаще встречается у больных. Тем самым мы переопределяем значения признака так, чтобы в данной выборке X1>X0, т.е. от разности переходим к разности по модулю t-статистика для mпризнаков: ~ Средняя разность 1.13 SE разности ~
т.е. На самом деле f (t) m = 20 m = 50 m = 5 t 0 1 2 3 4 5 6 Кажущееся p-value = 0.037 Более точное утверждение: Довольно неожиданно, что при нулевой гипотезе в среднем Т-статистика и соответствующие значения p-value,не зависят от объемов выборок и частот вариантов признаков При нулевой гипотезе Т-статистика, сравнивающая число рисковых факторов по mпризнакам, не имеет стандартного распределения с нулевым средним! А на самом деле вот так Мы думаем, что так Кажущееся p-value = 210-4 Кажущееся p-value = 10-8
! 2.110-7(жен.) 4.610-11 (муж.) p-value = В таблицах такогоt нет, но можно через Excel: =1- НОРМСТРАСП(6,1) Результаты работы незначимы! Пример использования формулы для Т-статистики при чтении статей (объемы выборок неважны!) 1200 случаев воспалительного заболевания кишечника (IBD - inflammatory bowel disease) против 849 здоровых NADPH oxidase complex genes:RAC2, CYBA , NCF2, NCF4 – всего 58 SNP GRSпо 58 изученным SNP Даже если все эти 58 SNP не связны с IBD: p-value =5.310-10 Контроль IBD Hu P, Muise AM, Xing X et al. Association between a multi-locus genetic risk score and inflammatory bowel disease// Bioinform Biol Insights. 2013 May 19;7:143-52.
В предыдущем примере GRS вычислялся для всех изученных (генотипированных) сайтов Чаще мы сталкиваемся с более сложной ситуацией: из большого числа генотипированных сайтов выбираются несколько «топовых» (рекордных, максимальных по эффекту) Часто для вычисления GRS отбирают все сайты, для которых р-value меньше фиксированного уровня, например р < 0.05
Пример исследования, в котором GRS вычисляется для нескольких «топовых» сайтов 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генахиммунной системы: CD209, DDX58,MBL2, TLR2, TLR3, TLR9 5топовых SNP с 0.005 < p < 0.05 (не преодолевают порог Бонферрони = 0.002) p-value =8.210-4 И это формальное применение t-теста. Нулевая гипотеза должна выполняться значительно чаще! Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G3 (Bethesda). 2013 Jun 21;3(6):971-7.
GRS по всем изученным SNP (k = m): • GRS по kтоповым изmизученных (k < m): Сравнения по GRS для k топовых из m изученных SNP Пусть топовые SNP и GRS определены для одной и той же выборки, при этом GRS вычислено для k топовых из m изученных SNP. Тогда при нулевой гипотезе в среднем Т-статистика различий по GRSбудет равна: - все вычисляется в Excel! =НОРМСТОБР() - обратная (квантильная) функция к стандартному нормальному распределению
Рекордный эффект из mгенотипированных при нулевой гипотезе При сравнении по 5 топовым из 1000 SNP мнимая значимость может быть очень высокой Всегда выше порога Бонферрони Табуляция формулы Кажущаяся значимость различий (p-value), когда GRS вычисляют для k топовыхиз mизученных SNP Бонферрони не пропустит даже рекордный эффект, если он случайный!
! p-value =8.210-4 Любые 26 SNP для 5 топовых в среднем дадут: Пример исследования, в котором GRS вычисляется для нескольких «топовых» сайтов 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генахиммунной системы: CD209, DDX58,MBL2, TLR2, TLR3, TLR9 У них были все шансы получить и более «значимый» результат 5топовых SNP с 0.005 < p < 0.05 (не преодолевают порог Бонферрони = 0.002) Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G3 (Bethesda). 2013 Jun 21;3(6):971-7.
! ~ GC, VDR, CYP2R1, CYP24A1, CYP27B1 Концентрация витамина D Ген rs Хр Генотипы Витамин Dp-value Всего 94SNP > 0.05/94 0.0005 + 91 SNP c p-value > 0.05 Случайная корреляция с GRSпо 3 топовым сайтам из 94 изученных: ptrend < 0.001 Пример исследования «количественный признак -кандидатные гены» Бонферрони не пропускает! GRS=Сумма«понижающих» аллелей #rs2298849*A + #rs2282679*G + #rs10877012*G Signorello LB, Shi J et al. Common variation in vitamin D pathway genes predicts circulating 25-hydroxyvitamin D Levels among African Americans //PLoS One. 2011; 6(12)
Объемы выборок: n0 = n1 = 1000 Число генотипированных сайтов: m = 500 000 GWAS – зона повышенной опасности проявления «парадокса сложения рисков» Оценивать совместные эффекты сниповврамках единичного GWAS совершенно бессмысленно Пусть все SNP несвязаны с заболеванием, и темнеменее больные и здоровые сравниваются по GRS, который вычисляется для kтоповых сайтов (k= 1100) Число топовых SNP из 500 000 изученных, которые использованы при вычислении GRS Кажущаяся значимость отличий по GRS Рекордный SNP из 500 000 изученных. Для него p-value всегдавышепорога Бонферрони (0.05/500 000 = 10-7) Любые манипуляции с 2 или 3 топовыми SNP (эпистаз, гаплотипы)покажут значимость 10-16 - 10-12
Q: А почему я впервые об этом слышу? A: Потому, что раньше все было в порядке! • ХХ век – медицина, экология, социология, демография: • концепция «cumulative risk», т.е. суммы рисковых факторов Например: • Факторы риска: • высокое давление • высокий холестерин • диабет • курение • избыточный вес • малоподвижность RR заболеваний сердца Но при этом всегда Число рисковых факторов рисковые факторы задавались априорно, как общеизвестные, а не назначались по результатам текущего исследования
Q: А почему я впервые об этом слышу? A: Потому, что раньше все было в порядке! • ХХ век – медицина, экология, социология, демография: • концепция «cumulative risk», т.е. суммы рисковых факторов • ХХI век – генетика, ассоциативные генетические исследования: • концепция «genetic risk score», т.е. числа рисковых аллелей, • предрасполагающих к заболеванию Ситуацию с вычислением суммарного риска изменили два обстоятельства: • Как правило, сравнивая генотипы больных и здоровых, мы • заранее не знаем какой аллель на самом деле является рисковым Shen H. et al.. PLoS One (2013): из 3.3 млн. SNP лишь 0. 005% связаны с инактивацией генного продукта (loss-of-function) • Однолокусные (индивидуальные) эффекты SNP редки иочень • малы. В среднем для маргинальных эффектов отношение • шансов OR < 1.5
Не измеряется в «case-control», но всегда PPV < OR , где -распространенность заболевания PPV < 0.001 1.5 =0.0015 - кому нужен такой прогноз! Например, SNP-маркеры предрасположенности: самые превентивные и самые бесполезные 92 SNP - 16 заболеваний (высокая воспроизводимость) Wray et al. (2008) Curr Opin Genet Dev. Для клиники такие ORсовершенно бесполезны. Нужно знать PPV: Positive Predictive Value- доля больных среди носителей маркера. Кстати, даже для маммографии (OR = 200): PPV = 14% - всего!
В «поисках значимости» мы вынуждены прибегать к тем или иным способам оценки совместного действия генов: • Эпистаз • Индексы генетического риска (GRS) • Множественнаякорреляция (оценки наследуемости) Как же приэтом избежать проявлений «парадокса сложения рисков»? потому что проблему «missing heritability» никто не отменял: «still missing»! Мы научились считывать всю возможную изменчивость нуклеотидов, но это не помогает нам объяснить даже несколько процентов тойнаследуемости, которая наблюдается в родословных.
Как же избежать проявлений «парадокса сложения рисков»? • Использовать формулу • для оценки ситуации, которая возникает при нулевой гипотезе • (что-то вроде поправки Бонферрони). Вычисленное значение t-статистики должно удовлетворять неравенству: (ранее мы полагали, что t > 1.96) Но все-таки лучше: • Проводить оценку индивидуальных эффектов снипов (OR) и • последующую оценку их совместного действия (GRS, h2) на • разных выборках Критические уровни p-value
! OR, p-value GRS, h2 В противном случае вы неизбежно столкнетесь с «парадоксом сложения рисков» 2 этапа – стандарт современных ассоциативных генетических исследований Валидизация результатов - не просто проверка воспроизводимости Discovery sample Направленность и уровень индивидуальных эффектов SNP (OR, p-value) Ни в коем случае не оценивать заново OR и не сливать выборки! Оценка любых совместных, в том числе эпистатических эффектовдлятоповых SNP, а также оценка наследуемости и доли объясненной вариансы (GRS, h2) Validation (target) sample Контроль Больные Альтернатива: cross-validation кросс-валидация на большой выборке
Discoverysample: GWAS1 GWAS2 GWAS3 … Мета-анализ • Чем сложнее это понять, тем красивей картинки Только после GWAS и на независимой выборке Target sample: 20 – 50 топовых SNP Оценки совместногодействия SNP: GRS, r, h2, AUC, PPV, NPV Сегодня так проводят исследования большинства широко распространенных заболеваний: рак, атеросклероз, диабет 2-го рода, астма, шизофрения Однако, во многих случаях возникают сомнения: • Первый GWAS (редкие или малоизученные заболевания и признаки) • Частичное совпадение Discoverysample и Target sample • Часто авторы добавляют в список кандидатных сниповиз предшествующих • GWAS несколько десятков новых SNP, которые выявлены для Target sample • Ссылки не на снипы, а на кандидатные гены или участки, обнаруженные • ранее другими исследователями • Часто бывает трудно понять: рисковые аллели выявлены в данном • исследовании или взяты из более ранних GWAS?
! GWAS 600 000 SNP 1054 случаев облысения GRSдля 16топовых SNP в генах иммунного ответа Случайные различия по GRS по 16топовым сайтам из 600 000 изученных: Пример исследования «качественный признак - GWAS» 139 ассоциированных SNP на уровне p-value < 510-7 ptrend < 10-107 L. Petukhova, M. Duvic et al. Genome-wide association study in alopecia areata implicates both innate and adaptive immunity // Nature (2010), 466, 113–117
Если Discovery = Validation, то и при H0 корреляция признака с GRSпо топовыми снипами может быть очень высока m = 100 000 k = 10 k = 100 k = 1000 Prof. Peter Visscher, Univ. of Queensland, Australia 0.56 1000 Объем выборки (n) Pitfalls of predicting complex traits from SNPs Ловушки, связанные с предсказанием сложных признаков по снипам Wray NR, Yang J,…, Visscher PM. Nat Rev Genet. 2013 Jul;14(7) «Do not re-estimate effect sizes of selected SNPs in the validation sample» 1000 больных, 1000 здоровых и 100 000 SNP, несвязанных с заболеванием. Из них 100 топовых SNP совместно обеспечат корреляцию с заболеванием 0.56 или наследуемость порядка 0.562 30%
, но , где N – число точек при m >> n иk > 0.1m Ясно, что , если число признаков сравнения существенно большеобъемов выборок Что мы имеем вместо нуля: выборочные корреляции при нулевой гипотезе Случайная выборочная корреляция между двумя независимыми признаками весьма ощутима при малых выборках: Например, при N = 4 всреднем | r | ~ ½ !!! Случайные корреляции «заболевание - GRS» могут быть гораздо выше: пусть объемы выборок больных и здоровых равны: n0 = n1 = n, и GRSвычисляетсядля kтоповых признаков из mизученных. Тогда при Н0 корреляция «заболевание - GRS» в среднем равна:
«Парадокс сложения рисков» подкарауливает нас еще в одной ситуации (уже без всяких «рисковых» факторов): множественная регрессия Это тоже оценка совместного действия признаков-предикторов
Как устроена множественная регрессия например, в программе STATISTICA Y – зависимая переменная, фенотип (например, болен-здоров) X1, X1,…, Xm – независимые переменные, признаки-предикторы (например, SNP) Значимость индивидуальных вкладов предикторов Y ~ a + b1X1 + b2X2+ … + bmXm Стандартизированные коэффициенты для сравнения эффектов предикторов Коэффициент множественной корреляции (доля объясненной изменчивости зависимой переменной) Regression Summary for Dependent Variable: Y R= 0,429 R2= 0,184 Adjusted R2 = 0,098 F(3,6)= 0,452 p< 0,725 Std.Error of estimate: 0,583 Значимость модели в целом
Богатство как заболевание (case – control) + b1 + b2 + b3 + b4 + b5 Богатство ~ a Наверно, «рисковые» факторы – это неправильно! Попробуем множественную регрессию - это тоже оценка совместного действия предикторов Никаких чудес: квадрат множественной корреляцииR2 = 0.033 Значимость в целом p-value = 0.615
Не сдаемся – очень хочется разбогатеть! и т.д.,все, что приходит в голову – всего 50 признаков Множественная регрессия для 50 признаков:R2 = 0.234 p-value = 0.667
Не сдаемся – очень хочется разбогатеть! Итак, в совокупности 50 признаков незначимы: p-value = 0.667, причем для всех признаков маргинальные эффекты сp-value > 0.1 Отберем 3 топовых признака из 50: • Наглаз по величине p-value, либо • Используя встроенную процедуру Stepwise Для 3 топовых признаков:R2 = 0.072, в целом p-value = 0.008! На самом деле все изученные признаки заведомо не связаны с банковским счетом!
Journal of Animal Ecology (2006), 75, 1182–1189 Это называется парадокс Фридмана (1983) D. Freedman. A Note on Screening Regression Equations. The American Statistician, V. 37, 2, (1983) При большом числе предикторов отбор топовых признаков приводит, к построению ложноположительных регрессий Более того: любые процедуры отбора топовых из большого числа предикторов обеспечат мнимую значимость, в т.ч. Stepwise, встроенный в статистические пакеты SPSS, STATISTICA и пр.
G1, G2, G3, … , Gm-1, Gm Исходнаясовокупность признаков – «предикторов» k << m G1, G2, … , Gk Отобранные топовые по эффекту признаки: • Множественная регрессия: Y ~ a + b1G1 + b2G2+ … + bkGk • Регрессия «заболевание – GRS»: Y ~ a + b(|G1| + |G2|+ … + |Gk|) GRS Симуляции показывают, что при k <<m Множественная регрессия и GRS при Н0 R2 – множественная корреляция (не учитывает знаки bi) r2 – корреляция Y ~ GRS (не учитывает знаки Gi) Парадоксы Фридмана и «сложения рисков» имеют одинаковую природу:суммирование топовых незначимых эффектов без учета их направленности
! Множественная регрессия и GRS при Н0 Что более эффективно в деле получения фальшивых результатов? Если иметь в виду кажущееся p-value, то корреляции с GRS нанесколько поряков опасней, чем множественная регрессия топовых признаков Пустьn0 = n1 = 500, но это не влияет на p-value (только на R2) Число изученных признаков, заведомо не связанных с заболеванием Число отобранных топовых признаков =
XX век Размеры выборок гораздо больше, чем число признаков сравнения Число признаков сравнения на порядки превосходит объемы выборок • Microarray: n ~ 5 – 20 (!), m > 10 000 Радикальноеизменение ситуации в экспериментальной биологии и биомедицине =Big Manipulations? XXI век Забвение классического правила: 10 outcome events per predictor variable (EPV) • GWAS: n ~ 1000, m > 500 000 Подавляющее большинстворезультатов исследований «профиля экспрессии» генов никогда не воспроизводятся!
Объем поверхностного слоя толщиной R при Объем сферы радиуса R d = 1 d = 2 d = 3 d = 1000 ? 0.99996 0.010 0.030 0.020 Объем d-мерной сферы: Жизнь в пространствах с большим числом измерений не похожа на трехмерную! Это вероятность того, что случайно выбранная точка лежит вблизи поверхности Это означает, что почти все случайно распределенные точки лежат на поверхности!
В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Вычисление Genetic Risk Score (GRS) • GRS - число рисковых аллелей на человека, т.е. сумма аллелей • предрасполагающих к заболеванию или повышающих значение признака • Оценка эпистатических эффектов «топовых» сайтов • Часто приходится видеть как комбинированный генотип (или гаплотип) • объявляется сопряженным с заболеванием, в то время как все индивидуальные • эффекты снипов статистически незначимы. При этом рассматривается совместный • эффект «топовых» SNP из числа незначимых. • Анализ результатов GWAS и DNA-Microarray • В современных ассоциативных исследованияхчисло предикторов стремительно • растет и часто на порядки превышает объемы выборок. При этом кажущаяся • значимость эффектовпо GRS может достигать невероятного уровня, например, • p-value = 10-100 • Оценка наследуемости и вычисление корреляций «SNP-фенотип» • Работы, в которых анонсированы высокие корреляции «признак - SNPs» (0.3 – 0.7), • требуют тщательного разбора на предмет присутствия «парадокса сложения рисков»
Более конкретные выводы – их только два! • Определение направленности индивидуального действия • снипов (OR) и оценка их совместного действия (GRS, R2) • должны проводиться на разных выборках • В противном случае показатели типа GRS обнаружат мнимую • сопряженность с фенотипом, «значимость» которой • пропорциональна числу снипов, входящих в GRS
Спасибо организаторам Школы и всем присутствующим! Слайды доступны! rubanovich@vigg.ru