1 / 42

Институт общей генетики им. Н.И. Вавилова РАН

Взаимодействие генов и оценка генетических рисков. А.В. Рубанович. Институт общей генетики им. Н.И. Вавилова РАН. rubanovich@vigg.ru. 5 SNP в генах репарации двойных разрывов ДНК. Нет даже намеков на сопряженность с заболеванием. <. <. <. <. <. Ура! p -value = 0.041.

najila
Download Presentation

Институт общей генетики им. Н.И. Вавилова РАН

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Взаимодействие генов и оценка генетических рисков А.В. Рубанович Институт общей генетики им. Н.И. Вавилова РАН rubanovich@vigg.ru

  2. 5 SNP вгенах репарации двойных разрывов ДНК Нет даже намеков на сопряженность с заболеванием < < < < < Ура!p-value = 0.041 Тест на недоверчивость Combined effect of polymorphisms in Rad51 and Xrcc3 on breast cancer risk and chromosomal radiosensitivity. Vral A, Willems P, et al. 2011. Mol Med Rep; 4(5): 901-12. Контроль Больные Далее для каждого человека считаем число рисковых генотипов и сравниваем здоровых и больных по Стьюденту Частоты вариантову здоровых ибольных не отличаются Но может надо посмотреть совместное действие 5 SNP? «Рисковые» генотипы (чаще у больных) Вывод: 5 SNP совокупно определяют предрасположенность к РМЖ

  3. Проголосуем? • Кому этот вывод кажется правдоподобным? • Кто считает его лукавым и продиктованным желанием опубликовать статистически значимый результат? • Кто не определился?

  4. То, что здесь вычислялось, называется Genetic Risk Score (GRS) т.е. индекс (показатель, балл) генетического риска

  5. Подлинное название моей лекции: Индексы генетического риска, эпистаз, гаплотипы, множественные регрессии и другие верные способы сделать случайные генетические ассоциации статистически значимыми или как читать работы по ассоциативным генетическим исследованиям

  6. 0, гомозигота по протективному аллелю Gi = 1, гетерозигота 2, гомозигота по рисковому аллелю В результате научные журналы заполонили подозрительно красивые картинки, которых не может быть в экспериментальной биологии Genetic Risk Score (GRS) т.е. индекс (показатель, балл) генетического риска Другие названия: gene-gene interactions, combined effects, epistatic effects, joined effect, multi-locus genetic risk, combined analysis of multiple genetic variants... GRS = G1 + G2 + G2 + …т.е. сумма по генотипированным SNP (возможно с весами), обнаружившим тенденцию к сопряженности с заболеванием Дальше можно сравнивать больных и здоровых по уровню GRS, используя критерий Стьюдента или Манна-Уитни

  7. Частота Nature Genetics 42, 132–136 (2010) Эффект (OR) Число рисковых аллелей Подобные картинки всегда отражают некую математическую, а не биологическую закономерность

  8. >  < < <  > Можно печататься! Все незначимо! Богатство как заболевание (case – control) Так будет всегда! «Значимость» гарантирована, если числопризнаков  5 (независимо от объемов выборок и встречаемости вариантов признаков) Предрасполагающий «гаплотип»: 10001 0.040

  9. ! AUC = 0.724 «Парадокс сложения рисков» При увеличении числа признаков кажущаяся «значимость» различий групп по среднему числу рисковых факторовначеловека может быть сколь угодно велика (т.е. р-value 0). Число изученных признаков, заведомо не связанных с заболеванием Кажущаяся значимость отличий по сумме рисковых факторов Начиная с 5 признаков, различиявсегда будут «значимы»

  10. Если заболевание не связано с признаком, то распределения для X1и X0одинаковы При увеличении числа изученныхпризнаков (m)t-статистикадляразличий по сумме «рисковых» факторов растет как  Распределение для разности X1-X0 Распределение для разности по модулю. Среднее равно = Отчего это происходит? Все дело в том, что выявление рисковых факторов и оценка их совместного действия проводились для одной и той же выборки Пусть X0и X1 – число обладателей определенного статуса по некому бинарному признаку в двух выборках (0 –контроль, 1 - больные). Даже если эти признаки никак не связаны с заболеванием! Дальше самое важное: В качестве рискового фактора мы берем то значение признака, которое чаще встречается у больных. Тем самым мы переопределяем значения признака так, чтобы в данной выборке X1>X0, т.е. от разности переходим к разности по модулю t-статистика для mпризнаков: ~ Средняя разность 1.13 SE разности ~

  11. т.е. На самом деле f (t) m = 20 m = 50 m = 5 t 0 1 2 3 4 5 6 Кажущееся p-value = 0.037 Более точное утверждение: Довольно неожиданно, что при нулевой гипотезе в среднем Т-статистика и соответствующие значения p-value,не зависят от объемов выборок и частот вариантов признаков При нулевой гипотезе Т-статистика, сравнивающая число рисковых факторов по mпризнакам, не имеет стандартного распределения с нулевым средним! А на самом деле вот так Мы думаем, что так Кажущееся p-value = 210-4 Кажущееся p-value = 10-8

  12. ! 2.110-7(жен.) 4.610-11 (муж.) p-value = В таблицах такогоt нет, но можно через Excel: =1- НОРМСТРАСП(6,1) Результаты работы незначимы! Пример использования формулы для Т-статистики при чтении статей (объемы выборок неважны!) 1200 случаев воспалительного заболевания кишечника (IBD - inflammatory bowel disease) против 849 здоровых NADPH oxidase complex genes:RAC2, CYBA , NCF2, NCF4 – всего 58 SNP GRSпо 58 изученным SNP Даже если все эти 58 SNP не связны с IBD: p-value =5.310-10 Контроль IBD Hu P, Muise AM, Xing X et al. Association between a multi-locus genetic risk score and inflammatory bowel disease// Bioinform Biol Insights. 2013 May 19;7:143-52.

  13. В предыдущем примере GRS вычислялся для всех изученных (генотипированных) сайтов Чаще мы сталкиваемся с более сложной ситуацией: из большого числа генотипированных сайтов выбираются несколько «топовых» (рекордных, максимальных по эффекту) Часто для вычисления GRS отбирают все сайты, для которых р-value меньше фиксированного уровня, например р < 0.05

  14. Пример исследования, в котором GRS вычисляется для нескольких «топовых» сайтов 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генахиммунной системы: CD209, DDX58,MBL2, TLR2, TLR3, TLR9 5топовых SNP с 0.005 < p < 0.05 (не преодолевают порог Бонферрони = 0.002) p-value =8.210-4 И это формальное применение t-теста. Нулевая гипотеза должна выполняться значительно чаще! Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G3 (Bethesda). 2013 Jun 21;3(6):971-7.

  15. GRS по всем изученным SNP (k = m): • GRS по kтоповым изmизученных (k < m): Сравнения по GRS для k топовых из m изученных SNP Пусть топовые SNP и GRS определены для одной и той же выборки, при этом GRS вычислено для k топовых из m изученных SNP. Тогда при нулевой гипотезе в среднем Т-статистика различий по GRSбудет равна: - все вычисляется в Excel! =НОРМСТОБР() - обратная (квантильная) функция к стандартному нормальному распределению

  16. Рекордный эффект из mгенотипированных при нулевой гипотезе При сравнении по 5 топовым из 1000 SNP мнимая значимость может быть очень высокой Всегда выше порога Бонферрони Табуляция формулы Кажущаяся значимость различий (p-value), когда GRS вычисляют для k топовыхиз mизученных SNP Бонферрони не пропустит даже рекордный эффект, если он случайный!

  17. ! p-value =8.210-4 Любые 26 SNP для 5 топовых в среднем дадут: Пример исследования, в котором GRS вычисляется для нескольких «топовых» сайтов 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генахиммунной системы: CD209, DDX58,MBL2, TLR2, TLR3, TLR9 У них были все шансы получить и более «значимый» результат 5топовых SNP с 0.005 < p < 0.05 (не преодолевают порог Бонферрони = 0.002) Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G3 (Bethesda). 2013 Jun 21;3(6):971-7.

  18. ! ~ GC, VDR, CYP2R1, CYP24A1, CYP27B1 Концентрация витамина D Ген rs Хр Генотипы Витамин Dp-value Всего 94SNP > 0.05/94  0.0005 + 91 SNP c p-value > 0.05 Случайная корреляция с GRSпо 3 топовым сайтам из 94 изученных: ptrend < 0.001 Пример исследования «количественный признак -кандидатные гены» Бонферрони не пропускает! GRS=Сумма«понижающих» аллелей #rs2298849*A + #rs2282679*G + #rs10877012*G Signorello LB, Shi J et al. Common variation in vitamin D pathway genes predicts circulating 25-hydroxyvitamin D Levels among African Americans //PLoS One. 2011; 6(12)

  19. Объемы выборок: n0 = n1 = 1000 Число генотипированных сайтов: m = 500 000 GWAS – зона повышенной опасности проявления «парадокса сложения рисков» Оценивать совместные эффекты сниповврамках единичного GWAS совершенно бессмысленно Пусть все SNP несвязаны с заболеванием, и темнеменее больные и здоровые сравниваются по GRS, который вычисляется для kтоповых сайтов (k= 1100) Число топовых SNP из 500 000 изученных, которые использованы при вычислении GRS Кажущаяся значимость отличий по GRS Рекордный SNP из 500 000 изученных. Для него p-value всегдавышепорога Бонферрони (0.05/500 000 = 10-7) Любые манипуляции с 2 или 3 топовыми SNP (эпистаз, гаплотипы)покажут значимость 10-16 - 10-12

  20. Q: А почему я впервые об этом слышу? A: Потому, что раньше все было в порядке! • ХХ век – медицина, экология, социология, демография: • концепция «cumulative risk», т.е. суммы рисковых факторов Например: • Факторы риска: • высокое давление • высокий холестерин • диабет • курение • избыточный вес • малоподвижность RR заболеваний сердца Но при этом всегда Число рисковых факторов рисковые факторы задавались априорно, как общеизвестные, а не назначались по результатам текущего исследования

  21. Q: А почему я впервые об этом слышу? A: Потому, что раньше все было в порядке! • ХХ век – медицина, экология, социология, демография: • концепция «cumulative risk», т.е. суммы рисковых факторов • ХХI век – генетика, ассоциативные генетические исследования: • концепция «genetic risk score», т.е. числа рисковых аллелей, • предрасполагающих к заболеванию Ситуацию с вычислением суммарного риска изменили два обстоятельства: • Как правило, сравнивая генотипы больных и здоровых, мы • заранее не знаем какой аллель на самом деле является рисковым Shen H. et al.. PLoS One (2013): из 3.3 млн. SNP лишь 0. 005% связаны с инактивацией генного продукта (loss-of-function) • Однолокусные (индивидуальные) эффекты SNP редки иочень • малы. В среднем для маргинальных эффектов отношение • шансов OR < 1.5

  22. Не измеряется в «case-control», но всегда PPV < OR , где  -распространенность заболевания PPV < 0.001 1.5 =0.0015 - кому нужен такой прогноз! Например, SNP-маркеры предрасположенности: самые превентивные и самые бесполезные 92 SNP - 16 заболеваний (высокая воспроизводимость) Wray et al. (2008) Curr Opin Genet Dev. Для клиники такие ORсовершенно бесполезны. Нужно знать PPV: Positive Predictive Value- доля больных среди носителей маркера. Кстати, даже для маммографии (OR = 200): PPV = 14% - всего!

  23. В «поисках значимости» мы вынуждены прибегать к тем или иным способам оценки совместного действия генов: • Эпистаз • Индексы генетического риска (GRS) • Множественнаякорреляция (оценки наследуемости) Как же приэтом избежать проявлений «парадокса сложения рисков»? потому что проблему «missing heritability» никто не отменял: «still missing»! Мы научились считывать всю возможную изменчивость нуклеотидов, но это не помогает нам объяснить даже несколько процентов тойнаследуемости, которая наблюдается в родословных.

  24. Как же избежать проявлений «парадокса сложения рисков»? • Использовать формулу • для оценки ситуации, которая возникает при нулевой гипотезе • (что-то вроде поправки Бонферрони). Вычисленное значение t-статистики должно удовлетворять неравенству: (ранее мы полагали, что t > 1.96) Но все-таки лучше: • Проводить оценку индивидуальных эффектов снипов (OR) и • последующую оценку их совместного действия (GRS, h2) на • разных выборках Критические уровни p-value

  25. ! OR, p-value GRS, h2 В противном случае вы неизбежно столкнетесь с «парадоксом сложения рисков» 2 этапа – стандарт современных ассоциативных генетических исследований Валидизация результатов - не просто проверка воспроизводимости Discovery sample Направленность и уровень индивидуальных эффектов SNP (OR, p-value) Ни в коем случае не оценивать заново OR и не сливать выборки! Оценка любых совместных, в том числе эпистатических эффектовдлятоповых SNP, а также оценка наследуемости и доли объясненной вариансы (GRS, h2) Validation (target) sample Контроль Больные Альтернатива: cross-validation кросс-валидация на большой выборке

  26. Discoverysample: GWAS1 GWAS2 GWAS3 … Мета-анализ • Чем сложнее это понять, тем красивей картинки Только после GWAS и на независимой выборке Target sample: 20 – 50 топовых SNP Оценки совместногодействия SNP: GRS, r, h2, AUC, PPV, NPV Сегодня так проводят исследования большинства широко распространенных заболеваний: рак, атеросклероз, диабет 2-го рода, астма, шизофрения Однако, во многих случаях возникают сомнения: • Первый GWAS (редкие или малоизученные заболевания и признаки) • Частичное совпадение Discoverysample и Target sample • Часто авторы добавляют в список кандидатных сниповиз предшествующих • GWAS несколько десятков новых SNP, которые выявлены для Target sample • Ссылки не на снипы, а на кандидатные гены или участки, обнаруженные • ранее другими исследователями • Часто бывает трудно понять: рисковые аллели выявлены в данном • исследовании или взяты из более ранних GWAS?

  27. ! GWAS 600 000 SNP 1054 случаев облысения GRSдля 16топовых SNP в генах иммунного ответа Случайные различия по GRS по 16топовым сайтам из 600 000 изученных: Пример исследования «качественный признак - GWAS» 139 ассоциированных SNP на уровне p-value < 510-7 ptrend < 10-107 L. Petukhova, M. Duvic et al. Genome-wide association study in alopecia areata implicates both innate and adaptive immunity // Nature (2010), 466, 113–117

  28. Если Discovery = Validation, то и при H0 корреляция признака с GRSпо топовыми снипами может быть очень высока m = 100 000 k = 10 k = 100 k = 1000 Prof. Peter Visscher, Univ. of Queensland, Australia 0.56 1000 Объем выборки (n) Pitfalls of predicting complex traits from SNPs Ловушки, связанные с предсказанием сложных признаков по снипам Wray NR, Yang J,…, Visscher PM. Nat Rev Genet. 2013 Jul;14(7) «Do not re-estimate effect sizes of selected SNPs in the validation sample» 1000 больных, 1000 здоровых и 100 000 SNP, несвязанных с заболеванием. Из них 100 топовых SNP совместно обеспечат корреляцию с заболеванием 0.56 или наследуемость порядка 0.562 30%

  29. , но , где N – число точек при m >> n иk > 0.1m Ясно, что , если число признаков сравнения существенно большеобъемов выборок Что мы имеем вместо нуля: выборочные корреляции при нулевой гипотезе Случайная выборочная корреляция между двумя независимыми признаками весьма ощутима при малых выборках: Например, при N = 4 всреднем | r | ~ ½ !!! Случайные корреляции «заболевание - GRS» могут быть гораздо выше: пусть объемы выборок больных и здоровых равны: n0 = n1 = n, и GRSвычисляетсядля kтоповых признаков из mизученных. Тогда при Н0 корреляция «заболевание - GRS» в среднем равна:

  30. «Парадокс сложения рисков» подкарауливает нас еще в одной ситуации (уже без всяких «рисковых» факторов): множественная регрессия Это тоже оценка совместного действия признаков-предикторов

  31. Как устроена множественная регрессия например, в программе STATISTICA Y – зависимая переменная, фенотип (например, болен-здоров) X1, X1,…, Xm – независимые переменные, признаки-предикторы (например, SNP) Значимость индивидуальных вкладов предикторов Y ~ a + b1X1 + b2X2+ … + bmXm Стандартизированные коэффициенты для сравнения эффектов предикторов Коэффициент множественной корреляции (доля объясненной изменчивости зависимой переменной) Regression Summary for Dependent Variable: Y R= 0,429 R2= 0,184 Adjusted R2 = 0,098 F(3,6)= 0,452 p< 0,725 Std.Error of estimate: 0,583 Значимость модели в целом

  32. Богатство как заболевание (case – control)     + b1 + b2 + b3 + b4 + b5 Богатство ~ a Наверно, «рисковые» факторы – это неправильно! Попробуем множественную регрессию - это тоже оценка совместного действия предикторов Никаких чудес: квадрат множественной корреляцииR2 = 0.033 Значимость в целом p-value = 0.615

  33. Не сдаемся – очень хочется разбогатеть! и т.д.,все, что приходит в голову – всего 50 признаков Множественная регрессия для 50 признаков:R2 = 0.234 p-value = 0.667

  34. Не сдаемся – очень хочется разбогатеть! Итак, в совокупности 50 признаков незначимы: p-value = 0.667, причем для всех признаков маргинальные эффекты сp-value > 0.1 Отберем 3 топовых признака из 50: • Наглаз по величине p-value, либо • Используя встроенную процедуру Stepwise Для 3 топовых признаков:R2 = 0.072, в целом p-value = 0.008! На самом деле все изученные признаки заведомо не связаны с банковским счетом!

  35. Journal of Animal Ecology (2006), 75, 1182–1189 Это называется парадокс Фридмана (1983) D. Freedman. A Note on Screening Regression Equations. The American Statistician, V. 37, 2, (1983) При большом числе предикторов отбор топовых признаков приводит, к построению ложноположительных регрессий Более того: любые процедуры отбора топовых из большого числа предикторов обеспечат мнимую значимость, в т.ч. Stepwise, встроенный в статистические пакеты SPSS, STATISTICA и пр.

  36. G1, G2, G3, … , Gm-1, Gm Исходнаясовокупность признаков – «предикторов» k << m G1, G2, … , Gk Отобранные топовые по эффекту признаки: • Множественная регрессия: Y ~ a + b1G1 + b2G2+ … + bkGk • Регрессия «заболевание – GRS»: Y ~ a + b(|G1| + |G2|+ … + |Gk|) GRS Симуляции показывают, что при k <<m Множественная регрессия и GRS при Н0 R2 – множественная корреляция (не учитывает знаки bi) r2 – корреляция Y ~ GRS (не учитывает знаки Gi) Парадоксы Фридмана и «сложения рисков» имеют одинаковую природу:суммирование топовых незначимых эффектов без учета их направленности

  37. ! Множественная регрессия и GRS при Н0 Что более эффективно в деле получения фальшивых результатов? Если иметь в виду кажущееся p-value, то корреляции с GRS нанесколько поряков опасней, чем множественная регрессия топовых признаков Пустьn0 = n1 = 500, но это не влияет на p-value (только на R2) Число изученных признаков, заведомо не связанных с заболеванием Число отобранных топовых признаков =

  38. XX век Размеры выборок гораздо больше, чем число признаков сравнения Число признаков сравнения на порядки превосходит объемы выборок • Microarray: n ~ 5 – 20 (!), m > 10 000 Радикальноеизменение ситуации в экспериментальной биологии и биомедицине =Big Manipulations? XXI век Забвение классического правила: 10 outcome events per predictor variable (EPV) • GWAS: n ~ 1000, m > 500 000 Подавляющее большинстворезультатов исследований «профиля экспрессии» генов никогда не воспроизводятся!

  39. Объем поверхностного слоя толщиной R при Объем сферы радиуса R d = 1 d = 2 d = 3 d = 1000 ? 0.99996 0.010 0.030 0.020 Объем d-мерной сферы: Жизнь в пространствах с большим числом измерений не похожа на трехмерную! Это вероятность того, что случайно выбранная точка лежит вблизи поверхности Это означает, что почти все случайно распределенные точки лежат на поверхности!

  40. В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Вычисление Genetic Risk Score (GRS) • GRS - число рисковых аллелей на человека, т.е. сумма аллелей • предрасполагающих к заболеванию или повышающих значение признака • Оценка эпистатических эффектов «топовых» сайтов • Часто приходится видеть как комбинированный генотип (или гаплотип) • объявляется сопряженным с заболеванием, в то время как все индивидуальные • эффекты снипов статистически незначимы. При этом рассматривается совместный • эффект «топовых» SNP из числа незначимых. • Анализ результатов GWAS и DNA-Microarray • В современных ассоциативных исследованияхчисло предикторов стремительно • растет и часто на порядки превышает объемы выборок. При этом кажущаяся • значимость эффектовпо GRS может достигать невероятного уровня, например, • p-value = 10-100 • Оценка наследуемости и вычисление корреляций «SNP-фенотип» • Работы, в которых анонсированы высокие корреляции «признак - SNPs» (0.3 – 0.7), • требуют тщательного разбора на предмет присутствия «парадокса сложения рисков»

  41. Более конкретные выводы – их только два! • Определение направленности индивидуального действия • снипов (OR) и оценка их совместного действия (GRS, R2) • должны проводиться на разных выборках • В противном случае показатели типа GRS обнаружат мнимую • сопряженность с фенотипом, «значимость» которой • пропорциональна числу снипов, входящих в GRS

  42. Спасибо организаторам Школы и всем присутствующим! Слайды доступны! rubanovich@vigg.ru

More Related