1 / 26

Институт общей генетики им. Н.И. Вавилова РАН

Gene Risk Score, эпистаз, гаплотипы и другие верные способы сделать случайные генетические ассоциации статистически значимыми. А.В. Рубанович. Институт общей генетики им. Н.И. Вавилова РАН. rubanovich@vigg.ru. >. . <. <. <. . >. Все незначимо!.

trevor
Download Presentation

Институт общей генетики им. Н.И. Вавилова РАН

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gene Risk Score, эпистаз, гаплотипы и другие верные способы сделать случайные генетические ассоциации статистически значимыми А.В. Рубанович Институт общей генетики им. Н.И. Вавилова РАН rubanovich@vigg.ru

  2. >  < < <  > Все незначимо! Богатство как заболевание (case – control) Так будет всегда! «Значимость» гарантирована, если числопризнаков  5 (независимо от объемов выборок и встречаемости вариантов признаков) Предрасполагающий «гаплотип»: 10001 0.038

  3. ! AUC = 0.724 «Парадокс сложения рисков» При увеличении числа признаков «значимость» различий групп по среднему числу рисковых факторовначеловека может быть сколь угодно велика (т.е. р-value 0). Кажущаяся значимость отличий по сумме рисковых факторов Число изученных признаков, заведомо не связанных с заболеванием Начиная с 5 признаков, различиявсегда будут «значимы»

  4. Если заболевание не связано с признаком, то распределения для X1и X0одинаковы При увеличении числа изученныхпризнаков (m)t-статистикадляразличий по сумме «рисковых» факторов растет как  Распределение для разности X1-X0 Распределение для разности по модулю. Среднее равно = Отчего это происходит? Все дело в том, что выявление рисковых факторов и оценка их совместного действия проводились для одной и той же выборки Пусть X0и X1 – число обладателей определенного статуса по некому бинарному признаку в двух выборках (0 –контроль, 1 - больные). Даже если эти признаки никак не связаны с заболеванием! Дальше самое важное: В качестве рискового фактора мы берем то значение признака, которое чаще встречается у больных. Тем самым мы переопределяем значения признака так, чтобы в данной выборке X1>X0, т.е. от разности переходим к разности по модулю Для mпризнаков: ~ Средняя разность 1.13 SD разности ~

  5. В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Вычисление Genetic Risk Score (GRS) • GRS - число рисковых аллелей на человека, т.е. сумма аллелей • предрасполагающих к заболеванию или повышающих значение признака • Оценка совместных эффектов «топовых» сайтов • Часто приходится видеть как комбинированный генотип (или гаплотип) • объявляется сопряженным с заболеванием, в то время как все индивидуальные • эффекты снипов статистически незначимы. При этом рассматривается совместный • эффект «топовых» SNP из числа незначимых. • Анализ результатов GWAS • В современных ассоциативных исследованиячисло генетических предикторов • стремительно растет и часто на порядки превышает объемы выборок. При этом • кажущаяся значимость эффектовпо GRS может достигать невероятного уровня, • например, p-value = 10-100 • Проблема «missing heritability» • Мы научились считывать всю возможную изменчивость нуклеотидов, но это не • помогает нам объяснить даже несколько процентов тойнаследуемости, которая • наблюдается в родословных. Работы, в которых анонсированы высокие корреляции • «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия • «парадокса сложения рисков»

  6. GRS = G1 + G2 +…+Gk , где Gi = Сумма по kсайтам, обнаружившим тенденцию к сопряженности с заболеванием 0, гомозигота по протективному аллелю 1, гетерозигота 2, гомозигота по рисковому аллелю В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Вычисление Genetic Risk Score (GRS) • GRS -число рисковых аллелей на человека, т.е. сумма аллелей • предрасполагающих к заболеванию или повышающих значение признака Другие названия: combined effects, epistatic effects, joined effect, multi-locus genetic risk, combined analysis of multiple genetic variants, …. т.е. Gi – это число рисковых аллелей в i-ом сайте Обычно берут kтоповых по эффекту сайтов из числа генотипированных, либо, все сайты, для которых р-value меньше фиксированного уровня, например р < 0.05 В результате научные журналы заполонили подозрительно красивые картинки, которых не может быть в экспериментальной биологии.

  7. Частота Nature Genetics 42, 132–136 (2010) Эффект (OR) Число рисковых аллелей Подобные картинки всегда отражают некую математическую, а не биологическую закономерность

  8. В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Вычисление Genetic Risk Score (GRS) • GRS -число рисковых аллелей на человека, т.е. сумма аллелей • предрасполагающих к заболеванию или повышающих значение признака • Оценка совместных эффектов «топовых» сайтов • Часто приходится видеть как комбинированный генотип (или гаплотип) • объявляется сопряженным с заболеванием, в то время как все индивидуальные • эффекты снипов статистически незначимы. При этом рассматривается совместный • эффект «топовых» SNP из числа незначимых. • Анализ результатов GWAS • В современных ассоциативных исследованиячисло генетических предикторов • стремительно растет и часто на порядки превышает объемы выборок. При этом • кажущаяся значимость эффектовпо GRS может достигать невероятного уровня, • например, p-value = 10-100 • Проблема «missing heritability» • Мы научились считывать всю возможную изменчивость нуклеотидов, но это не • помогает нам объяснить даже несколько процентов тойнаследуемости, которая • наблюдается в родословных. Работы, в которых анонсированы высокие корреляции • «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия • «парадокса сложения рисков»

  9. Ранее мы говорили,что различия по сумме рисковых аллелей, которые подсчитаны для mснипов, пропорциональны . В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? Распределения топовых значений случайных величин изучается в теории порядковых статистик (Order Statistics) • Оценка совместных эффектов «топовых» сайтов • Часто приходится видеть как комбинированный генотип (или гаплотип) • объявляется сопряженным с заболеванием, в то время как все индивидуальные • эффекты снипов статистически незначимы. При этом рассматривается совместный • эффект «топовых» SNP из числа изученных. Как будет обстоять дело, если мы вычисляем GRSне длявсех mснипов, а лишь для k топовых из них (рекордных, максимальных по эффекту)

  10. Если топовые SNP и GRS определены для одной и той же выборки __ Используем самую простую статистику: Основной результат: GRS по k топовым SNP из m изученных Пусть X0 и X1 – GRSдля здоровых и больных, соответственно (n0 = n1). =НОРМСТОБР , где Все вычисляется в Excel Следствия: • При нулевой гипотезе Z-статистика для различий по GRS, • а значити кажущееся p-value,не зависят от объемов выборок и частот • аллельных вариантов генов, • но существенно зависят от общего числа изученных снипов (m)и числа • топовых по эффекту сайтов (k), которые использованы при определении GRS. • Если k= m, т.е. при вычислении GRS используются все изученные сайты, то ( , если k/m > 0.1)

  11. ! 2.110-7(жен.) 4.610-11 (муж.) p-value = В таблицах такогоZ нет, но можно через Excel: =1- НОРМСТРАСП(6,1) Результаты работы незначимы! Пример использования формулы для Z 1200 случаев воспалительного заболевания кишечника (IBD - inflammatory bowel disease) против 849 здоровых NADPH oxidase complex genes:RAC2, CYBA , NCF2, NCF4 – всего 58 SNP GRSпо 58 изученным SNP Даже если все эти 58 SNP не связны с IBD: p-value =5.310-10 Контроль IBD Hu P, Muise AM, Xing X et al. Association between a multi-locus genetic risk score and inflammatory bowel disease// Bioinform Biol Insights. 2013 May 19;7:143-52.

  12. ! p-value =8.210-4 Любые 26 SNP для 5 топовых в среднем дадут: Пример исследования «заболевание -кандидатные гены» 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генахиммунной системы: CD209, DDX58,MBL2, TLR2, TLR3, TLR9 У них были все шансы получить и более «значимый» результат 5топовых SNP с 0.005 < p < 0.05 (не преодолевают порог Бонферрони = 0.002) Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G3 (Bethesda). 2013 Jun 21;3(6):971-7.

  13. ! ~ GC, VDR, CYP2R1, CYP24A1, CYP27B1 Концентрация витамина D Ген rs Хр Генотипы Витамин Dp-value Всего 94SNP > 0.05/94  0.0005 + 91 SNP c p-value > 0.05 Случайная корреляция с GRSпо 3 топовым сайтам из 94 изученных: ptrend < 0.001 Пример исследования «количественный признак -кандидатные гены» Бонферрони не пропускает! GRS=Сумма«понижающих» аллелей #rs2298849*A + #rs2282679*G + #rs10877012*G Signorello LB, Shi J et al. Common variation in vitamin D pathway genes predicts circulating 25-hydroxyvitamin D Levels among African Americans //PLoS One. 2011; 6(12)

  14. Как избежать проявлений «парадокса сложения рисков»? • Использовать формулу • для оценки ситуации, которая возникает при нулевой гипотезе • (что-то вроде поправки Бонферрони) Но все-таки лучше: • Проводить оценку индивидуальных эффектов снипов (OR) и • последующую оценку их совместного действия (GRS, h2) на • разных выборках

  15. ! OR, p-value GRS, h2 В противном случае вы неизбежно столкнетесь с «парадоксом сложения рисков» 2 этапа – стандарт современных ассоциативных генетических исследований Валидизация результатов - не просто проверка воспроизводимости Discovery sample Направленность и уровень индивидуальных эффектов SNP (OR, p-value) Оценка любых совместных, в том числе эпистатических эффектовдлятоповых SNP, а также оценка наследуемости и доли объясненной вариансы (GRS, h2) Validation (target) sample Контроль Больные Альтернатива: cross-validation кросс-валидация на большой выборке

  16. В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Вычисление Genetic Risk Score (GRS) • GRS -число рисковых аллелей на человека, т.е. сумма аллелей • предрасполагающих к заболеванию или повышающих значение признака • Оценка совместных эффектов «топовых» сайтов • Часто приходится видеть как комбинированный генотип (или гаплотип) • объявляется сопряженным с заболеванием, в то время как все индивидуальные • эффекты снипов статистически незначимы. При этом рассматривается совместный • эффект «топовых» SNP из числа незначимых. • Анализ результатов GWAS • В современных ассоциативных исследованиячисло генетических предикторов • стремительно растет и часто на порядки превышает объемы выборок. При этом • кажущаяся значимость эффектовпо GRS может достигать невероятного уровня, • например, p-value = 10-100 • Проблема «missing heritability» • Мы научились считывать всю возможную изменчивость нуклеотидов, но это не • помогает нам объяснить даже несколько процентов тойнаследуемости, которая • наблюдается в родословных. Работы, в которых анонсированы высокие корреляции • «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия • «парадокса сложения рисков»

  17. В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Анализ результатов GWAS • В современных ассоциативных исследованиячисло генетических предикторов • стремительно растет и часто на порядки превышает объемы выборок. При этом • кажущаяся значимость различийпо GRS может достигать невероятного уровня, • например, p-value = 10-100

  18. Объемы выборок: n0 = n1 = 1000 Число генотипированных сайтов: m = 500 000 Типичный GWAS Оценивать совместные эффекты сниповврамках единичного GWAS совершенно бессмысленно Пусть все SNP несвязаны с заболеванием, и темнеменее больные и здоровые сравниваются по GRS, который вычисляется для kтоповых сайтов (k= 1100) Число топовых SNP из 500 000 изученных, которые использованы при вычислении GRS Кажущаяся значимость отличий по GRS Рекордный SNP из 500 000 изученных. Для него p-value всегдавышепорога Бонферрони (0.05/500 000 = 10-7) Любые манипуляции с 2 или 3 топовыми SNP (эпистаз, гаплотипы)покажут значимость 10-16 - 10-12

  19. Discoverysample: GWAS1 GWAS2 GWAS3 … Мета-анализ • Чем сложнее это понять, тем красивей картинки Только после GWAS и на независимой выборке Target sample: 20 – 50 топовых SNP Оценки совместногодействия SNP: GRS, r, h2, AUC, PPV, NPV Сегодня так проводят исследования большинства широко распространенных заболеваний: рак, атеросклероз, диабет 2-го рода, астма, шизофрения Однако, во многих случаях возникают сомнения: • Первый GWAS (редкие или малоизученные заболевания и признаки) • Частичное совпадение Discoverysample и Target sample • Часто авторы добавляют в список кандидатных сниповиз предшествующих • GWAS несколько десятков новых SNP, которые выявлены для Target sample • Ссылки не на снипы, а на кандидатные гены или участки, обнаруженные • ранее другими исследователями • Часто бывает трудно понять: рисковые аллели выявлены в данном • исследовании или взяты из более ранних GWAS?

  20. ! GWAS 600 000 SNP 1054 случаев облысения GRSдля 16топовых SNP в генах иммунного ответа Случайные различия по GRS по 16топовым сайтам из 600 000 изученных: Пример исследования «качественный признак - GWAS» 139 ассоциированных SNP на уровне p-value < 510-7 ptrend < 10-107 Petukhova, M. Duvic et al. Genome-wide association study in alopecia areata implicates both innate and adaptive immunity // Nature (2010), 466, 113–117

  21. В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Вычисление Genetic Risk Score (GRS) • GRS -число рисковых аллелей на человека, т.е. сумма аллелей • предрасполагающих к заболеванию или повышающих значение признака • Оценка совместных эффектов «топовых» сайтов • Часто приходится видеть как комбинированный генотип (или гаплотип) • объявляется сопряженным с заболеванием, в то время как все индивидуальные • эффекты снипов статистически незначимы. При этом рассматривается совместный • эффект «топовых» SNP из числа незначимых. • Анализ результатов GWAS • В современных ассоциативных исследованиячисло генетических предикторов • стремительно растет и часто на порядки превышает объемы выборок. При этом • кажущаяся значимость эффектовпо GRS может достигать невероятного уровня, • например, p-value = 10-100 • Проблема «missing heritability» • Мы научились считывать всю возможную изменчивость нуклеотидов, но это не • помогает нам объяснить даже несколько процентов тойнаследуемости, которая • наблюдается в родословных. Работы, в которых анонсированы высокие корреляции • «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия • «парадокса сложения рисков»

  22. В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Проблема «missing heritability» • Мы научились считывать всю возможную изменчивость нуклеотидов, но это не • помогает нам объяснить даже несколько процентов тойнаследуемости, которая • наблюдается в родословных. Работы, в которых анонсированы высокие корреляции • «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия • «парадокса сложения рисков»

  23. Ясно, что , если m >> n, т.е., если число SNP существенно большеобъема выборки «Объясненная наследуемость» или доля «объясненной» вариансы: h2  0.52 = 25% Случайные выборочные корреляции между несвязанными признаками • Корреляция между двумя независимыми признакми | | , где n – объемвыборки • Корреляция между бинарным признаком и GRSдля m сайтов • в случае, если эффекты сайтов и GRS посчитаны для • одной и той же выборки, а все сайты не связаны с признаком Например, при m n случайная корреляция с GRS  (1+)-1/2  0.5

  24. Если Discovery = Validation, то и при H0 корреляция признака с GRSпо топовыми снипами может быть очень высока m = 100 000 k = 10 k = 100 k = 1000 Prof. Peter Visscher, Univ. of Queensland, Australia 0.56 1000 Объем выборки (n) Pitfalls of predicting complex traits from SNPs Ловушки, связанные с предсказанием сложных признаков по снипам Wray NR, Yang J,…, Visscher PM. Nat Rev Genet. 2013 Jul;14(7) «Do not re-estimate effect sizes of selected SNPs in the validation sample» 1000 больных, 1000 здоровых и 100 000 SNP, несвязанных с заболеванием. Из них 100 топовых SNP совместно обеспечат корреляцию с заболеванием 0.56 или наследуемость порядка 0.562 30% По нашим оценкам r2 36%при р = 10-276

  25. Выводы – их только два! • Определение направленности индивидуального действия • снипов (OR) и оценка их совместного действия (GRS, h2) • должны проводиться на разных выборках • В противном случае показатели типа GRS обнаружат мнимую • сопряженность с заболеванием, «значимость» которой • пропорциональна числу снипов, входящих в GRS

  26. Спасибо организаторам Конференции и всем присутствующим! Слайды доступны! rubanovich@vigg.ru

More Related