260 likes | 456 Views
Gene Risk Score, эпистаз, гаплотипы и другие верные способы сделать случайные генетические ассоциации статистически значимыми. А.В. Рубанович. Институт общей генетики им. Н.И. Вавилова РАН. rubanovich@vigg.ru. >. . <. <. <. . >. Все незначимо!.
E N D
Gene Risk Score, эпистаз, гаплотипы и другие верные способы сделать случайные генетические ассоциации статистически значимыми А.В. Рубанович Институт общей генетики им. Н.И. Вавилова РАН rubanovich@vigg.ru
> < < < > Все незначимо! Богатство как заболевание (case – control) Так будет всегда! «Значимость» гарантирована, если числопризнаков 5 (независимо от объемов выборок и встречаемости вариантов признаков) Предрасполагающий «гаплотип»: 10001 0.038
! AUC = 0.724 «Парадокс сложения рисков» При увеличении числа признаков «значимость» различий групп по среднему числу рисковых факторовначеловека может быть сколь угодно велика (т.е. р-value 0). Кажущаяся значимость отличий по сумме рисковых факторов Число изученных признаков, заведомо не связанных с заболеванием Начиная с 5 признаков, различиявсегда будут «значимы»
Если заболевание не связано с признаком, то распределения для X1и X0одинаковы При увеличении числа изученныхпризнаков (m)t-статистикадляразличий по сумме «рисковых» факторов растет как Распределение для разности X1-X0 Распределение для разности по модулю. Среднее равно = Отчего это происходит? Все дело в том, что выявление рисковых факторов и оценка их совместного действия проводились для одной и той же выборки Пусть X0и X1 – число обладателей определенного статуса по некому бинарному признаку в двух выборках (0 –контроль, 1 - больные). Даже если эти признаки никак не связаны с заболеванием! Дальше самое важное: В качестве рискового фактора мы берем то значение признака, которое чаще встречается у больных. Тем самым мы переопределяем значения признака так, чтобы в данной выборке X1>X0, т.е. от разности переходим к разности по модулю Для mпризнаков: ~ Средняя разность 1.13 SD разности ~
В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Вычисление Genetic Risk Score (GRS) • GRS - число рисковых аллелей на человека, т.е. сумма аллелей • предрасполагающих к заболеванию или повышающих значение признака • Оценка совместных эффектов «топовых» сайтов • Часто приходится видеть как комбинированный генотип (или гаплотип) • объявляется сопряженным с заболеванием, в то время как все индивидуальные • эффекты снипов статистически незначимы. При этом рассматривается совместный • эффект «топовых» SNP из числа незначимых. • Анализ результатов GWAS • В современных ассоциативных исследованиячисло генетических предикторов • стремительно растет и часто на порядки превышает объемы выборок. При этом • кажущаяся значимость эффектовпо GRS может достигать невероятного уровня, • например, p-value = 10-100 • Проблема «missing heritability» • Мы научились считывать всю возможную изменчивость нуклеотидов, но это не • помогает нам объяснить даже несколько процентов тойнаследуемости, которая • наблюдается в родословных. Работы, в которых анонсированы высокие корреляции • «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия • «парадокса сложения рисков»
GRS = G1 + G2 +…+Gk , где Gi = Сумма по kсайтам, обнаружившим тенденцию к сопряженности с заболеванием 0, гомозигота по протективному аллелю 1, гетерозигота 2, гомозигота по рисковому аллелю В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Вычисление Genetic Risk Score (GRS) • GRS -число рисковых аллелей на человека, т.е. сумма аллелей • предрасполагающих к заболеванию или повышающих значение признака Другие названия: combined effects, epistatic effects, joined effect, multi-locus genetic risk, combined analysis of multiple genetic variants, …. т.е. Gi – это число рисковых аллелей в i-ом сайте Обычно берут kтоповых по эффекту сайтов из числа генотипированных, либо, все сайты, для которых р-value меньше фиксированного уровня, например р < 0.05 В результате научные журналы заполонили подозрительно красивые картинки, которых не может быть в экспериментальной биологии.
Частота Nature Genetics 42, 132–136 (2010) Эффект (OR) Число рисковых аллелей Подобные картинки всегда отражают некую математическую, а не биологическую закономерность
В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Вычисление Genetic Risk Score (GRS) • GRS -число рисковых аллелей на человека, т.е. сумма аллелей • предрасполагающих к заболеванию или повышающих значение признака • Оценка совместных эффектов «топовых» сайтов • Часто приходится видеть как комбинированный генотип (или гаплотип) • объявляется сопряженным с заболеванием, в то время как все индивидуальные • эффекты снипов статистически незначимы. При этом рассматривается совместный • эффект «топовых» SNP из числа незначимых. • Анализ результатов GWAS • В современных ассоциативных исследованиячисло генетических предикторов • стремительно растет и часто на порядки превышает объемы выборок. При этом • кажущаяся значимость эффектовпо GRS может достигать невероятного уровня, • например, p-value = 10-100 • Проблема «missing heritability» • Мы научились считывать всю возможную изменчивость нуклеотидов, но это не • помогает нам объяснить даже несколько процентов тойнаследуемости, которая • наблюдается в родословных. Работы, в которых анонсированы высокие корреляции • «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия • «парадокса сложения рисков»
Ранее мы говорили,что различия по сумме рисковых аллелей, которые подсчитаны для mснипов, пропорциональны . В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? Распределения топовых значений случайных величин изучается в теории порядковых статистик (Order Statistics) • Оценка совместных эффектов «топовых» сайтов • Часто приходится видеть как комбинированный генотип (или гаплотип) • объявляется сопряженным с заболеванием, в то время как все индивидуальные • эффекты снипов статистически незначимы. При этом рассматривается совместный • эффект «топовых» SNP из числа изученных. Как будет обстоять дело, если мы вычисляем GRSне длявсех mснипов, а лишь для k топовых из них (рекордных, максимальных по эффекту)
Если топовые SNP и GRS определены для одной и той же выборки __ Используем самую простую статистику: Основной результат: GRS по k топовым SNP из m изученных Пусть X0 и X1 – GRSдля здоровых и больных, соответственно (n0 = n1). =НОРМСТОБР , где Все вычисляется в Excel Следствия: • При нулевой гипотезе Z-статистика для различий по GRS, • а значити кажущееся p-value,не зависят от объемов выборок и частот • аллельных вариантов генов, • но существенно зависят от общего числа изученных снипов (m)и числа • топовых по эффекту сайтов (k), которые использованы при определении GRS. • Если k= m, т.е. при вычислении GRS используются все изученные сайты, то ( , если k/m > 0.1)
! 2.110-7(жен.) 4.610-11 (муж.) p-value = В таблицах такогоZ нет, но можно через Excel: =1- НОРМСТРАСП(6,1) Результаты работы незначимы! Пример использования формулы для Z 1200 случаев воспалительного заболевания кишечника (IBD - inflammatory bowel disease) против 849 здоровых NADPH oxidase complex genes:RAC2, CYBA , NCF2, NCF4 – всего 58 SNP GRSпо 58 изученным SNP Даже если все эти 58 SNP не связны с IBD: p-value =5.310-10 Контроль IBD Hu P, Muise AM, Xing X et al. Association between a multi-locus genetic risk score and inflammatory bowel disease// Bioinform Biol Insights. 2013 May 19;7:143-52.
! p-value =8.210-4 Любые 26 SNP для 5 топовых в среднем дадут: Пример исследования «заболевание -кандидатные гены» 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генахиммунной системы: CD209, DDX58,MBL2, TLR2, TLR3, TLR9 У них были все шансы получить и более «значимый» результат 5топовых SNP с 0.005 < p < 0.05 (не преодолевают порог Бонферрони = 0.002) Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G3 (Bethesda). 2013 Jun 21;3(6):971-7.
! ~ GC, VDR, CYP2R1, CYP24A1, CYP27B1 Концентрация витамина D Ген rs Хр Генотипы Витамин Dp-value Всего 94SNP > 0.05/94 0.0005 + 91 SNP c p-value > 0.05 Случайная корреляция с GRSпо 3 топовым сайтам из 94 изученных: ptrend < 0.001 Пример исследования «количественный признак -кандидатные гены» Бонферрони не пропускает! GRS=Сумма«понижающих» аллелей #rs2298849*A + #rs2282679*G + #rs10877012*G Signorello LB, Shi J et al. Common variation in vitamin D pathway genes predicts circulating 25-hydroxyvitamin D Levels among African Americans //PLoS One. 2011; 6(12)
Как избежать проявлений «парадокса сложения рисков»? • Использовать формулу • для оценки ситуации, которая возникает при нулевой гипотезе • (что-то вроде поправки Бонферрони) Но все-таки лучше: • Проводить оценку индивидуальных эффектов снипов (OR) и • последующую оценку их совместного действия (GRS, h2) на • разных выборках
! OR, p-value GRS, h2 В противном случае вы неизбежно столкнетесь с «парадоксом сложения рисков» 2 этапа – стандарт современных ассоциативных генетических исследований Валидизация результатов - не просто проверка воспроизводимости Discovery sample Направленность и уровень индивидуальных эффектов SNP (OR, p-value) Оценка любых совместных, в том числе эпистатических эффектовдлятоповых SNP, а также оценка наследуемости и доли объясненной вариансы (GRS, h2) Validation (target) sample Контроль Больные Альтернатива: cross-validation кросс-валидация на большой выборке
В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Вычисление Genetic Risk Score (GRS) • GRS -число рисковых аллелей на человека, т.е. сумма аллелей • предрасполагающих к заболеванию или повышающих значение признака • Оценка совместных эффектов «топовых» сайтов • Часто приходится видеть как комбинированный генотип (или гаплотип) • объявляется сопряженным с заболеванием, в то время как все индивидуальные • эффекты снипов статистически незначимы. При этом рассматривается совместный • эффект «топовых» SNP из числа незначимых. • Анализ результатов GWAS • В современных ассоциативных исследованиячисло генетических предикторов • стремительно растет и часто на порядки превышает объемы выборок. При этом • кажущаяся значимость эффектовпо GRS может достигать невероятного уровня, • например, p-value = 10-100 • Проблема «missing heritability» • Мы научились считывать всю возможную изменчивость нуклеотидов, но это не • помогает нам объяснить даже несколько процентов тойнаследуемости, которая • наблюдается в родословных. Работы, в которых анонсированы высокие корреляции • «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия • «парадокса сложения рисков»
В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Анализ результатов GWAS • В современных ассоциативных исследованиячисло генетических предикторов • стремительно растет и часто на порядки превышает объемы выборок. При этом • кажущаяся значимость различийпо GRS может достигать невероятного уровня, • например, p-value = 10-100
Объемы выборок: n0 = n1 = 1000 Число генотипированных сайтов: m = 500 000 Типичный GWAS Оценивать совместные эффекты сниповврамках единичного GWAS совершенно бессмысленно Пусть все SNP несвязаны с заболеванием, и темнеменее больные и здоровые сравниваются по GRS, который вычисляется для kтоповых сайтов (k= 1100) Число топовых SNP из 500 000 изученных, которые использованы при вычислении GRS Кажущаяся значимость отличий по GRS Рекордный SNP из 500 000 изученных. Для него p-value всегдавышепорога Бонферрони (0.05/500 000 = 10-7) Любые манипуляции с 2 или 3 топовыми SNP (эпистаз, гаплотипы)покажут значимость 10-16 - 10-12
Discoverysample: GWAS1 GWAS2 GWAS3 … Мета-анализ • Чем сложнее это понять, тем красивей картинки Только после GWAS и на независимой выборке Target sample: 20 – 50 топовых SNP Оценки совместногодействия SNP: GRS, r, h2, AUC, PPV, NPV Сегодня так проводят исследования большинства широко распространенных заболеваний: рак, атеросклероз, диабет 2-го рода, астма, шизофрения Однако, во многих случаях возникают сомнения: • Первый GWAS (редкие или малоизученные заболевания и признаки) • Частичное совпадение Discoverysample и Target sample • Часто авторы добавляют в список кандидатных сниповиз предшествующих • GWAS несколько десятков новых SNP, которые выявлены для Target sample • Ссылки не на снипы, а на кандидатные гены или участки, обнаруженные • ранее другими исследователями • Часто бывает трудно понять: рисковые аллели выявлены в данном • исследовании или взяты из более ранних GWAS?
! GWAS 600 000 SNP 1054 случаев облысения GRSдля 16топовых SNP в генах иммунного ответа Случайные различия по GRS по 16топовым сайтам из 600 000 изученных: Пример исследования «качественный признак - GWAS» 139 ассоциированных SNP на уровне p-value < 510-7 ptrend < 10-107 Petukhova, M. Duvic et al. Genome-wide association study in alopecia areata implicates both innate and adaptive immunity // Nature (2010), 466, 113–117
В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Вычисление Genetic Risk Score (GRS) • GRS -число рисковых аллелей на человека, т.е. сумма аллелей • предрасполагающих к заболеванию или повышающих значение признака • Оценка совместных эффектов «топовых» сайтов • Часто приходится видеть как комбинированный генотип (или гаплотип) • объявляется сопряженным с заболеванием, в то время как все индивидуальные • эффекты снипов статистически незначимы. При этом рассматривается совместный • эффект «топовых» SNP из числа незначимых. • Анализ результатов GWAS • В современных ассоциативных исследованиячисло генетических предикторов • стремительно растет и часто на порядки превышает объемы выборок. При этом • кажущаяся значимость эффектовпо GRS может достигать невероятного уровня, • например, p-value = 10-100 • Проблема «missing heritability» • Мы научились считывать всю возможную изменчивость нуклеотидов, но это не • помогает нам объяснить даже несколько процентов тойнаследуемости, которая • наблюдается в родословных. Работы, в которых анонсированы высокие корреляции • «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия • «парадокса сложения рисков»
В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? • Проблема «missing heritability» • Мы научились считывать всю возможную изменчивость нуклеотидов, но это не • помогает нам объяснить даже несколько процентов тойнаследуемости, которая • наблюдается в родословных. Работы, в которых анонсированы высокие корреляции • «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия • «парадокса сложения рисков»
Ясно, что , если m >> n, т.е., если число SNP существенно большеобъема выборки «Объясненная наследуемость» или доля «объясненной» вариансы: h2 0.52 = 25% Случайные выборочные корреляции между несвязанными признаками • Корреляция между двумя независимыми признакми | | , где n – объемвыборки • Корреляция между бинарным признаком и GRSдля m сайтов • в случае, если эффекты сайтов и GRS посчитаны для • одной и той же выборки, а все сайты не связаны с признаком Например, при m n случайная корреляция с GRS (1+)-1/2 0.5
Если Discovery = Validation, то и при H0 корреляция признака с GRSпо топовыми снипами может быть очень высока m = 100 000 k = 10 k = 100 k = 1000 Prof. Peter Visscher, Univ. of Queensland, Australia 0.56 1000 Объем выборки (n) Pitfalls of predicting complex traits from SNPs Ловушки, связанные с предсказанием сложных признаков по снипам Wray NR, Yang J,…, Visscher PM. Nat Rev Genet. 2013 Jul;14(7) «Do not re-estimate effect sizes of selected SNPs in the validation sample» 1000 больных, 1000 здоровых и 100 000 SNP, несвязанных с заболеванием. Из них 100 топовых SNP совместно обеспечат корреляцию с заболеванием 0.56 или наследуемость порядка 0.562 30% По нашим оценкам r2 36%при р = 10-276
Выводы – их только два! • Определение направленности индивидуального действия • снипов (OR) и оценка их совместного действия (GRS, h2) • должны проводиться на разных выборках • В противном случае показатели типа GRS обнаружат мнимую • сопряженность с заболеванием, «значимость» которой • пропорциональна числу снипов, входящих в GRS
Спасибо организаторам Конференции и всем присутствующим! Слайды доступны! rubanovich@vigg.ru