1 / 61

Прогностическая эффективность биомаркеров

Прогностическая эффективность биомаркеров. Рубанович А.В. Институт общей генетики им. Н.И. Вавилова РАН, лаборатория экологической генетики. rubanovich@vigg.ru. Ну, вот, опять статистика!. Это не статистика! Это методология представления данных по сопряженности качественных признаков.

page
Download Presentation

Прогностическая эффективность биомаркеров

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Прогностическая эффективность биомаркеров Рубанович А.В. Институт общей генетики им. Н.И. Вавилова РАН, лаборатория экологической генетики rubanovich@vigg.ru

  2. Ну, вот, опять статистика! Это не статистика! Это методология представления данных по сопряженности качественных признаков

  3. Тревожные заголовки последних лет: Маркеры с воспроизводимыми значимыми OR могут быть плохими классификаторами Относительная полезность OR и RR Good association is usually a necessary, but not a sufficient, condition for good classification Капля в океане: Хорошая ассоциация обычно необходимое, но не достаточное условие для хорошей классификации …брешь между статистической значимостью и диагностической дискриминацией Проще говоря, даже р < 10-10не гарантирует возможность практического использования обнаруженных эффектов Ограниченная полезность OR при использовании диагностических и прогностических маркеров По ту сторону OR – риск заболеваемости на основе генетических профилей Прогноз генетического риска – умеем ли мы уже это делать ?

  4. 1000 человек 500 здоровых 500 больных 5 с маркером 495 без маркера 50 с маркером 450 без маркера Как и было Пример, когда сильный эффект не обеспечивает эффективность прогноза Это не означает, что маркер плох. Он «плохой классификатор», но «хороший диагност». Ведь с другой стороны 50/5591% носителей маркера больны! Популяционное обследование: Заболеваемость – 50% Суперэффект! У больных частота маркера в 10 раз выше, чем у здоровых: p=710-11 Сколько раз тест сработал? Вероятность того, что случайно выбранный человек будет правильно идентифицирован равна: - почти монета!!!

  5. Тревожные заголовки последних лет: Маркеры с воспроизводимыми значимыми OR могут быть плохими классификаторами Относительная полезность OR и RR Капля в океане: Odd Ratio ??? …брешь между статистической значимостью и диагностической дискриминацией Ограниченная полезность OR при использовании диагностических и прогностических маркеров По ту сторону OR – риск заболеваемости на основе генетических профилей Прогноз генетического риска – умеем ли мы уже это делать ?

  6. Показатели степени сопряженности признаков • Количественные признаки r - коэффициент корреляции • Качественные признаки OR - отношение шансов

  7. Случаи, когда маркер сработал Отношение шансов (Odd Ratio): Случаи, когда маркер не сработал Сопряженность качественных признаков Таблица сопряженности 22 Больные Case Здоровые Control Носители маркера Свободны от маркера

  8. 10 больных 10 здоровых Больные Здоровые Носители маркера Свободны от маркера Упражняемся … 7 1 9 3 р = 0.02 Заодно посчитаем значимость:

  9. WinPepi PortalFree! http://www.brixtonhealth.com/pepi4windows.html Огромное разнообразие современных тестов. Ежегодные обновления.

  10. Свойства показателя OR • OR = 1- нет эффекта (маркер не сопряжен с заболеванием) • OR>>1- сильный эффект, сильнаяположительнаяассоциация (маркер сопряжен с заболеванием) • OR<<1- сильный эффект, сильнаяотрицательнаяассоциация (маркер сопряжен со здоровьем). • Например, в случае генетического маркера, говорят о протективном действии гена И все-таки, что такое OR? И почему шансы?

  11. Частота (доля) Больные Здоровые Шанс (odd) Носители маркера Свободны от маркера Отношениерисков(Risk Ratio) Отношениешансов(Odd Ratio) Отношение шансов и относительный риск Карточный термин: вероятность выиграть к вероятности проиграть Вероятность и шанс – в чем разница? ORRR при p0,p1< 0.1

  12. FAQ: почему OR, а не RR ? • Отношение рисков наглядно, но не симметрично По смертности: отношение рисков RR = 0.05/0.01=5 По выживаемости: отношение рисков RR = 0.99/0.95=1.04 Отношение шансов в любом случае равно OR = 599/951=5.21 Кстати, всегда OR≥RR • Но главная причина не в этом. Дело в том, что в ассоциативных генетических исследованиях берут выборки больных и здоровых (т.н. «case-control»). В этом случае непосредственно оценить RRневозможно

  13. Чего от нас еще хотят? Вернемся к теме нашего разговора… Мы всегда считали достоверность различий, и все было в порядке Почему бы не обойтись привычным набором показателей ассоциирования – r, OR, pи т.п. ?

  14. ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы» О чем это они?

  15. Чувствительность (SE) – это доля носителей маркера среди больных (тест сработал!) Специфичность (SP) - это доля здоровых, которые не являются носителем маркера (тест сработал!) 10 больных 10 здоровых Случаи, когда маркер сработал Случаи, когда маркер не сработал Чувствительность – специфичность: старые добрые медицинские понятия Чувствительность = 0.7 Специфичность = 0.9

  16. Таблица сопряженности 22 Больные Case Здоровые Control Носители маркера Свободны от маркера

  17. Маркер Чувствительность Специфичность SEvs.SP: противоборство показателей Маркер у всех, и все больны! SE=1, SP=0 Все без маркера, и все здоровы! SE=0, SP=1 Выигрывая в чувствительности, обычно теряем специфичность (et converso)

  18. Так что важнее: чувствительность или специфичность? Тест должен быть высокочувствительным, если важно не пропустить ни одного больного (пусть даже будет гипердиагностика). AUC Тест должен быть высокоспецифичным, если важно не объявлять здорового больным (серьезная психологическая травма либо сильные побочные эффекты лечения – гипердиагностика нежелательна) 1 SE 0 1 1 - SP Все зависит от ситуации, но лучше всего ориентироваться на среднее. Это простой и эффективный показатель прогностических возможностей маркера (отличать больного от здорового): Area Under Curve?

  19. Почему величина AUC=(SE+SP)/2 характеризует прогностическую эффективность маркера? вероятность угадать, кто есть кто = 1/2 вероятность угадать, кто есть кто = AUC В качестве больного выбираем: - любого - любого - с маркером Берем 1 здорового и 1 больного • Без использования маркера • Используем тест и носителя маркера объявляем больным AUC– это вероятность отличить больного от здорового, ориентируясь на маркер! AUC>1/2, если OR>1

  20. Доля дур среди блондинок, это не то же самое, что доля блондинок среди дур! Двойственность показателей по столбцам и по строкам Positive Predicted Values: вероятность заболеть при носительстве маркера, диагностическая ценность =PPV SE= Доля носителей маркера среди больных Доля больных среди носителей маркера

  21. Двойственность показателей по столбцам и по строкам =NPV Negative Predicted Values: вероятность не заболеть при отсутствии маркера, диагностическая ценность SP Positive Predicted Values: вероятность заболеть при носительстве маркера, диагностическая ценность =PPV SE

  22. И это еще не все! Универсальный показатель ассоциирования - это не относительный риск! Risk Ratio - это во сколько раз возрастает вероятность заболеть при наличии маркера =PPV =NPV Всегда OR > RR SE SP

  23. ORможет сильно завышать оценку относительного риска привысокой заболеваемости Если ген сильно ассоциирован (OR=10)с широко распространенным заболеванием (напр., pD=0.5), то это не значит, что носители этого гена заболевают в 10 раз чаще. На самом деле только в 2 раза чаще. RR слабо зависит от частоты маркера … и уменьшается при увеличении заболеваемости RR/OR pM pD

  24. Показатель прогностической ценности (по столбцам) Балансовая точностью прогноза (Balanced Accuracy) • Показатель диагностической ценности (по строчкам) Балансовая точностью диагноза (Balanced Accuracy) Не слишком ли много показателей для таблички из 4 чисел? Ну а где же показатели прогностической эффективности? Их два, и к сожалению они редко бывают хороши одновременно Маркер-классификатор Прогнозы в эпидемиологии, скрининг, подбор групп риска, профессиональный отбор Маркер-диагност Индивидуальный пост-тестовый прогноз, клиническая практика

  25. Рак молочной железы: PPV=0.14 Маммография: NPV=0.999 RR=169 OR=197 p=10-300 SE=0.87; SP=0.97 AUC=0.92 Маммография – «маркер-классификатор» Диагностическая ценность положительного результата всего лишь 14% !!! pD=0.006 pM=0.037 Диагностическая ценность отрицательного результата почти 100% Banks E., Reeves G., Beral V., et. al. Influence of personal characteristics ofindividual women on sensitivity and specificityof mammography in the Million Women Study:cohort study. 2004, BMJ; 329; 477

  26. Тромбоз вен: Мутация Arg506Gln PPV=0.61 Leiden V: NPV=0.70 RR=2.0 SE=0.14; SP=0.96 AUC=0.547 Leiden V – «маркер-диагност» pD=0.32 pM=0.072 OR=3.7 p=510-7 Относительный риск существенно меньше OR. Это типично при высокой заболеваемости A. Folsom, M. Cushman, M. Tsai, et al. Aprospective study of venousthromboembolism in relation tofactor V Leiden and related factors BLOOD, 2002, 99, 8

  27. Не слишком ли много показателей для таблички из 4 чисел? Важный момент: не все эти показатели поддаются непосредственной оценке – все зависит от дизайна эксперимента Во всех случаях можно оценить только универсальный показатель ассоциирования отношение шансовOR!

  28. OR, SE, SP, AUC OR, RR, PPV, NPV любые Дизайн ассоциативных исследований Набираем выборку, заранее не зная, кто болен и кто носитель маркера Основной вариант ассоциативных исследований • Case-control study: • подбор групп «больные-здоровые» Обычно «экспонированные - контроль» • Cohort study: • подбор групп «с маркером – без маркера» • Population study: • случайная выборка без подбора групп Редкий вариант (дорого!)

  29. pD – встречаемость (распространенность) заболевания pM– популяционная встречаемость (частота) маркера ? ? При case-control мы не можем оценитьзаболеваемость и частоту маркера непосредственно в своем эксперименте Например, из соотношения Возможность непосредственной оценки зависит от дизайна эксперимента! Однако в большинстве случаевв отношенииpD иpM имеется априорная информация (эпидемиологические сводки, базы данных PubMed, HapMap и т.д.) Зная OR, pD иpMможно оценить все остальные показатели

  30. На что можно рассчитывать, используя бинарный маркер? Идеальный маркер OR=RR=∞ SE=SP=AUC=PPV=NPV=1 Маркер не работает (например, фамилия с гласной буквы) OR=RR=1, AUC=1/2 SE=pM, SP=1-pM PPV=pD, NPV=1-pD Какими могут быть чувствительность, специфичность и риски для бинарного теста? .... Рассмотрим крайности: В общем случае показатели эффективности теста зависят от частот встречаемости заболевания и маркера. Притом весьма нетривиальным образом! При OR > 1: SE > pM и PPV > pD В каждой клетке произведения вероятностей «встретить – не встретить» SE и PPV больше нуля даже в отсутствии ассоциаций

  31. Величина максимально возможного AUCне зависит от pM и pD и равна Зависимость AUC = (SE+SP)/2 от pDи pM AUC OR=20 OR=10 pD OR=5 В этой точке SE=SP pM

  32. Величина максимально возможного AUCне зависит от pM и pD и равна Зависимость (PPV+NPV)/2 от pDи pM pD pM

  33. Когда OR>5, а частота маркера не менее 30%: OR > 5.4 OR < 2.4 При низких OR (<2.5)маркер является заведомо плохим классификатором при любых частотах заболевания и маркера: При каких ORмаркер является хорошим классификатором? При OR>5 маркер может быть «хорошим классификатором», но лишь при высокой частоте встречаемости При OR<2 маркер является «плохим классификатором», и это уже не зависит от заболеваемости и частоты встречаемости маркера

  34. Распределение значений ORдля рисковых аллелей ассоциированных с одним из 16 широко распространенных заболеваний (92 SNP, подтвержденные в нескольких GWAS - исследованиях) В подавляющем большинстве случаев SNP, выявляемые в ассоциативных исследованиях являютсязаведомо «плохими классификаторами»: OR<2.5 N. Wray, M. Goddard, P. Visscher. Prediction of individual genetic risk of complex disease. Current Opinion in Genetics&Development 2008, 18:257–263

  35. Рассмотрением «комбинированных» генотипов можно увеличить OR pM GWAS на 1172 больных раком простаты – 7 SNP OR OR 0.23 rs4242382 (8q24) rs6983267 (8q24) rs4430796 (HNF1B) rs10993994 (MSMB) rs10896449 (11q13) rs4962416 (CTBP2) rs10486567 (JAZF1) 3.0 0.15 2.0 0.08 1.0 0.00 3 4 5 6 7 8 9 Число рисковых аллелей Число рисковых аллелей Thomas, G. et al. Multiple loci identified in a genome-wide association study of prostate cancer. Nature Genet. 40, 310–315 (2008). Обычно по числу рисковых аллелей в подтвержденных SNP:  10-12< p < 10-6 Генотипы с высоким ORимеют низкую частоту встречаемости

  36. George Poste, chief scientist at theComplex Adaptive Systems Initiative, andRegents professor of health innovation at Arizona State University Нашествие биомаркеров «Bring on the biomarkers»Nature , v 469, 2011 150 000 работ, претендующих на открытие биомаркеров Не более 100 биомаркеров рутинного использования в клиниках Капля в океане: Проф. Алексей Кондрашов, Life Sciences Institute, University of Michigan Мегагрант-2010 (МГУ). Лекция в Полит.РУ (2010) «Эволюционная биология человека и охрана здоровья»: Надежды 90-х не оправдались: эпоха GWAS буксует «У меня 10-15 генов предрасположенности? В этой информации очень мало проку!»

  37. Почему высокое ORне всегда гарантирует эффективность прогнозов, и когда подобное происходит? Суперэффект! ORвелико (=11) потому, что это число мало 5 с маркером 495 без маркера 50 с маркером 450 без маркера Возьмем крайний случай:OR=∞

  38. Почему высокое ORне всегда гарантирует эффективность прогнозов, и когда подобное происходит? При низкой частоте встречаемости маркера тест прогностически неэффективен. Точнее … даже при очень больших ORмаркер является плохим классификатором, если pM/ pD<0.2 (тогдаAUC<0.6). Но при этом он идеальный «диагност»: PPV=1. Вычисляем AUC1/2 при pM0, хотяOR=∞

  39. M D D M Два варианта высоко значимых эффектов

  40. Бинарные и количественные маркеры (тесты) • Бинарный тест: • маркер «есть-нет» приходим к таблице 2х2 • Количественный тест: • маркер является количественным показателем После выбора порогового значения маркера

  41. низкая специфичность высокая чувствительность Низкий порог Количественный тест: выбор порога Частота 0.25 Контроль Больные 0.2 0.15 0.1 0.05 Признак - маркер 0

  42. Порог Чувствительность Специфичность высокая специфичность низкая чувствительность Высокий порог Количественный тест: выбор порога Частота 0.25 Контроль Больные 0.2 0.15 0.1 0.05 Признак - маркер 0 Низкий порог Как выбрать порог, чтобы соотношение чувствительность/специфичность было оптимальным?

  43. Медицинская диагностика, радиология и физиология Распознавание образов, машинное обучение ROC – анализ Receiver Operator Characteristics Термин времен 2-ой мировойвойны, который придумали операторы первых радарных установок Как отличить шум и помехи от вражеского самолета? Современные применения ROC-анализа: Погода и любые прогнозы по приметам Борьба со спамом

  44. SE 1 0.5 1 - SP 0 0.5 1 Оптимальный выбор порога: выбирается точка на ROC-кривой, которая ближе всех к левому верхнему углу (0,1), т.е. ROC – кривая: зависимость SEот (1-SP) при плавном изменении порога Частота 0.25 Контроль Больные 0.2 0.15 0.1 0.05 0 Признак - маркер Пороговое значение

  45. Маркер не работает • Идеальный маркер 1 1 1 SE SE SE 0 0 0 1 1 1 1 - SP 1 - SP 1 - SP • 1-ый тест лучше, чем 2-ой Форма ROC-кривых

  46. AUC– интегральный показатель прогностической эффективности маркера AUC 1 SE 0 1 1 - SP AUC- это площадь под ROC-кривой (Area Under Curve) AUC = Вероятность того, что значение признака-маркера у случайно выбранного больного больше, чем у случайно выбранного здорового U=N1·N2·AUC - непараметрический критерий Манна-Уитни

  47. Мы их не знаем, но они должны быть, судя по «близнецовой наследуемости» 5241 больных раком простаты: PSA + 35 подтвержденных SNP, восновном: 8q24: OR=1.40; p<10-4 19q13: OR=1.31; p<10-4 1.0 0.8 Традиционные маркеры (PSA, семейная история): AUC=0.64 0.6 Традиционные + генетические маркеры: AUC=0.67 0.4 0.2 0.0 0.2 0.4 0.6 0.8 1.0 ROC-анализ используют для проверки эффективности внедрения новых маркеров Гипотетическая модель, включающая неизвестные генетические маркеры: AUC0.8 (дальше не улучшить) AlyM,etal.PolygenicRiskScoreImprovesProstateCancerRiskPrediction:Resultsfromthe Stockholm-1 CohortStudy.EurUrol(2011),doi:10.1016/j.eururo.2011.01.017

  48. Вычисления при ROC-анализе 3 2 Значения признака-маркера 1 0 Контроль Больные

  49. Вычисления при ROC-анализе

  50. Все делается в Excel: 0.88 0.58

More Related