1 / 26

ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН rubanovich@vigg.ru тел. (499) 132-8958. Темы для обсуждения. Оценка ассоциаций «генотип-фенотип» и их значимости. Факторы, влияющие на значимость оценок.

kylee
Download Presentation

ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН rubanovich@vigg.ru тел. (499) 132-8958

  2. Темы для обсуждения • Оценка ассоциаций «генотип-фенотип» и их значимости • Факторы, влияющие на значимость оценок • Объединение выборок и метаисследования • Учет множественности сравнений

  3. Выявление ассоциаций «генотип-фенотип»: минимальный набор действий Вычисляем OR; значимость по точному тесту Фишера Вычисляем средние значения признака для разных генотипов; значимость по критерию Манна-Уитни Кроме этого в обоих случаях можно строить различные регрессионные модели: Зависимая переменная – признак (фенотип), независимыми переменные – генотипы. Например так: A/A - 0, A/T - 1, T/T - 2 • Фенотип - качественный признак • (например: «здоровый - больной», «русский - татарин») • Фенотип - количественный признак • (например: вес, содержание кальция, частота аберраций)

  4. OR – количественная мера предрасположенности (Odd Ratio) Группа больных Контроль (здоровые) - генотип, указывающий на предрасположенность к заболевания >> Рбольные Рконтроль Рбольные (1- Рконтроль) ______________________ OR = Рконтроль (1- Рбольные) OR– непременный атрибут «case-controlassociation study» (выявление «генов предрасположенности» к заболеванию путем сопоставлений частот генотипов у больных и здоровых) OR показывает во сколько раз повышена вероятность заболеть для носителя «плохого» генотипа OR>1 – генотип связан с болезнью OR=1 – нет связи между генотипом и болезнью OR<1 – протективный генотип

  5. Free! • 30 дней Soft для вычисления OR и проведения матаисследований WinPepi Portal (2010) - computer programs forepidemiologists

  6. 0.04 0.03 Частота аберраций хромосом 0.002 0.01 0.00 + + A/A A/G G/G Рецессивная модель Доминантная модель Статистический анализ сопряженности генотипов и количественных признаков • Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту • (не по Стьюденту!) Обычно стараются рассмотреть две группы Гомозигота по минорному аллелю Гомозигота по мажорному аллелю

  7. 60 50 G/G 50 40 40 G/G 30 , Частота, % A/G A/G Частота, % 30 20 20 A/A 10 A/A 10 0 0 0-1 1-2 2-3 3-4 4-5 5-6 >6 0 1 Частота аберраций на 100 клеток Частота аберраций на 100 клеток Статистический анализ сопряженности генотипов и количественных признаков • Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту • (не по Стьюденту!) Далее вычисляется OR и значимость по точному критерию Фишера. В данном примере риск возникновения аберраций у носителей минорного аллеля G равен OR=2,1и р=0,015 • Сравнение частот генотипов для групп с низким (или высоким) значением признака Группа людей с нулевым уровнем аберраций

  8. Для логиcтической регрессии ai =ln(ORi) Статистический анализ сопряженности генотипов и количественных признаков • Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту • (не по Стьюденту!) Зависимая переменная – признак (р), независимыми переменные – генотипы (xi). Например так: A/A - 0, A/T - 1, T/T - 2 • Сравнение частот генотипов для групп с низким (или высоким) значением признака Нелинейные многомерные регрессии, реализованные в пакетах Statistica и SPSS • Логистическая и пуассоновская регрессии р – частота аберраций xi – генотип i-го локуса аi – коэф. регрессии

  9. X. Sole, E. Guino, J. Valls, R. Iniesta1, V. Moreno (2006) • http://bioinfo.iconcologia.net/index.php?module=Snpstats • http://www.bios.unc.edu/~lin/hapstat/ Soft для работы с генотипами и гаплотипами • WinStat for Excel Free! Free!

  10. Темы для обсуждения • Оценка ассоциаций «генотип-фенотип» и их значимости • Факторы, влияющие на значимость оценок • Объединение выборок и метаисследования • Учет множественности сравнений

  11. Чуть-чуть об ошибках статистических тестов Традиционно биолог ориентирован на контроль ошибки I рода (через уровень значимости), т.е. на гарантии отсутствия ложных открытий, Нулевая гипотеза – обычно предположение об отсутствии различий = 2 выборки из одной генеральной совокупности Ошибка I рода () Вероятность отвергнуть правильную нулевую гипотезу = Вероятность обнаружить различия там, где их нет = Вероятность совершить фальшивое открытие Ошибка II рода () Вероятность принять неправильную нулевую гипотезу = Вероятность не обнаружить существующие различия = Вероятность упустить открытие … и при этом мало заботится о возможности упустить открытие (ошибка II рода) Мощность теста = 1- Ошибка II рода = Вероятность правильно отвергнуть нулевую гипотезу Вероятность не упустить открытие

  12. От чего зависят ошибки статистических тестов? • От размаха реально существующих отличий и разброса • данных • От объемов выборок • Ошибки I и II рода однозначно не связаны. В целом • ошибка II рода растет при уменьшении ошибки I рода Ошибка I рода (вероятность фальшивого открытия) слабо зависит от объемов выборок, если они сравнимы по величине С увеличением объема выборки мощность теста (вероятность не упустить открытие) всегда возрастает Крайний случай: «критерий» св. Фомы Неверующего (0033) Ошибка I рода = 0  Ошибка II рода = 1

  13. Сравнение частот при уровне значимости 0.05 Объемы выборок в опыте и контроле одинаковы больше 5 независимо от объемов выборок (100 или 1000) Если в контроле нет мутаций, то при значимости отличий в опыте их должно быть

  14. Темы для обсуждения • Оценка ассоциаций «генотип-фенотип» и их значимости • Факторы, влияющие на значимость оценок • Объединение выборок и метаисследования • Учет множественности сравнений

  15. Проверка однородности материала и вычисление OR для нескольких выборок • Индекс рассеяния для биномиальных выборок Можно ли объединить kнезависимых выборок и оценить частоту как Выборки можно объединять, если • Mantel-Haenszeltest

  16. Значимость гетерогенности выборок Вычисление OR для совокупности выборок Mantel-Haenszeltest

  17. Если это принять за 4-ое превышение, то р=0.015 Вероятность выпадения 3 (и менее) орлов в 18 бросаниях монеты равна Объединение выборок с незначимыми эффектами Только в 3 выборках из 18 частота гетерозигот w/d у HIV+выше, чем у HIV- Монета достоверно несимметрична! Гетерозиготы w/d чаще встречаются среди HIV- Но какое OR? Если ассоциации нет, то случаи «больше-меньше» должны появляться с вероятностью ½

  18. Протективное действие гетерозиготы w/d CCR5 достоверно, но не велико: OR=1.15 Mantel-Haenszeltestwith WinPepi: результаты

  19. Темы для обсуждения • Оценка ассоциаций «генотип-фенотип» и их значимости • Факторы, влияющие на значимость оценок • Объединение выборок и метаисследования • Учет множественности сравнений

  20. Значимо! Как это бывает? Наблюдаем появление фальшивых ассоциаций Генерируем две одинаково распределенные выборки по 100 особей с 20-локусными генотипами Частоты минорых аллелей (в среднем 0.1) Должно быть OR=1 Больные Здоровые ГенВыборка 1 Выборка 2 OR p Сразу 3 локуса «ассоциированы» с заболеваемостью! 2 4 3 1

  21. Как избежать фальшивых открытий? • Правило Карло Бонферрони (1935): • При проведение m независимых статистических тестов • значимы только те результаты, для которых • False Discovery Rate control: FDR - контроль • Permutation test • (компьютерная перестановка лэйблов «case-control»)

  22. 1 Зависимость ошибки II рода от числа тестов (SNP) при использовании поправки Бонферрони При 100 сравнениях ради того, чтобы гарантировать отсутствие хотя бы одного ложного результата, мы упускаем 88% открытий! Вероятность пропустить ген с OR=2.7 на выборках 100(case)и 100 (control) При m=100 ошибка равна 0.88 При 5 сравнениях упускаем 50% открытий В отдельном тесте вероятность упустить открытие равна 0.2

  23. 105 статей в базе Новый принцип проверки статистических гипотез: FDR-контроль False Discovery Rate control: Benjamini, Hochberg (1995) Вероятность хотя бы одного фальшивого открытия < Уровня значимости Ошибка I рода < 0.05 Традиционный принцип заменяется на Средняя доля фальшивых открытий < Выбранный уровень

  24. Пример: множественные сравнения по 10 тестам Располагаем тесты в порядке увелечения p Значимые различия после коррекции по FDR В первой клетке как у Бонферрони, Поправка Бонферрони оставляет значимым лишь первое сравнение во второй клетке вдвое больше, втрое больше и т.д …. И это все!!! Для 6-ого теста pбольше этого значения Значимые различия без поправок на множественность

  25. Что делать, если FDR не помогает? Permutation tests: случайные перестановки пометок «case-control» вкомпьютерных симуляциях по алгоритму: • В исходной базе данных делаем случайную перестановку • лейблов case-control • Вычисляем зановоp-уровни для каждого гена (pperm) • Повторяем процедуру Nраз(минимум 10000), фиксируя • случаи, когда pperm меньше исходного значения p • Вычисляем откорректированное pкак Тем самым мы отказываемся от попыток вычислить значимость различий. Вместо этого мы ее «измеряем» экспериментально, разыгрывая ситуацию на компьютере Точный тест Фишера – это тоже permutation test, только реализованный аналитически (р вычисляется по формулам комбинаторной теории вероятностей)

  26. Permutation test применительно к данным об ассоциации заболеваемости с 10 SNP Совсем маленькая программка Значимо по Бонферрони Значимо по FDR Значимо без коррекции на множественность Переставляем отметки«case-control» 10000 раз. В результате получаем коррекциюp Но так бывает не всегда Indulgentia

More Related