310 likes | 556 Views
Биостатистика. 1. Вводная лекция. Рубанович А.В. Институт общей генетики им. Н.И. Вавилова РАН. Самая смешная наука. The average human has about one breast and one testicle. Прислуге всегда достается. «There are three kinds of lies: lies, damned lies, and statistics».
E N D
Биостатистика 1. Вводная лекция Рубанович А.В. Институт общей генетики им. Н.И. Вавилова РАН
Самая смешная наука • The average human has about one breast and one testicle Прислуге всегда достается • «There are three kinds of lies: lies, damned lies, and statistics». • Б. Дизраэли (1804-81) • 33.3% студенток Гарварда выходят замуж за профессоров (из 3 одна вышла замуж за профессора) • «If experimentation is the queen of the sciences, surely statistical methods must be regarded as the guardian of the royal virtue». М. Tribus • «Statistics - servantof all science». • Jerzy Neyman. Science, 1955, Vol. 122, 3166, p. 401-406. http://www.xs4all.nl/~jcdverha/scijokes/1_2.html#subindex http://my.ilstu.edu/~gcramsey/Gallery.html http://davidmlane.com/hyperstat/humor.html http://www.gdargaud.net/Humor/QuotesScience.html#Statistics
Ресурсы: оnline-учебники (free!) • A New View of Statistics, by Will G.Hopkins, http://sportsci.org/resource/stats/ • NIST/SEMATECH e-Handbook of Statistical Methods http://www.itl.nist.gov/div898/handbook/ • http://www.itl.nist.gov/div898/handbook/toolaids/pff/index.htm • Online Statistics: An Interactive Multimedia Course of Study by David Lane, Joan Lu, Camille Peres, Emily Zitek, et al. http://onlinestatbook.com/index.html • The Little Handbook of Statistical Practice, by Gerard E. Dallal, http://www.jerrydallal.com/LHSP/LHSP.HTM • StatSoft Electronic Textbook http://www.statsoft.com/textbook/ • HyperStat Online Statistics Textbook http://davidmlane.com/hyperstat/index.html
Сайт «Биометрика» - автор и многолетний редакторВ. П. Леонов: http://www.biometrica.tomsk.ru/
Ресурсы: свободно-распространяемые программы http://en.wikipedia.org/wiki/List_of_statistical_packages Abramson,J.H. WINPEPI updated: computer programs for epidemiologists, andtheir teaching potential. Epidemiologic Perspectives & Innovations 2011, 8:1
Ресурсы: книги (можно скачать с моего компьютера) 8 томов, 1300 статей, 6300 страниц 816 стр., около 400 методов
Букварь по биостатистике S. Glantz, Primer of Biostatistics 6 edition, McGraw-Hill, 2005, 500 pp. Русский перевод доктора физ.-мат. наук Ю. А. Данилова Доступен в Интернете! Можно скачать у меня.
Если для Вашего эксперимента требуется статистика, то Вы должны переделать его более тщательно (Эрнест Резерфорд) Те, кто игнорируют статистику, обречены изобрести ее заново (Бредли Эфрон). Два авторитетных противоположных мнения
1 «орел» в 1 бросании: Астрагалы, V тыс. лет до н.э. 2 «орла» в 2 бросаниях: 4 «орла» в 4 бросаниях: Изобретаем статистику: 5 «орлов» в 5 бросаниях: Мы с вами играем в «орлянку». Я ставлю на «орла», и бросаю раз, два, три … - все время выпадает «орел»! Вопрос: сколько вы будете это терпеть? С какого раза Вы заподозрите, что я мошенник? Выпишем вероятности: ……………………… Со времен астрагалов! Бросок Венеры – 5% События с вероятностью менее 5% принято считать «маловероятным». Биологи обычно используют 5%-й уровень значимости
Правда, страшно! Статистика отвечает на вопрос : случайно ли то, что мы наблюдаем? Например: 2 «орла» в 10 бросаниях монеты – такое бывает? Подобные вероятности описывает «биномиальное распределение» Моя задача - убедить вас в том, что это просто которое является частным случаем «гипергеометрического распределения»
6 способов Сколькими способами можно выбрать 3 предмета из 10? Например, число победителей из 10 спортсменов (т.е. с учетом места – 1, 2, 3) Итого 1098=720 способов Исчисление комбинаций • Перестановки Сколькими способами можно расставить 3 предмета? 1-й предмет можно выбрать 3 способами 2-й предмет можно выбрать 2 способами 3-й предмет можно выбрать 1 способом Итого = 321=3!=6 Число перестановок из nпредметов = n (n-1) (n-2)…. 21=n! Набираем в Excel: =ФАКТР(6) • Размещения 1-го спортсмена можно выбрать 10 способами 2-го спортсмена можно выбрать 9 способами 3-го спортсмена можно выбрать 8 способами Число способов выбрать k из nпредметов = n (n-1) (n-2)….(n-k+1)
Число перестановок из 3 предметов Число сочетаний «из n по k» = Исчисление комбинаций • Перестановки Число перестановок из nпредметов = n (n-1) (n-2)…. 21=n! • Размещения Число способов выбрать k из nпредметов = n (n-1) (n-2)….(n-k+1) (с учетом места - 1-ый, 2-ый и т.д.) • Сочетания Сколькими способами можно отобрать 3 предмета из 10 без учета места? (без учета 1-ый, 2-ый 3-ий) =ЧИСЛКОМБ(10; 3)
2 с собой: способов вариантов вариантов Из 10 мест выбираем 2: Упражняемся… • У меня в библиотеке 100 книг. • Сколькими способами я могу выбрать самую любимую и самую нелюбимую книгу? Сколькими способами я могу взять 2 книги с собой в поездку? Любимая и нелюбимая: 10099=9900 способов • Из 10 друзей я могу пригласить в поездку только 2. Сколько вариантов? • 2 «орла» в 10 бросаниях монеты – сколько возможно последовательностей? • Сколько существует различных последовательностей из 2 «орлов» и 8 «решек»? • У меня в гостинице сейф с кодом из 4 цифр. Я забыл введенный шифр. • Сколько комбинаций цифр (0, 1, 2, …, 9) я должен перебрать, чтобы открыть сейф? 10101010=104комбинаций • Сколько можно написать стихотворений? Бесконечно много? 3040010600
Теперь мы можем посчитать вероятность «2 орла в 10 бросаниях» = Всего лишь 8% !!! Статистика отвечает на вопрос : случайно ли то, что мы наблюдаем? Например: 2 «орла» в 10 бросаниях монеты – такое бывает? Вроде маловероятно, менее 5%. Но….что-то здесь не так! Раскладов много, и они все маловероятны Например, если бросить монету 100 раз, сколько будет «орлов»? 50? Давайте посчитаем = 0,0796 Набираем в Excel: =(0,5)^100*ФАКТР(100)/(ФАКТР(50))^2 или еще проще =ЧИСЛКОМБ(100;50)/2^100 Вероятность 50 из 100 мала. Но вероятность 4060 из 100 равна 95%. Мораль: для проверки случайности надо оценивать вероятность наблюдаемого расклада и еще более «крутых» аномалий!
2 орла в 10 бросаниях: 1 орел в 10 бросаниях: 0 орлов в 10 бросаниях: Статистика отвечает на вопрос : случайно ли то, что мы наблюдаем? Например: 2 «орла» в 10 бросаниях монеты – такое бывает? Вычисляем суммарную вероятность «2 орла в 10 бросаниях» и еще более «крутых» аномалий: =БИНОМРАСП(2;10;0,5;2) Итого: 0.055 > 0.05 По принятым нормам «2 орла в 10 бросаниях» не является значимым указанием на жульничество!
Реальный пример: ассоциативные исследования полиморфизма гена CCR5у ВИЧ-инфицированных Хемокиновый рецептор CCR5 (ко-рецептор к рецептору CD4) Мутация CCR5-32 : делеция 32 п.н. (Хр. 2), обнаружена у здоровых лиц, практикующих незащищенный секс с ВИЧ-инфицированными (N. Samson et. al., Nature, 1996) Поверхность Т-лимфоцита / : сильная защита от заражения ВИЧ и оспой w/ :задержка развития СПИДа (на 2 года) 10-25% европейцев гетерозиготны по делеции 32. Обеспечена ли им хотя бы частичная защита от ВИЧ-инфицирования?
30% 20% Частота гетерозигот CCR5-delta 32 10% 0% Oh et al., 2008 Liu et al., 2004 Ruiz et al., 2001 Barber et al., 2001 Phillpot et al., 2003 Stewart et al., 1997 Meyer et al., 1997 Balotta et al., 1997 Bogner et al., 2004 Reiche et al., 2008 Samson et al., 1996 Adojaan et al., 2007 Zimmerman et al., 1997 Zimmerman et al., 1997 Zimmerman et al., 1997 Parczewski et al., 2009 Eugen-Olsen et al., 1997 Visco-Comandini et al., 1998 ВИЧ+ ВИЧ- Вероятность выпадения 3 (и менее) орлов в 18 бросаниях монеты равна Частота гетерозигот по CCR5-32 среди защищенных от ВИЧ-инфицирования (по данным 18 авторов) Только в 3 выборках из 18 частота гетерозигот w/у ВИЧ+выше, чем у ВИЧ- «Монета» значимо несимметрична! Гетерозиготы w/ чаще встречаются среди ВИЧ- Если ассоциации нет, то случаи «больше-меньше» должны появляться с вероятностью ½ =БИНОМРАСП(3;18;0,5;2)
Мы познакомились с биномиальным распределением Бернулли Пусть вероятность события равна р. Тогда в Nиспытаниях это событие произойдет kраз с вероятностью • Примеры: • Популяционная частота мутаций равна 10%. Вылавливаем 10 особей. • Какова вероятность обнаружить 1 мутанта? • Какова вероятность обнаружить хотя бы 1 мутанта? Выборка объемом 1/p, где р – частота мутаций, обеспечивает поимку мутанта только на 65%! • Шевалье де Мере (1601-1665) всегда ставил на «хотя бы одна 6-ка на 4 кубиках». Почему он выигрывал? Вероятность проиграть (5/6)40.48
1000 человек угадывали последовательность из 10 карт: красная или черная? 12человек угадали 9 из 10 карт, двое все 10 карт Опыты по выявлению людей с паранормальными способностями: Joseph Rhine (1950) Вывод Д. Райна: «нельзя сообщать подопытным людям об их паранормальных способностях» Все выявленные «экстрасенсы» в последующих опытах не подтвердили свои способности
Шансы найти «экстрасенса» среди 100 человек = Шансы найти «экстрасенса» среди 1000 человек = Что произошло? 1- Р(100 раз не найти)
Теория вероятностейпостроена на костях (к счастью, игральных!) Статистика возникла из праздных игр английских аристократов: Сэр Рональд Фишер. Задача о леди, пробующей чай (1922). Можно ли считать, что леди способна определить способ приготовления чая? D. Sasburg. The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century (2001) Включаем: Р=0.347 !!!
Точный тест Фишера для таблиц 2х2 • Цитогенетический мониторинг • Ассоциативные генетические исследования
Точный тест Фишера для таблиц 2х2 при условии p0 = p1 Вычисляется вероятность • Цитогенетический мониторинг Есливыборки велики и равны (N0=N1>100), то эта вероятность равна т.е. вероятность выпадения n0орлов в (n0+n1)бросаниях монеты. Почему?
Контроль: 1 дицентрик на 1000 клеток Облучение: 9 дицентриков на 1000 клеток против Control: 1 мутация на 100 здоровых Case: 9 мутаций на 100 больных против Точный тест Фишера с помощью монеты Если различий нет, то эти 10 мутаций должны распределиться случайно между опытом и контролем или Если объемы выборок равны и велики, то значимость различий зависит только от числа событий (напр., числа мутаций в выборках) …и не зависит от самих объемов выборок!!! Значимость различий 9 против 1 равна вероятности выпадения 9 или 10 «орлов» в 10 бросаниях монеты
1 против 0: 2 против 0: 4 против 0: 5 против 0: Дурацкий вопрос: что больше нуля? Или сколько событий в опыте значимо превышают отсутствие событий в контроле? Выпишем вероятности: ……………………… 5 значимо больше 0
Упражняемся… • При -облучении лимфоцитов крови in vitroобнаружили 3 клетки с дицентриками на 500 просмотренных метафаз. В контроле дицентриков не было. Можно ли считать частоту дицентриков повышенной? 3 против 0: вероятность 3 орлов в 3 бросаниях Exact tests: Fisher's P One-tailed: P = 0.125 Two-tailed: P = 0.249 ??? • Каждый 2-ой из нас гомозиготен по делеции ( 48 кб) гена GSTM1(детоксикация ксенобиотков). В азиатских популяциях частота этого генотипа обычно выше, чем в европейских. Например: Москва - 98 из 220, Алма-Ата - 99 из 180. Значимы ли различия частот? Здесь фокусы с орлами не проходят! Поэтому… Exact Fisher's Ptwo-tailed: P = 0.044
Одностронние и двусторонние тесты • При -облучении лимфоцитов крови in vitroобнаружили 3 клетки с дицентриками на 500 просмотренных метафаз. В контроле дицентриков не было. Можно ли считать частоту дицентриков повышенной? 3 против 0: вероятность 3 орлов в 3 бросаниях Exact tests: Fisher's P One-tailed: P = 0.125 Two-tailed: P = 0.249 • Каждый 2-ой из нас гомозиготен по делеции ( 48 кб) гена GSTM1(детоксикация ксенобиотков). В азиатских популяциях частота этого генотипа обычно выше, чем в европейских. Например: Москва - 98 из 220, Алма-Ата - 99 из 180. Значимы ли различия частот? Здесь фокусы с орлами не проходят! Поэтому… Exact Fisher's Ptwo-tailed: P = 0.044
Контроль: 1 дицентрик на 1000 клеток Облучение: 9 дицентриков на 1000 клеток против Одностронние и двусторонние тесты One-tailed vs. Two-tailed Значимость различий 9 против 1 равна вероятности выпадения 9 или 10 «орлов» в 10 бросаниях монеты (one-tailed) Всимметричном случае P2-tailed= 2P1-tailed Двусторонний тест всегда предпочтительней! … плюс значимость различий 1 (облучение) против 9 (контроль), т.е. 0 или 1 «орел» в 10 бросаниях монеты (two-tailed)
1 против 0: 2 против 0: 4 против 0: 5 против 0: 6 против 0: Дурацкий вопрос: что больше нуля? Или сколько событий в опыте значимо превышают отсутствие событий в контроле? Выпишем вероятности: ……………………… One-tailed Two-tailed
Сравнение частот при равных объемах выборок в опыте и контроле и уровне значимости 5% Будьте бдительны! 0 значимо отличается только от 6
На сегодня это все Еще раз напомню: • Есть смысл запомнить правила подсчета числа комбинаций (перестановки, размещения, сочетания) • Биномиальное распределение вероятностей – это наше все. Постарайтесь его прочувствовать! • Сравнивать частоты событий лучше всего с помощью точного теста Фишера • Односторонние тесты можно использовать лишь в исключительных случаях • При равных объемах выборок 0 значимо отличается только от 6