1 / 28

Биоинформатика сложных количественных признаков

Биоинформатика сложных количественных признаков Цель: Создание методической базы для выяснения генетической природы сложных признаков.

irish
Download Presentation

Биоинформатика сложных количественных признаков

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Биоинформатика сложных количественных признаков Цель: Создание методической базы для выяснения генетической природы сложных признаков. Задачи: Разработка новых моделей контроля сложных признаков, новых методов картирования и идентификации контролирующих их генов и использование этих разработок для получения новых знаний о генетической архитектуре сложных признаков человека. Этап I:Параметрический анализ сцепления по родословным неограниченно большого размера (алгоритм и пакет программ)

  2. Генетическая гетерогенность комплексных признаков Расширенные родословные • Ограниченное число мутантных генов • Уменьшение вариабельности средовых факторов • Одновременный анализ сцепления и ассоциаций • Родительский контроль при анализе ассоциаций • Разные мутантные гены в разных семьях • Одновременный анализ нескольких болезней Peltonen et al. Science, 2001 291:5507, 1224-1229

  3. EUROSPAN (European Special Population Network) project 1. Counties of Norrbottenand Västerbotten, Swedish 2. Archipelago of Orkney, Scottish 3. South-western area of the Netherlands 4. Venosta Valley,South Tyrol, Italy 5. villages of Vis and Komiza, Dalmatian island, Croatia Johansson et al. Hum Mol Biol, 2009 18: 373-380

  4. Erasmus Rucphen Family (ERF) study Aulchenko et al, 2007

  5. Методы рекомбинационного анализа • параметрические • непараметрические Пакеты программ для параметрического анализа сцепления: LINKAGE (ftp://linkage.rockefeller.edu/software/linkage) FASTLINK (http://www.ncbi.nlm.nih.gov/CBBresearch/Schaffer/fastlink.html) vitesse (http://watson.hgen.pitt.edu/docs/vitesse.html) GENEHUNTER-MODSCORE (http://www.staff.uni-marburg.de/~strauchk/software.html) SAGE (http://darwin.cwru.edu/sage/) SIMWALK2 (http://watson.hgen.pitt.edu/register/)

  6. Функция правдоподобия произвольной родословной i – pedigree ancestors, j – offspring, k – observed individuals i – основатели родословной, j – потомки, k – обследованные особи Суммированиепо всем возможным комбинациям генотипов у всех членов родословной Время вычисления пропорционально числу суммирований

  7. Алгоритмы вычисления функции правдоподобия

  8. 1 1 2 2 3 3 4 4 5 5 Алгоритм Эльстона-Стьюарта Процедура свертки: 1 2 1 2 1 2 3 4 3 3 4 1 2

  9. Проблемы реализации алгоритма Эльстона-Стьюарта • Множественные петли • Время вычислений • Сверхмалые величины (машинный ноль) • Модель наследования количественного признака

  10. Проблема множественных петель Решение: 1.Аппроксимация функции правдоподобия родословной с петлями точной функцией правдоподобия родословной с разорванными петлями при условии информации о дублированных членах родословной (Stricker, C., Fernando, R.L. & Elston, R.C. (1996) An algorithm to approximate the likelihood for pedigree data with loops by cutting. Theor Appl Genet, 91, 1054-63) 2. Алгоритм оптимального разрыва петель (Axenovich, T.I., Zorkoltseva, I.V., Liu, F., Kirichenko, A.V. & Aulchenko, Y.S. (2008) Breaking loops in large complex pedigrees. Hum Hered, 65, 57-65) LH0 = LH1/LH(k’) k k’

  11. Уменьшение времени вычислений Решение: 1. Свертка ядерных родословных 2. Оптимизация порядка сверток (Belonogova, N.M. & Axenovich, T.I. (2007) Optimal peeling order for pedigrees with incomplete genotypic information. Comput Biol Chem, 31, 173-7) 3. Элиминация невероятных генотипов (O'Connell, J.R.& Weeks, D.E. (1999) An optimal algorithm for automatic genotype elimination. Am J Hum Genet, 65(6), 1733-40)

  12. Уменьшение времени вычислений Процедура свертки

  13. Уменьшение времени вычислений Процедура свертки • две стандартные процедуры свертки • -на родителя • -на потомка • объем памяти ~|N||G| • возможность оптимизации порядка сверток

  14. Уменьшение времени вычислений Оптимизация порядка сверток Running time Peeling NP on a parent Peeling NP on one of the offspring

  15. Уменьшение времени вычислений Оптимизация порядка сверток

  16. Уменьшение времени вычислений Вычислительная сложность при разном порядке сверток

  17. 1000 2000 3000 4000 5000 6000 -38 log(Z) -308 Проблема машинного нуля Проблема: Решение: Если и 0≤ zi≤1, то Z→0 при увеличении N Пусть F>1 и yi=Fzi, тогда Z=∏yi/FNили lnZ=∑ln(yi)-N∙lnF. N Zi=0.9 Zi=0.75 Zi=0.5

  18. Проблема машинного нуля Let’s define the factor whereP(Xi(s)|gi)is the result of peeling s on individuali. Let’s introduce r(Xi(s)|gi)= P(Xi(s)|gi)/F(s)so that ∑ r(Xi(s)|gi)= 1. Then

  19. Проблема машинного нуля • неограниченный размер родословной • уменьшение объема памяти (отказ от double precision)

  20. Модель наследования количественного признака Смешанная модель: x = g + G + e g – майоргенный эффект [g: QQ, Qq или qq] G – полигенный эффект [N(0,σ2G)] e – средовой эффект [N(0,σ2e)]

  21. Модель наследования количественного признака Конечная аппроксимация полигенного эффекта (Fernando, R.L., Stricker, C. & Elston, R.C. (1994) The finite polygenic mixed model: an alternative formulation for the mixed model of inheritance. Theor Appl Genet, 88, 573-80) n диаллельных локусов (аллели 0 и 1), эффект пропорционален числу единичных аллелей во всех локусах k (G = dk) Гипергеометрическая аппроксимация распределения единичных аллелей у потомка (Lange, K. (1997) An approximate model of polygenic inheritance. Genetics, 147, 1423-30) Ckk1+k2 C2n-k4n-k1-k2/ C2n4n, где k1 и k2 – числа единичных аллелей у родителей

  22. n n Модель наследования количественного признака Параметры модели: p – частота аллеля Q, QQ, Qq, qq – генотипические средние, ρ – эффект единичного аллеля полигена, σ2e –средовая дисперсия Число генотипов: 21 = 3(майорген) ×7(полиген) Функция правдоподобия при анализе сцепления: n = 10 для двуточечного анализа сцепления, n = 55 для трехточечного анализа сцепления

  23. Пакет программ MQscore_SNP 1. Подготовка данных: a) Проверка структуры родословной и упорядоченная нумерация [recode_ped_2006.pl (http://mga.bionet.nsc.ru/soft/index.html)] b) Оптимальный порядок сверток и информационные массивы [pedpeel_2006_4.pl(http://mga.bionet.nsc.ru/soft/index.html)] с) Упорядоченные массивы признаков и маркерных генотипов

  24. Пакет программ MQscore_SNP 2. Анализ сцепления[MQscore_SNP (http://mga.bionet.nsc.ru/soft/)]: a) MQscore_2point – двуточечный анализ сцепления, b) MQscore_2point_max – двуточечный анализ сцепленияс максимизацией параметров модели, с) MQscore_3point – трехточечный анализ сцепления

  25. Пакет программ MQscore_SNP 3. Время счета: Размер родословной 5822, число генотипированных 2480, число маркеров 5250, процессор Pentium D 3ГГц a) MQscore_2point – двуточечный анализ сцепления, 0.31 мин на 1 маркер, 27 часов на геном, b) MQscore_2point_max – двуточечный анализ сцепленияс максимизацией параметров модели, 8.28 мин на 1 маркер, 30 дней на геном с) MQscore_3point – трехточечный анализ сцепления 14.25 мин на пару маркеров, 52 дня на геном

  26. Пакет программ MQscore_SNP 4. Стратегия анализа: 1. Сегрегационный анализ (оценка параметров модели) 2. Двуточечный анализ сцепления (идентификация маркеров с LOD score > 1.5) 3. Двуточечный анализ маркеров с LOD score > 1.5 с максимизацией параметров (уточнение LOD score) 4. Трехточечный анализ сцепления в хромосомах с LOD score > 1.5 (QTL между соседними маркерами)

  27. Идентификация и картирование генов роста человека The locus 16q24 showing the strongest linkage signal between markers rs299956 and rs2076962 was not mapped earlier as region contributing to normal variation of human height. We studied association in regions 80 – 90 Mb on chromosome 16 around significant linkage peak using additional 11840 SNPs. Nineteen markers in this region demonstrated FDR q-values less than 0.05. Seventeen of them were located between 81,882 and 81,967 kbp. This signal is located within the CDH13 (cadherin 13) gene (81,218,079 - 82,387,702 bp). For one of SNPs, rs1035569, having minimal p-value = 4.3x10-5 and q-value = 0.026, we estimated genotyping means. Mean height for AA, AG and GG genotypes of this marker was estimated as 175.14, 176.58 and 178.45 cm. The proportion of the total trait variance explained by genotypes of rs1035569 was estimated as 0.015. Chr 1 COL9A2 4.0 Lod Score Chr 2 NRXN1 4.0 2.0 Chr 16 CDH13

  28. Благодарю за внимание

More Related