130 likes | 279 Views
Shotgun sequencing. Ejemplo de aplicación de modelos y técnicas probabilísticas. Introducción. Las técnicas de secuenciación de DNA no permiten secuenciar con facilidad grandes fragmentos de un vez Alternativa: Shotgun sequencing
E N D
Shotgun sequencing Ejemplo de aplicación de modelos y técnicas probabilísticas
Introducción • Las técnicas de secuenciación de DNA no permiten secuenciar con facilidad grandes fragmentos de un vez • Alternativa: Shotgun sequencing • Fragmentar (múltiples copias) de la secuencia en trozos pequeños • Secuenciarlos por separado • Recomponerlo
Problemas y soluciones • Problema • No se sabe en que punto empieza o acaba cada fragmento • Solución • Hierarchical Shotgun sequencing method • Secuenciar varias copias de cada fragmento es fácil reconocer la superposición • Reconstruir el genoma a partir de las subsecuencias superpuestas
Esquema del proceso Fragmentos secuenciados Secuencia problema “Contigs” de secuencia reconstruída
Problemas asociados • Proporción de la secuencia finalmente recubierta por “contigs” • Número medio de “contigs” • Tamaño medio de cada “contig”
Un modelo simplificado • Secuencia S de longitud total G • N fragmentos al azar de (=) tamaño L • Posición de inicio de un fragmento cualquiera ~U[0,G] • Hay 2 simplificaciones • Modelo contínuo (U(0,G)) de un fenómeno discreto (secuencia de caracteres) • Se ignoran efectos de fin de secuencia
Número de recubrimiento • Es el número de veces que todos los fragmentos juntos pueden recubrir la secuencia (“coverage number”) • Se trata de un parámetro importante
Análisis del modelo • Sea Xel punto de inicio de un fragmento en (0,G) • Otros fragmentos se superponen o no • Sea YiX el indicador de que el fragmento i contiene x. Entonces: • Y1X,…,YNX ~ b(p), p=P[Y1x=1]=L/G • KX=i=1N YiX ~ B(N, p=L/G)
Aproximaciones • E[KX]=a=NL/G • a representa el # de fragmentos que se espera que recubra X • Dado que N és grande y L pequeña se puede aproximar la binomial KX por una Poisson P(=NL/G=a)
1. Porcentaje de recubrimiento • Si el recubrimiento se define • R=(i=1NC Ci)/G=C/G • Nos interesa E(R)(=RE) • RE=P[KX>0]=1-P[KX=0]=1-e-a • Aplicación • Para RE=0.99 a=4.6, RE=0.999a=6.9 • Genoma humano: 3*109 bases. RE=0.999 3*106 sin cubrir
2. Número esperado de contigs • Sea D el suceso “un fragmento está en el extremo derecho de un contig” • Y=Nº de fragmentos que “son D” • E[C]=E[Y]=N·P(D) • P[KX=0]=e-a • El nº esperado de contigs es • E[C]=N·e-a
Si G=100.000, y L=500 se obtiene la tabla de arriba Pocos fragmentos Pocos contigs Muchos fragmentos Pocos contigs grandes Ejemplo