310 likes | 418 Views
Engalçament de seqüències. S’aplica en dos línies:. Seqüenciació del DNA: trobar la seqüència de bases de la cadena de DNA. Engalçament d’EST: trobar el gen que s’expressa en aquella celula a partir d’un segment del RNA corresponent. Seqüenciació del DNA.
E N D
Engalçament de seqüències S’aplica en dos línies: • Seqüenciació del DNA: • trobar la seqüència de bases de la cadena de DNA. • Engalçament d’EST: • trobar el gen que s’expressa en aquella celula • a partir d’un segment del RNA corresponent.
Seqüenciació del DNA De quines tècniques es disposa: • Hibridació: permet saber quins mots d’una • longitud fixa es troben a la seqüencia. • Hibridació: permet saber quins mots d’una • longitud fixa es troben a la seqüencia. • Trets: permet disparar sobre la seqüència i • trencar-la en trossos.
Hibridació Imaginem que volem conèixer la seqüència xxxxxxxxxxxxx i sabem que conté els següents mots de tres lletres: AAC GAT TGC ACG CGG GCC TTG GGA ATT Com podem deduir la seqüència?
Hibridació Crear un graf de coincidències sufix-prefix de dues bases AAC GAT TGC ACG CGG GCC TTG GGA ATT Seguir el camí determinat en el graf AACGGATTGCC Quin és el cost de trobar el camí?
Hibridació AAC CAA GAT TGC ACG CGG GCC TTG GGC GGA CCG ATT Considerem un cas més real: Buscar el camí Hamiltonià (NP-Complet) Quin és el cost de tot el procés?
Hibridació: mètode 2. Trobar els enllaços AAC ACA,... : Cost: 1. Trobar els mots AAC, CAA, ACG,... : Generar en el laboratori els 4L trossos i buscar-los Si hi ha m mots de longitud L, doncs O(m2 L2 ) comparacions 3. Crear el graf i buscar el camí Hamiltonià NP- Complet
Excursió: cost m t = 1 mseg 10m 10t = 10 mseg 1000m 1000t = 1 seg m t = 1mseg. 10m 100t = 100 mseg. 1000m 1000000t = 16 min m t = 1 mseg. 10m 210 t = 1 seg 1000m 21000 t = 1030 t = 1018 anys Cost lineal: O(m) Cost quadràtic: O(m2 ) Cost exponencial: O(2m )
Hibridació: mètode 2. Trobar els enllaços AAC ACA,... : Cost: 1. Trobar els mots AAC,CAA,ACG,... : Generar en el laboratori els 4L trossos i buscar-los Si hi ha m mots de longitud L, doncs O(m2 L2) comparacions 3. Crear el graf i buscar el camí hamiltonià NP- Complet Com podem evitar la NP-completesa?
Hibridació: dues reduccions AAC GAT TGC ACG CGG GCC TTG GGC GGA CCG ATT GA TG GC TT CC AT Buscar el camí Hamiltonià (NP-complet) o bé buscar el camí Eulerià (lineal) AA AC CG GG
Hibridació: camí Eulerià Buscar el camí Eulerià d’un graf: Definir nodes desequilibrats: grau entrada=grau sortida (Nodes de començament o acabament: ) Definir nodes equilibrats: grau entrada=grau sortida (nodes de pas: )
Hibridació: camí Eulerià Algorisme: Crear un camí a l’atzar des d’un node inicial Afegir circuïts des de nodes equilibrats
Hibridació: camí Eulerià Algorisme: Crear un camí a l’atzar des d’un node inicial Afegir circuïts des de nodes equilibrats
Hibridació: mètode 2. Trobar els enllaços AAC ACA,... : Cost: 1. Trobar els mots AAC,CAA,ACG,... : Generar en el laboratori els 4L trossos i buscar-los Si hi ha m mots de longitud L, doncs O(m2 L2) comparacions 3. Crear el graf i buscar el camí hamiltonià NP- Complet Quin és el factor limitant?
Hibridació: problemes AAC CAA GAT TGC ACG CGG GCC TTG GGA ATT GAC Trossos repetits CAACGGATTGCC CAACGGACGGATTGCC Quina és la probabilitat de que un tros es repeteixi?
Hibridació Estimem la probabilitat de que un tros es repeteixi: Model: seqüència aleatòria de longitud N amb distribució equiprobable (1/4), Donats 2 trossos, probabilitat de que siguin iguals: 4-L Donats 3 trossos, probabilitat de que n’hi hagi dos d’iguals: (32)4-L Donats m trossos, probabilitat de que n’hi hagi dos d’iguals: (m2)4-L Si L=8 i volem una probabilitat del 1%, llavors m =32 Conclusió: la tècnica d’hibridació només serveix per conèixer seqüències molt curtes.
Excursió: hipòtesi d’equiprobabilitat Cromosoma 21 té unes 34Mb distribuïdes: A: 30% C: 20% G:20% T:20% i si tenim en compte parells de bases, per exemple AA: 10% AC: 5% Fins a quin punt són equiprobables les seqüències?
Seqüenciació del DNA De quines tècniques es disposa: • Hibridació: permet saber quins mots d’una • longitud fixa es troben a la seqüencia. • Trets: permet disparar sobre la seqüència i • trencar-la en trossos.
Trets Imaginem que volem conèixer la seqüència xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx • i la nostra tècnica ens permet : • copiar-la • partir-la a l’atzar en trossos de diferent llargada i sense saber-ne l’ordre Què podem fer?
Trets: algorisme Imaginem xxxxx|xxxxxxx|xxxxxxx|xxxx xxxxxxxx|xxxxxx|xxxxxx|xxx xxxx|xxxxxx|xxxxxx|xxxxxxx L’algorisme serà: 1er. Comparar tots els trossos dos a dos per esbrinar com es superposen (eliminant inclusions). 2on. Construir el graf sufix-prefix 3er. Buscar el camí
Trets La copiem tres cops xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx n’obtenim els trossos accgt, aggt, acgatac, accttta, tttaac, gataca, accgtacc, ggt, acaggt,taacgat, accg, tacctt
Trets Cal comparar els trossos per veure quins engalcen sufix-prefix • Directament amb programació dinàmica (Cost quadràtic) • (tots contre tots i la majoria no engalceran) • En dos passos: • Detectar els que engalcen • (Cost lineal amb l’Algorisme hash) • Aplicar Prog. Dinàmica només als que engalcen
Trets tacctt accttta tttaac taacga accgtacc acgatac accgt accg gataca i aconseguim la seqüència (cost exponencial) tacaggt accgtacctttaacgatacaggt construïm el graf (cost quadràtic)
Trets: problemes xxxxx xxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxxx accgt xxxxxxx accg xxxxxxx Problemes • Repeticions consecutives • Repeticions curtes llunyanes • Falta de recobriment (problemes al seqüenciar) • Errors en els trossos (problemes al seqüenciar)
Trets: propietats del recobriment Qüestions importants: • Quin és el percentatge de recobriment de la seqüència? • Quin es el nombre esperat de “contigs”? • Quina és la llargada mitja dels “contigs”? Estudiem el recobriment:
Trets: percentatge de recobriment L N d La probabilitat de Prob{X=k}= (d/L)k (1-d/L)n-k que una base de la seqüència sigui recoberta per k segments ve donada per la Dist. Binomial (N,d / L): N k Quin és el percentatge de recobriment de la seqüència? Grau de cobertura de la seqüència N d / L Suposem que els segments estan uniformament distribuïts.
Excursió: distribució binomial Tenim dues urnes: 1-p p amb probabilitats p i 1-p de que hi caigui una bola. Quina és la probabilitat de que d’entre n boles en caiguin k a la primera urna? Prob{X=k}= pk (1-p)n-k n k Distribució binomial B(n,p):
Excursió: distribució de Poisson Quin és el límit de la distribució binomial quan n i p 0 conservant-se constant el producte np= Distribució de Poisson P() Prob{X=k}= e- (demostració a classe) k k! Llavors la probabilitat de que almenys caigui una bola és Prob{X>0}= 1-Prob{X=0}= 1- e-
Trets: percentatge de recobriment Distribució Binomial (N ,d / L) Distribució de Poisson (N d / L) N d/L 0 Llavors el percentatge de recobriment ve donat per la probabilitat de que al menys un tros cobreixi cada punt 1- e(N d / L) Si volem un recobriment del 99% cal que N d / L = 4.6 Si volem un recobriment del 99.9% cal que N d / L = 6.9
Engalçament d’EST Tenim milers de trosso de unes 500 bases de longitud, que pertanyen a diferents L’algorisme serà: 1er. Comparar tots els trossos dos a dos per esbrinar quins estan relacionats(eliminant inclusions). 2on. Construir el graf sufix-prefix: (surten molts petits grafs) 3er. Buscar el camí