260 likes | 408 Views
S équençage par hybridation. IFT 3290 – Bio-Informatique Winnie Sheun Yee Ng Hiver 2005. Des puces d’ADN. Une puce contient un ensemble de sondes d’une taille fixe c’est-à-dire tous les k -mers. Une sonde est un fragment d’ADN sur la puce.
E N D
Séquençage parhybridation IFT 3290 – Bio-Informatique Winnie Sheun Yee Ng Hiver 2005
Des puces d’ADN • Une puce contient un ensemble de sondes d’une taille fixe c’est-à-dire tous les k-mers. • Une sonde est un fragment d’ADN sur la puce. http://keck.med.yale.edu/affymetrix/technology.htm
Détection par hybridation • Construire une puce de toutes les sondes possibles de taille k. • Incuber des fragments marqués de la séquence cible avec la puce d’ADN. • Les fragments de la séquence cible s’hybrident avec les sondes dont les bases leur sont complémentaires.
Détection par hybridation • Par spectroscopie, les sondes hybridées aux fragments cibles sont détectées. http://keck.med.yale.edu/affymetrix/technology.htm
Détection par hybridation • La composition en k-mers de la séquence d’ADN recherchée est identifiée. • Reconstruction de la séquence cible par des algorithmes combinatoires sur la composition en k-mers.
Séquençage par hybridation • Problème : Reconstruire une « string » à partir de sa composition en k-mers. • Entrée : Un ensemble, Spectrum, de tous les k-mers d’une « string » s inconnue. Sk(u) = {s[i, · · · , i+k − 1]: i = 1, · · · , |s| − k +1}. • Sortie : Une « string » s reconstruite à partir du Spectrum(s, k).
Approche 1 : SBH, un problème de chemin hamiltonien • Recherche d’un chemin hamiltonien dans un graphe de chevauchements où chaque k-mer de s (la séquence cible) est un sommet et où chaque chevauchement de taille (k-1) est un arc. • Définition : Un chemin hamiltonien est un chemin dans G qui passe une et une seule fois par chaque sommet.
Reconstruction de séquence par l’approche du chemin hamiltonien Spectrum(s, k) ={ATG AGG TGC TCC GTC GGT GCA CAG} H N. C. Jones & P. A. Pevzner où les sommets = k-mers du Spectrum ; et les arcs = chevauchements entre les k-mers. Le chemin hamiltonien (chemin qui traverse tous les nœuds exactement une fois) correspond à la reconstruction de la séquence ATGCAGGTCC.
Reconstruction multiple de séquences par l’approche du chemin hamiltonien Spectrum(s, k) ={ATG TGG TGC GTG GGC GCA GCG CGT} H N. C. Jones & P. A. Pevzner Un tel Spectrum(s, k) résulte en deux chemins hamiltoniens distincts.
Reconstruction multiple de séquences par l’approche du chemin hamiltonien Spectrum(s, k) ={ATG TGG TGC GTG GGC GCA GCG CGT} H N. C. Jones & P. A. Pevzner ATGCGTGGCA
Reconstruction multiple de séquences par l’approche du chemin hamiltonien Spectrum(s, k) ={ATG TGG TGC GTG GGC GCA GCG CGT} H N. C. Jones & P. A. Pevzner ATGGCGTGCA
Complexité du problème du chemin hamiltonien • Le problème du chemin hamiltonien est NP-complet c’est-à-dire que le temps de calcul nécessaire à sa résolution croît trop vite par rapport à la taille des données à traiter.
Approche 2 : SBH, un problème de chemin eulérien • Recherche d’un chemin eulérien dans un graphe de chevauchements où tous les sommets sont toutes les sous-chaînes de longueur k-1 et où chaque k-mer de s est un arc entre son préfixe et son suffixe de taille (k-1).
SBH, un problème de chemin eulérien • Définition : Un chemin eulérien est un chemin dans G qui visite chaque arc exactement une fois.
GT CG CA AT GC TG GG Reconstruction de séquence par l’approche du chemin eulérien Spectrum(s, l) ={ATG TGG TGC GTG GGC GCA GCG CGT} N. C. Jones & P. A. Pevzner où les sommets = (k-1)-mers ; et les arcs = k-mers du Spectrum.
GT CG GT CG CA CA AT AT GC GC TG TG GG GG Reconstruction de séquence par l’approche du chemin eulérien N. C. Jones & P. A. Pevzner Les chemins eulériens du graphe (chemin qui traverse tous les arcs exactement une fois) correspondent aux séquences.
Nombre de chemins eulériens Soit une matriceA = (aij), où aij = 1 s’il existe une arête allant du sommet I au sommet j dans le graphe eulérien G et aij = 0 sinon. Soit M la matrice –A et dont les éléments de la diagonale sont remplacés par degrein(i) pour tout i. où c(G) = cofacteur de M. G Chaque c(G) de M = 2. Le nombre de cycles eulériens dans G est 2 • 0! • 1! • 1! • 0! = 2
Complexité du problème du chemin eulérien • La recherche du parcours eulérien se fait en temps linéaire avec un parcours en profondeur.
À noter • L'assemblage par parcours eulérien est ambigu : il a beaucoup de chemins eulériens. • Des méthodes biochimiques permettent de discriminer les hybridations non-spécifiques dans les expériences SBH.
Améliorer la puissance de résolution du SBH • Le séquençage positionnel par hybridation est proposé. • Le PSBH permet de mesurer approximativement la position de chaque k-mer du fragment d’ADN cible. • PSBH se réduit à trouver un parcours eulérien avec la restriction additionnelle que la position de tout arc est dans l’intervalle de positions associé à cet arc.
Fin… • Questions? • Commentaires.
Annexe :Tailles… • La longueur maximale d’un fragment d’ADN qui peut être reconstruite avec une tableau C(k) est estimée à √(2•4k). • La longueur minimale de la sonde pour reconstruire une séquence de taille n à partir de son spectrum est estimée à .
Annexe :Manufacturer des puces d’ADN • Une puce d’ADN est manufacturée par VLSIPS « very large scale immobilized polymer synthesis ». • Les sondes sont développées un nucléotide à la fois à travers le processus photolithographique (série d’étapes chimiques). • Chaque nucléotide a un « groupe protecteur photolabile » qui empêche la croissance de la sonde.
Annexe : Manufacturer des puces d’ADN • Ce groupement protecteur est désactivé par la lumière. • À chaque étape chimique, une région prédéfinie du « array » est illuminée en activant ainsi la croissance nucléotidique. • Tout le « array » est exposé à un nucléotide particulier mais les réactions d’ajout du nucléotide se produiront seulement sur les sondes de la région activée.
Annexe : Manufacturer des puces d’ADN • En concaténant les nucléotides sur les sondes approppriées des régions approppriées, il est possible de développer un ensemble de sondes de taille k en moins 4•k étapes. • Cependant, à cause de la diffraction, de la réflexion interne et de la dispersion, les points proches des limites des régions illuminées sont exposés à une illumination imprévue. • Ainsi, des sondes de composition et de taille inconnues sont construites.
Annexe : Complexité du problème du chemin eulérien • Si la multiplicité des arcs n’est pas connue, il s’agit alors du problème du facteur chinois où on recalcule, en temps polynomial, les multiplicités minimales qui permettent de parcourir le graphe.