250 likes | 420 Views
Conception des puces RNG - ResoGen. Kévin LE BRIGAND Lebrigand@ipmc.cnrs.fr. PROGRAMME. 10h-11h : Design des oligonucleotides des puces RNG : OligoArray2.0 Sélection des oligonucleotides : sélection du set de transcrits BLAST de spécificité LASSAP : calcul du nombre d’ESTs
E N D
Conception des puces RNG - ResoGen Kévin LE BRIGAND Lebrigand@ipmc.cnrs.fr Formation RNG - 24-28 octobre 2005
PROGRAMME • 10h-11h : • Design des oligonucleotides des puces RNG : • OligoArray2.0 • Sélection des oligonucleotides : • sélection du set de transcrits • BLAST de spécificité • LASSAP : calcul du nombre d’ESTs • règles et critères de sélection des meilleures sondes • Caractéristiques du set d’oligonucleotides • Évolution du set d’oligonucleotides en fonction du temps • Comparaison Puces RNG / Puces Affymetrix, Agilent et Illumina • 15h-17h : • MEDIANTE : portail de présentation des puces RNG Formation RNG - 24-28 octobre 2005
Puces RNG – ResoGenHistorique Janvier 2003 : Initiation d’un projet visant à mettre en place une collection bi-national de longs oligonucleotides entre le RNG et le MRC Rosalind Franklin Centre for Genomics Research. Mai 2003 : Début de l’analyse bio-informatique visant à la mise en place du design de ces ressources. Mars 2004 : Commande des oligonucleotides designés et selectionnés pour être présent sur les puces RNG. Juillet 2004 : Spotting des premières lames pan-génomiques 25k humaines. Mars 2005 : Spotting des premières lames pan-génomiques 25k murines. Formation RNG - 24-28 octobre 2005
OligoArray 2.0Jean-Marie Rouillard et al., Nucleic Acids Research, 2003 • OligoArray2 est un programme qui calcule des sondes oligonucléotidiques spécifiques, sans structure secondaire, pour l’utilisation de puces ADN à large couverture. • Le design se fait sur 3 critères : • température de réaction - Tm (Nearest-Neighbor model), • spécificité à une unique cible (Blast), • pas de structure secondaire (MFold). x bases 5’ 3’ Recherche des oligonucléotidiques en partant du 3’ du transcrit, à chaque oligonucléotide possible, test de la spécificité contre une base de données Blast, test sur la structure secondaire et sur le pourcentage en GC, en fonction des paramètres de départs. http://berry.engin.umich.edu/oligoarray2_1/ Formation RNG - 24-28 octobre 2005
OligoArray 2.0Jean-Marie Rouillard et al., Nucleic Acids Research, 2003 • Paramètres utilisés pour le design des oligonucléotides des puces RNG : • taille des oligonucléotides : 50 à 52 bases, • pourcentage en GC : 40 à 60%, • distance maximum au 3’ du transcrit : 1500 bases, • température de réaction : 84 à 94°C, • masque de non-admission : "GGGGG;CCCCC;TTTTT;AAAAA", • 6 oligonucléotides par transcrits. Sélection d’un set non redondant de transcrits pour lesquels on souhaite avoir des oligos. C’est ce set qui constitue également la base BLAST contre laquelle on effectue les calculs de spécificités. Formation RNG - 24-28 octobre 2005
Design des oligonucleotidesConstitution du set de transcrits non redondant 105.000 Clusters UNIGENE dont 27.500 avec mRNA, 4.410.000 séquences nb séquences nb clusters 1 8111 2 37888 3-4 22935 5-8 11700 9-16 5509 17-32 3716 33-64 3298 65-128 3865 129-256 4360 257-512 2871 513-1024 990 1025-2048 294 2049-4096 99 4097-8192 31 8193-16384 12 16385-32768 1 Premier set de Transcrits - 20.600 séquences BLAST(1e-40) des 20.600 contre les 105.000 séquences références des clusters UNIGENE 88.000 séquences (clusters) sans match : élimination des clusters nb séquences < 5 reste 18.452 clusters élimination des clusters sans représentant mRNA + 2.979 séquences • BLAST (1e-40) contre les 25.400 séquences REFSEQ • 15.0120 séquences connues, • 1.979 séquences modifiées, • 8.380 séquences inconnues : • 2.000 insertions de NM inconnus • 1.000 remplacements par des NM • 1.600 insertions de XM Formation RNG - 24-28 octobre 2005
Design des oligonucleotidesUnigene Hs build 186 Formation RNG - 24-28 octobre 2005
Design des oligonucleotidesChiffres clés du design des oligos Pour chaque transcrit, on se retrouve donc avec plusieurs oligos différents (entre 2 et 48) au sein desquels il faut sélectionner le meilleur d’entre eux. Pour cela : mise en place d’une procédure informatique automatique de sélection des oligos les plus optimaux suivant 3 critères et des règles précises. Formation RNG - 24-28 octobre 2005
Sélection des oligonucleotides – 1.1Spécificité : xhybrid_max Spécificité de l’oligo : Mediante : 0.0 Refseq : 0.0 Ensembl = 0.0 Max = 0.0 Formation RNG - 24-28 octobre 2005
Sélection des oligonucleotides – 1.2Spécificité : xhybrid_max Spécificité de l’oligo : Mediante : 1.1 Refseq : 1.1 Ensembl = 1.1 Max = 1.1 Formation RNG - 24-28 octobre 2005
Sélection des oligonucleotides – 1.3Spécificité : xhybrid_max Spécificité de l’oligo : Mediante : 3.1 Refseq : 3.1 Ensembl = 3.1 Max = 3.1 Formation RNG - 24-28 octobre 2005
Sélection des oligonucleotides – 1.4Spécificité : xhybrid_max Spécificité de l’oligo : Mediante : 6.2 Refseq : 6.2 Ensembl = 2.1 Max = 6.2 Formation RNG - 24-28 octobre 2005
Sélection des oligonucleotides - 2Nombre d’ESTs reconnus : nb_est Avec le logiciel LASSAP(LArge Scale Sequence compArison Package) sur les serveurs d’Infobiogen. LASSAP est un logiciel de comparaison de séquences nucléiques et protéiques à grande échelle développé depuis 1994 au sein de l'action Génome de l'INRIA. Permet, grâce à un langage de requêtes, de lancer des comparaisons de banque (ou sous-banque) contre banque. Lancement de batch de comparaison de séquences entre les séquences des oligos désignés, et l’ensemble des ESTs (Expressed Sequence Tags) soumis dans la base de référence dbESTs. Paramètres de match de l’oligonucleotide : 95% d’identité sur la longueur totale. Formation RNG - 24-28 octobre 2005
Sélection des oligonucleotides - 3Position par rapport au 3’ du transcrit Le processus de création des oligonucléotides avec OligoArray2 permet de définir la distance maximale par rapport au 3’ du transcrit. Cependant les oligonucleotides sont partagés entre les splices variants et de ce fait on se retrouve avec des oligos éloignés de plus de 1500 bases du 3’ du transcrit. Le processus de sélection du meilleur oligo inclus ce paramètre car la méthode d’amplification utilisée dans le protocole expérimental est limitée dans l’élongation de la séquence complémentaire. Limitation due à la RT-PCR pour la formation du double brin cDNA. 1500 5’ 3’ AAAAAAAAAAAAA TTTTTTTT - T7 Formation RNG - 24-28 octobre 2005
Règles de sélection des oligonucleotides • on regarde l’ensemble des oligonucléotides spécifiques d’un transcrit, • on sélectionne les oligonucléotides les plus spécifiques (xhybrid_max minimum), • parmi eux on définit le nb_est_spe pour celui qui reconnaît le plus d’ESTs, • parmi les oligonucléotides spécifiques, seuls restent en course ceux qui matchent • plus de 60% de nb_est_spe, • on sélectionne le plus 3’ parmi ceux-la, • on regarde si un oligonucléotide moins spécifique mais de type 1.x, ne matcherait • pas plus de 5 x nb_est_spe, • si il y en a plusieurs, on sélectionne le plus 3’ par rapport au transcrit. Ordre d’importance des critères de sélection : - Spécificité, - Nombre de matchs ESTs, - Position le plus en 3’. Formation RNG - 24-28 octobre 2005
Évolution du set d’oligonucleotides • - Le premier calcul a été fait en septembre 2003, • - Le second après update par la version d’octobre 2003 d’Unigene, • La troisième après update par la release de Refseq de Novembre 2003 correspond • au set d’oligos commandé en mars 2004 et présent actuellement sur la puce RNG humaine, • La quatrième version après la release Refseq de juillet 2004, • La cinquième version après la release Refseq de Novembre 2004, • La version actuelle du set optimal d’oligos après la release de Refseq de août 2005. Formation RNG - 24-28 octobre 2005
Caractéristiques du set d’oligonucleotides • diminution du nombre moyen d’ESTs due à l’incorporation de séquences moins représentées, • la position par rapport au 3’ du transcrit est importante car il s’agit de notre troisième critère de sélection des sondes, • la spécificité s’améliore par le fait de l’évolution de la précision des séquençages et de l’élimination de séquences inexactes Formation RNG - 24-28 octobre 2005
Comparaison avec d’autres plates-formes • La comparaison avec les puces commerciales se base sur nos 3 critères de sélection: specificité, nombre d’ESTs et position par rapport au 3’ du transcrit. • Caractéristiques de ces puces : • RNG-MRC : 50 mers • Affymetrix : 25 mers • Agilent : 60 mers • Illumina : 70 mers • Pour comparer : random séquences dans les séquences des oligos pour avoir des résultats comparables. Formation RNG - 24-28 octobre 2005
Comparaison avec d’autres plates-formesSpécificité - 25 mers Formation RNG - 24-28 octobre 2005
Comparaison avec d’autres plates-formesESTs number Comparaison de la moyenne des matchs ESTs sur les oligos très spécifiques de leur target car les non specifiques cross-hybrid trop. Les puces RNG possèdent moins de sondes qui ne matchent aucun ESTs. Formation RNG - 24-28 octobre 2005
Comparaison avec d’autres plates-formesPosition par rapport au 3’ Formation RNG - 24-28 octobre 2005
Comparaison avec d’autres plates-formesSynthèse Formation RNG - 24-28 octobre 2005
MEDIANTEPortail de présentation des puces RNG • Interface JAVA J2EE, • Base de données PostgreSQL, • - Scripts Perl de gestion de la base, • Présentation des puces pan-genomiques, • Collection d’annotations des bases de données publiques, • Stockage des résultats des hybridations des puces, • Début d’analyse et formatage de fichiers pour des logiciels d’analyses externes, • Meta-analyse pour l’évolution des puces pan-genomiques, • Export de fichiers vers GEO ( et arrayexpress). • En parrallèle MEDLAB, gestion de la production des 3 plates-formes de production des puces RNG (Nice, Evry et Strasbourg). Formation RNG - 24-28 octobre 2005
Schéma de la base de données Médiante Formation RNG - 24-28 octobre 2005
Portail Médiante Formation RNG - 24-28 octobre 2005