1 / 19

Alexis Dereeper

Recherche et analyse de polymorphismes SNP. Alexis Dereeper. Formation Bio-informatique Apimet 2013. But du TP. Variations alléliques. A/G 1998 T/C 2341 T/G. Liste de SNP. Ind1 ATTGTGTCG T AACGTATGTCATGTCGT Ind2 ATTGTGTCG G AACGTATGTCATGTCGT Ind3 ATTGTGTCG K AACGTATGTCATGTCGT.

baina
Download Presentation

Alexis Dereeper

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Recherche et analyse de polymorphismes SNP Alexis Dereeper Formation Bio-informatique Apimet 2013

  2. But du TP Variations alléliques • A/G 1998 T/C 2341 T/G Liste de SNP Ind1 ATTGTGTCGTAACGTATGTCATGTCGT Ind2 ATTGTGTCGGAACGTATGTCATGTCGT Ind3 ATTGTGTCGKAACGTATGTCATGTCGT Assignation des génotypes Exploitation des données de polymorphismes Design de puces Illumina Short reads Solexa • Connaître et manipuler des packages/outils disponibles pour la recherche de SNP et INDEL à partir de données NGS (assemblage de données NGS) Mapping SAM • Réfléchir sur les difficultés rencontrées liées aux nouvelles technologies de séquençage (différencier erreur de séquençage, paralogues et variation allélique) • Détecter les SNP et pouvoir affecter les génotypes aux différentes positions polymorphes • Exploiter simplement les données de polymorphismes via une application Web (diversité génétique, DL) • Obtenir un jeu de données exploitables à envoyer pour le design d’une puce SNP haut-débit (technologie Illumina VeraCode)

  3. Tablet • Outil graphique de visualisation d’assemblage de données NGS • Accepte différents formats: ACE, SAM, BAM Alexis Dereeper Formation Bio-informatique Apimet 2013

  4. GATK (Genome Analysis ToolKit) • Librairie logicielle pour l'analyse de données NGS. • Développé pour l'analyse des projets de reséquençage médical chez l'Humain (1000 Génomes, The Cancer Genome Atlas) • Inclut des outils d'analyse de profondeur, recalibrateur de score de qualité, détection de SNP/InDel • Complémentaire des 2 autres packages: SamTools, PicardTools PREPROCESS: * Index human genome (Picard), we used HG18 from UCSC. * Convert Illumina reads to Fastq format * Convert Illumina 1.6 read quality scores to standard Sanger scores FOR EACH SAMPLE: 1. Align samples to genome (BWA), generates SAI files. 2. Convert SAI to SAM (BWA) 3. Convert SAM to BAM binary format (SAM Tools) 4. Sort BAM (SAM Tools) 5. Index BAM (SAM Tools) 6. Identify target regions for realignment (Genome Analysis Toolkit) 7. Realign BAM to get better Indel calling (Genome Analysis Toolkit) 8. Reindex the realigned BAM (SAM Tools) 9. Call Indels (Genome Analysis Toolkit) 10. Call SNPs (Genome Analysis Toolkit) 11. View aligned reads in BAM/BAI (Integrated Genome Viewer) Alexis Dereeper Formation Bio-informatique Apimet 2013

  5. Détection automatique de SNP à partir d’assemblage SAM Fastq Exemple de chaine de traitement réalisable avec Galaxy SouthGreen: FastQ Groomer PicardTools Mapping BWA GATK SAM assembly Add or Replace Groups BAM assembly including ReadGroups IndelRealigner UnifiedGenotyper DepthOfCoverage VCF file Depth file Alexis Dereeper Formation Bio-informatique Apimet 2013

  6. Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) FastQ Groomer FastQ Groomer FastQ Groomer FastQ Groomer …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA Add or Replace Groups Add or Replace Groups Add or Replace Groups Add or Replace Groups BAM with read group BAM with read group BAM with read group BAM with read group mergeSam Global BAM with read group IndelRealigner DepthOfCoverage UnifiedGenotyper Depth file VCF file

  7. Format VCF (Variant Call Format) Avantages: description des variations pour chaque position + assignation aux génotypes ##fileformat=VCFv4.0 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=1000GenomesPilot-NCBI36 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 Alexis Dereeper Formation Bio-informatique Apimet 2013

  8. Filtered VCF VariantFiltration Phased VCF ReadBackedPhasing Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) FastQ Groomer FastQ Groomer FastQ Groomer FastQ Groomer …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA Add or Replace Groups Add or Replace Groups Add or Replace Groups Add or Replace Groups BAM with read group BAM with read group BAM with read group BAM with read group mergeSam Global BAM with read group IndelRealigner DepthOfCoverage UnifiedGenotyper Depth file VCF file

  9. Autres fonctionalités GATK • Module DepthOfCoverage: Permet de renseigner de la profondeur de séquençage pour chaque gène, chaque position et chaque individu • Module ReadBackedPhasing: Permet de définir dans la mesure du possible les associations d’allèles (phase ou haplotype) quand il y a hétérozygotie… Et non AGG GGA Alexis Dereeper Formation Bio-informatique Apimet 2013

  10. SNiPlay: application Web pour l’analyse du polymorphisme http://sniplay.cirad.fr Alexis Dereeper Formation Bio-informatique Apimet 2013

  11. Fastq (RC1) Fastq (RC2) Fastq (RC3) Fastq (RC4) FastQ Groomer FastQ Groomer FastQ Groomer FastQ Groomer …. Mapping BWA Mapping BWA Mapping BWA Mapping BWA Add or Replace Groups Add or Replace Groups Add or Replace Groups Add or Replace Groups BAM with read group BAM with read group BAM with read group BAM with read group mergeSam Global BAM with read group IndelRealigner DepthOfCoverage UnifiedGenotyper Depth file VCF file

  12. Options de SNiPlay Cocher format VCF Charger fichier VCF Charger référence Charger fichier de profondeur Sélectionner génome du Riz

  13. Design de puces Illumina Fichier de soumission pour Illumina Fichier de génotypage Analyse avec le logiciel BeadStudio Coordonnées cartésiennes Alexis Dereeper Formation Bio-informatique Apimet 2013

  14. Partage d’allèles entre groupes External file (optional) Individu, group Ind1, Table Ind2, Table Ind3, Table Ind4, East Ind5, East Ind6, East Ind7, East Ind8, West Alexis Dereeper Formation Bio-informatique Apimet 2013

  15. Annotation des SNPs Alexis Dereeper Formation Bio-informatique Apimet 2013

  16. Annotation des SNPs Alexis Dereeper Formation Bio-informatique Apimet 2013

  17. Fichiers alléliques cARB 1 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4 cSYR 2 0 0 1 0 1 1 1 1 3 3 1 3 4 4 2 2 2 2 1 1 4 4 2 4 cARA 3 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4 • Format PED • Format DARwin @DARwin 5.0 - ALLELIC - 2 33 20 N° 50 50 122 122 218 218 245 245 261 261 290 290 356 1 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 1 1 3 3 1 3 4 4 2 2 2 3 1 1 1 1 3 3 3 3 4 4 2 2 2 4 1 1 1 1 3 3 3 3 4 4 2 2 2 • Format .inp pour Phase • Format pour TASSEL (génétique d’association) 33 10 P 49 121 217 244 260 289 SSSSSSSSSS #cARB A A G G T C C A T T A A G G T C C A T T #cSYR A A G A T C C A T C A A G G T C C A T T 33 10:2 50 122 218 245 261 290 356 461 467 560 cARB A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cSYR A:A A:A G:G A:G T:T C:C C:C A:A T:T C:T cARA A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cORL A:A A:A G:G G:G T:T C:C C:C A:A T:T T:T cLAR A:G A:G A:G A:G C:T C:C C:C A:A T:T C:T Alexis Dereeper Formation Bio-informatique Apimet 2013

  18. Analyse de diversité Librairie SeqLib

  19. Haplotype peu fréquent Distance séparant les 2 haplotypes (nb de mutations) Haplotypes fréquents Distribution des groupes Au sein de cet haplotype Réseaux d’haplotypes Alexis Dereeper Formation Bio-informatique Apimet 2013

More Related