210 likes | 343 Views
L’informatique du NGS. Matériel Calcul (clusters online et offline) Stockage (MD1000, Netgear, Netapp) Logiciel Architecture commune (CentOS, Scyld, PBS/Torque) Pipeline d’analyse et logiciels (ICS / Global SETS, Bioscope, Corona) Visualisation (IGV). Cluster online.
E N D
L’informatique du NGS • Matériel • Calcul (clusters online et offline) • Stockage (MD1000, Netgear, Netapp) • Logiciel • Architecture commune (CentOS, Scyld, PBS/Torque) • Pipeline d’analyse et logiciels (ICS / Global SETS, Bioscope, Corona) • Visualisation (IGV)
Cluster online CPU : Quad Core Intel E5420 Fréquence : CPU 2.5 GHz ; FSB 1333 MHz ; 10Gb/s 1 Instrument controller : • 2 CPUs => 8 cores • Mémoire : 8 Gb • Stockage : 2x250Gb RAID1 => 250 Gb 1 Head node : • 2 CPUs => 8 cores • Mémoire : 16 Gb • Stockage : 6x1Tb RAID 5 => 5 Tb (Base Postgres) 3 Compute nodes : • 2 CPUs => 8 cores • Mémoire : 16 Gb • Stockage : 2x1Tb RAID 0 => 2 Tb 1 Dell MD1000 : • 15x750Gb RAID 5 + 1 Hot spare => 9.5 Tb (/data/images, /data/results)
Cluster offline CPU : Quad Core Intel E5540 Fréquence : QPI 5.86 GT/s ; 25.6 Gb/s 1 Head node : • CPU : Quad Core Intel E5540 2.53 GHz • 2 CPUs, Hyperthreading => 8 cores, 16 threads • Mémoire : 32 Gb • Stockage : 6x1Tb RAID 5 => 5 Tb (applicatifs) 4 Compute nodes : • Nodes 1, 2 et 3 : • CPU : Quad Core Intel E5540 2.53 GHz • 2 CPUs, Hyperthreading => 8 cores, 16 threads • Stockage : 2x1Tb RAID 0 => 2 Tb • Node 0 : • CPU : Quad Core Intel E5520 2.27 GHz • 2 CPUs, Hyperthreading => 8 cores, 16 threads • Stockage : 4 x 500 Gb RAID 0 => 2 Tb • Mémoire : 32 Gb
Cluster offline - Stockage 1 Dell MD1000 : • 15x1Tb RAID 5 + 1 hot spare => 13 Tb 1 Netgear : • 12x2Tb RAID 0 + 2 hot spare => 20 Tb 1 NetApp : • 12x1Tb RAID 5 + 2 hot spare => 8 Tb Total calcul :56 cores, 88 threads Total stockage :50 Tb
Cluster offline MD1000 Node 0 Node 1 100 SCSI 101 Switch Gb 172.16.1 1 Head node 102 103 Node 2 Node 3 Cluster online MD1000 Node 0 Node 1 100 SCSI 101 Switch Gb 10.1.1 1 Head node 102 3 Node 2 IC Switch TAGC Switch CFA Organisation réseau Réseau Gb 192.168.65 37 192.168.65.40 50 45 37 Caesar Cleopatre 45 50 40 Réseau 100Mb 10.1.1 10.1.1.40 TAGC U928 10.1.1 U624 10.1.2 Luminy Internet U629 10.1.3 Routeur FW 10.1.1.50 <=> 139.124.66.43
Logiciel – Architecture commune • Linux CentOS (Community ENTerprise Operating System) • Gratuit • Compilée à partir des sources de Red Hat Enterprise • Scyld • Gestion d’un cluster de calcul Beowulf (1 maitre et des nœuds) • Le système (CentOS) est installé sur le maitre • Les nœuds chargent leur système en mémoire au démarrage • Des commandes dédiées permettent d’administrer les nœuds depuis le maitre • PBS (Portable Batch System) / Torque (Terascale Open-source Resource and QUEue Manager) • Gestion de la répartition des taches dans un cluster de calcul • Gratuit • Commandes pour la soumission des jobs et leur monitoring (qsub, qstat …)
ChIP-seq SNP SAGE Small Indels Visualisation (IGV) Traitement (stats, programmes ...) Logiciel – Pipeline d'analyse Analyse primaire .csfasta .qval Images Reads Analyse secondaire .ma .gff3 .sam .bam Alignements Analyse tertiaire
Numéro du panel (1 – 2357)Coordonnées de la bille dans l’image Logiciel – Analyse primaire • Acquisition des images : 4 images tif 2048x2048 de 4Mb par ligation (50) et par panel (2357) => 471400 images ; 1.8 Tb • Fichier spch : 1 par panel ; contient les intensités des billes pour chaque ligation => ~ 1Tb • Fichier csfasta : les reads en code couleur au format fasta • Fichier qval : les valeurs de qualité pour chaque read • Stockage dans : /data/results/solid0360/[Run name]/[Sample name]/results/primary.XXXXX/reads >187_22_222_F3 T00301003320120120222111111313002221200002113100000 >187_22_233_F3 T01111131201110112000103100100010221012012001102320 >187_22_341_F3 T12202110200303223312331123110222200203221023001002 >187_22_349_F3 T12021013021120002102232213000120121030223022001222 >187_22_387_F3 T10301001123101301030230022101021332033201033332200 >187_22_407_F3 T13120210020200221003333123202203022202121320321203 >187_22_440_F3 T01133123011312001001303223023020012001133001013213 >187_22_475_F3 T30331012232313220031202010022231301023011003103231 >187_22_222_F3 4 25 8 9 13 4 24 24 5 10 6 8 4 8 12 7 14 7 4 10 10 5 13 9 8 5 4 5 8 8 8 5 12 6 4 4 23 20 7 23 4 5 4 4 12 10 18 4 12 14 >187_22_233_F3 4 15 5 5 15 28 10 15 7 15 22 12 18 5 15 4 10 12 12 9 4 4 5 4 4 13 21 4 12 21 16 13 13 7 5 13 11 4 8 8 4 17 4 6 15 4 5 4 18 11 >187_22_341_F3 26 26 12 4 28 15 27 25 15 16 22 29 24 21 18 18 28 28 25 19 26 31 32 30 21 27 21 24 16 24 26 17 27 32 27 11 23 27 12 27 24 26 10 27 32 27 22 26 24 6 >187_22_349_F3 28 24 4 7 14 26 24 32 30 22 22 9 7 7 10 16 8 7 5 4 4 12 14 18 10 4 4 9 5 20 5 9 4 4 19 9 15 7 5 7 6 18 7 5 4 9 17 4 17 4 >187_22_387_F3 13 8 4 4 28 7 27 4 23 5 24 12 21 15 8 16 17 7 25 14 9 10 20 4 8 4 14 12 13 12 12 23 25 4 5 5 19 23 4 4 4 4 13 16 19 6 22 6 19 4
Nom du read Index de la séquence dans le fichier référence Brin Position Mismatches ##hdr seqid source type start end score strand phase attributes 1 solid read 14 63 13.0 - . aID=670_1760_1300;at=F3;b=AAAGAGATGGTGGTACGGGCTTTCACACACGCTCCCACTGAATTATTCTA;g=A0022223101101313003200211111133220011212130333223;mq=97;o=0;q=32,5,26,33,27,29,27,33,31,27,28,28,32,31,26,33,27,27,21,6,24,14,30,28,8,23,10,27,29,12,20,13,29,26,16,5,19,22,27,4,13,13,18,25,13,10,4,22,27,23;r=42_0,47_0;s=a42,a47;u=0,0,1 >187_23_1071_F3 T30032211223022230320223320020000002302211320022120 >187_23_1074_F3 T10330011321120111331211311312213101212002122012122 >187_23_1085_F3,1_6754431.1:(28.1.13):q3,1_9927873.2:(28.2.13) T10032310001000111111111111313111111111111111111111 >187_23_1104_F3 T32212023323022101020032330013300333002111123200332 >187_23_1109_F3,1_-7064502.0:(49.0.0):q100 T02212322020200130222331312122330332122321012210010 >187_23_1135_F3,1_6810994.2:(46.2.0):q86 T32201122301030230300123312020300113102003200011030 >187_23_1140_F3,1_-11524761.0:(49.0.0):q100 T22012232212212012300113221103322002211031301211102 b : séquence de la référence en bases g : séquence du read en couleur q : valeurs de qualité du read r : position_color des mismatches u : nb d’alignements avec 0, 1, 2 … mismatches Logiciel - Analyse secondaire 284_359_1469 16 mm9_dna 5 100 3H47M * 0 0 TTTTGCTATTAGAATAATTCAGTGGGAGCGTGTGTGAAAGCCCGTAC AII>IIIIIIIIIIIIIF?IIIIIIIIIIIIIIIIIIIIIIIIIIII RG:Z:sys.G1 CS:Z:T11313003200211111133220011212030330223033231000300 CQ:Z:B@BBB@;?>>A?9=>AA=?@A@;@4>?3:&A@<?1>?69:@A@3,A=%7 • TAG : 0 = brin + ; 16 = brin - • CIGAR : représentation compacte du hit • M = match ; H = bases non présentes dans la référence • Représentation de la qualité de la référence et du read en ASCII-33 • Filtrage des reads en fonction de leur qualité • Alignement des reads sur la référence • Fichier ma.X.Y (X = longueur des hits ; Y = max mismatches) • Conversion en gff3 • Conversion en SAM/BAM • Stockage dans : /data/results/solid0360/[Run name]/[Sample name]/results/libraries/defaultLibrary/secondary.F3.XXXXXXX
Logiciel – Analyse tertiaire • Fichier GFF : • chr8_16M AB_SOLiD Small Indel Tool deletion259168 259168 1 . . • del_len=1;tight_chrom_pos=259168-259177;loose_chrom_pos=259168-259177;no_nonred_reads=2;coverage_ratio=3.5000;zygosity=HEMIZYGOUS;zygosity-score=1.0000;bead_ids=1423_471_1732,262_1540_1946;no_mismatches=1,2;read_pos=25,26;from_end_pos=25,24;strands=+,+;tags=FRAG,FRAG;indel_sizes=-1,-1;non_indel_no_mismatches=NIL,NIL;unmatched-lengths=15,14;ave-unmatched=14.5000;anchor-match-lengths=NIL,NIL;ave-anchor-length=NIL;allele-pos=259166;alleles=CATTTTTTTTTTGA/CATTTTTTTTTGA;allele-counts=REF,2;read_seqs=T30211231122300313012131111300000000122101002333212,T30021123112230031301213111130000000012210100333321;base_qvs=!BBB=BBB?=BAAB>B:AB?@?B?@@@@>>A64@>@4&;9>;0@-B:-,6>,!>2>?2?>A>8(@A@7B2>@):3A:.=7?=1.2&461+50,<019'@:;1&;non_indel_seqs=NIL,NIL;non_indel_qvs=NIL,NIL • chromosome • software that generates the output file. • Indel type (insertion, deletion) • 1-based “start” and “end” of indel • Score (1) • strand • translation frame; • Indel length, read sequences used as evidence, etc. Fichier gff3: #Chr Source Type Pos_Start Pos_End Score Strand Phase Attributes chr1 SOLiD_diBayes SNP 5073 5073 0.000000 . . genotype=R;reference=G;coverage=454;refAlleleCounts=343;refAlleleStarts=76;refAlleleMeanQV=23;novelAlleleCounts=103;novelAlleleStarts=35;novelAlleleMeanQV=24;diColor1=22;diColor2=00;het=1;flag= chr1 SOLiD_diBayes SNP 5223 5223 0.000000 . . genotype=M;reference=C;coverage=203;refAlleleCounts=148;refAlleleStarts=40;refAlleleMeanQV=21;novelAlleleCounts=49;novelAlleleStarts=19;novelAlleleMeanQV=22;diColor1=13;diColor2=02;het=1;flag= genotype bases lues à cette position dans les reads reference base de la référence à cette position (WT) coverage nombre de reads total qui couvrent ce SNP refAlleleCounts nombre de reads WT refAlleleStarts nombre de starts différents des reads WT refAlleleMeanQV Quality value, the greater the better refAlleleCounts nombre de reads contenant une base différente du WT novelAlleleStarts nombre de starts différents des reads mut novelAlleleMeanQV Quality value, the greater the better diColor1 le code couleur WT diColor2 le code couleur mut het 0=homozygote, 1=hétérozygote • Chip-seq • Utilisation de logiciels externes pour la détection des pics (MACS, FindPeaks) • Id. pour la recherche de motifs (MEME) • Entrée : fichier ma issu de l'analyse secondaire • SNP • Détection de variations ponctuelles entre les reads et la référence • Algorithme bayesien (DiBayes) • SAGE • Pipeline Applied indépendant • Alignement sur la référence avec prise en compte de la longueur des SAGEs • Small indels Fichier results.tab : Tag_Seq GI_num GI_Pos Read_ID Mismatch CATGGTGGCTAGGCAAGGCAACTCACT 61657926 2976 >563_158_725_F3 0 CATGCAAGGTAAACAATAAGTGCTCTC 149269972 1799 >563_1343_968_F3 0 CATGCAAGGTAAACAATAAGTGCTCTC 149269976 1614 >563_1343_968_F3 0 CATGCAAGGTAAACAATAAGTGCTCTC 149269974 1590 >563_1343_968_F3 0 CATGGTCCATAGTCACCACACTTGGGC 164698453 3542 >560_1946_602_F3 0 Fichier output.tab : Tag Count GI Description CATGAAAAAAAAACTACAGACGGAGAT 1 GI11230783 >gi|11230783|ref|NM_021886.1| CATGAAAAAAAAATGGGTTCAGTATTC 55 GI226442928 >gi|226442928|ref|NM_009344.3| CATGAAAAAAAATCCTTATGTTTCAAT 4 GI142384683::GI149268400 >gi|142384683|ref|NM_001033442.2::>gi|149268400|ref|XM_001476289.1| CATGAAAAAAACGGCTGGTACACACCC 1 GI170172547 >gi|170172547|ref|NM_027315.4| CATGAAAAAAACTAGCAAATGTCAAGA 125 GI93102383::GI93102384 >gi|93102383|ref|NM_019565.3::>gi|93102384|ref|NM_001004066.2|
DB Postgres Logiciel – Cluster online IC (Windows) WEB ICS SETS SAT 1 Analyse primaire HADES Reads Analyse tertiaire 2 Analyse secondaire Alignements Qvalues Head node Compute nodes
Logiciel – Cluster offline • Corona lite • Suite logicielle en ligne de commande open source maintenue par ABI • Mapping des reads sur une référence, small indels, SNPs • Développé en Perl, Python et Java • Installé sur les 2 clusters • SAMtools • Outil de manipulation et visualisation des fichiers SAM en ligne de commande • SAM : format tabulé ; description d’un alignement • BAM : version binaire et compressée (gzip concaténés, accès direct) de SAM • Bioscope • Interface Java / Tomcat pour les analyses secondaire et tertiaire • Fonctionnement en ligne de commande ; scriptable par fichiers ini • Plus de base de données Postgres pour la gestion des taches • Possibilité de déporter l’analyse secondaire sur un cluster offline • Extensible par plugins
Logiciel – Visualisation - IGV • Integative Genome Viewer - Application Java open source • Visualisation d’alignement de séquences sur une référence au format BAM • Gestion centralisée des génomes et des expériences • Ajout de pistes d’annotation (fichiers BED - UCSC) • Assez rapide, même avec les gros volumes de données (compression BAM) • Scriptable (dernière version) pour la sauvegarde de snapshots
Foconyaka • Mise au point de pipelines de traitement automatique pour chaque type de manip • Implémentation comme plugins de Bioscope • Mise à disposition des résultats dans IGV • Gestion locale des références (génomes) et des expériences • Web service pour la récupération des fragments de génomes • Maintenance d’une version TAGC de IGV (TGV ?) • Stockage des résultats des manips dans une DB MySQL • Procédures stockées • Intégration dans IGV • Rationalisation de l’utilisation de l’espace de stockage (50 Tb)
SAGE • Principe • Pipeline • Résultats
SNP • Manip • Pipeline • Résultats