1 / 29

Pré-processamento de Sequências de Transcritos

Pré-processamento de Sequências de Transcritos. Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo. Planejamento. Preparação da árvore de diretórios

lexi
Download Presentation

Pré-processamento de Sequências de Transcritos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pré-processamento de Sequências de Transcritos Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo

  2. Planejamento • Preparação da árvore de diretórios • Obtenção dos dados • dataset1 (Roche 454 GS FLX) • dataset2 (IlluminaGenomeAnalyzer) • Pré-processamento • Mapeamento • Montagem “de novo”

  3. Introdução ferramentas para o pré-processamento de sequências de transcritos

  4. Preparação (aula1) • Organização da estrutura de diretórios para a aula 1

  5. Preparação (aula2) • Organização da estrutura de diretórios para a aula 2

  6. Comandos úteis #Criar diretório (mkdir) mkdir –p /work/CBAB/nomedoaluno/ #Informar diretório atual (pwd) pwd #Trocar de diretório (cd) cd /work/CBAB/nomedoaluno/ #Listar todo o conteúdo do diretório (ls) ls /work/CBAB/nomenoaluno/* #Determinar o tipo do arquivo (file)  file undeterminedfiletype.unk  #Criar um atalho (ln) ln -s /source/file.txt /destiny/linktofile.txt #Descompactar arquivos no formato .gz gunzip file.gz #Descompactar arquivos no formato .tar.gz ou .tgz tar -zxvf file.tar.gz #Descompactar arquivos no formato .tar tar -xvf file.tar #Descompactar arquivos no formato .tar.bz2 ou .tar.bz tar -jxvf file.tar.bz2 #Descompactar arquivos no formato .bz2 ou .bz bunzip2 file.bz2 #Descompactar arquivos no formato .zip unzip file.zip #Atribuir permissão de execução (chmod) chmoda+x script.sh # p/ todososusuários #Imprimir as n linhas de um arquivo (head) head -10 file1.txt # primeiras 10 linhas #Imprimir todas linhas de arquivo(s) (cat) cat file1.txt file2.txt

  7. Repositórios públicos • SRA (NCBI Sequence Read Archive): http://www.ncbi.nlm.nih.gov/sra • ENA (EBI European Nucleotide Archive): http://www.ebi.ac.uk/ena/ • DRA (DDBJ Sequence Read Archive): http://trace.ddbj.nig.ac.jp/dra/index_e.shtml [http://trace.ddbj.nig.ac.jp/dra/documentation_e.shtml]

  8. dataset1 • Pool de 2 amostras de culturas de melanócitos de epiderme humana normal (454 GS FLX) • SRA • http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=download_reads • GEO • http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM566260 • SRR063336.sra • NCBI SRA Toolkit (sff-dump) • http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software sff-dump -A SRR063336.sra • SRR063336.sff • Aspera Download (command-line) • ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.putty -Q -l100m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads//ByRun/sra/SRR/SRR063/SRR063336/SRR063336.sra .

  9. dataset2 • Amostra de uma linhagem celular de linfoblastos humanos obtidas de paciente com câncer de maama (Illumina GA) • http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=download_reads • ERR022690.sra • NCBI SRA Toolkit (fastq-dump) • http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software fastq-dump -A ERR022690.sra • ERR022690.sra_1.fastq • ERR022690.sra_2.fastq • Aspera Download (command-line) • ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.putty -Q -l100m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads//ByRun/sra/SRR/SRR022/SRR022690/SRR022690.sra .

  10. Manipulação arquivos fastq • FASTX-Toolkit • http://hannonlab.cshl.edu/fastx_toolkit/ • Ferramentas executadas via linha de comando para manipulação das sequências no formato FASTQ. Por exemplo, produzem estatísticas de qualidade das leituras, realizam uma poda de qualidade ou de adaptadores, etc. • Apropriado para dados de Illumina; • Pode ser utilizado para dados de Roche 454 convertidos para o formato FASTQ; • Galaxy (Giardineet al., 2005) • http://g2.bx.psu.edu/

  11. Checagem de qualidade fastx_quality_stats -Q 33 -iERR022690.sra_1.fastq -o ERR022690.sra_1.fastq_qual_stat fastx_quality_stats -Q 33 -iERR022690.sra_2.fastq -o ERR022690.sra_2.fastq_qual_stat The output TEXT file will have the following fields (one row per column): column= column number (1 to 36 for a 36-cycles read solexa file) count = number of bases found in this column. min= Lowest quality score value found in this column. max = Highest quality score value found in this column. sum = Sum of quality score values for this column. mean = Mean quality score value for this column. Q1 = 1st quartile quality score. med = Median quality score. Q3 = 3rd quartile quality score. IQR = Inter-Quartile range (Q3-Q1). lW = 'Left-Whisker' value (for boxplotting). rW= 'Right-Whisker' value (for boxplotting). A_Count= Count of 'A' nucleotides found in this column. C_Count= Count of 'C' nucleotides found in this column. G_Count= Count of 'G' nucleotides found in this column. T_Count= Count of 'T' nucleotides found in this column. N_Count= Count of 'N' nucleotides found in this column. max-count= max. number of bases (in all cycles) fastq_quality_boxplot_graph.sh -i ERR022690.sra_1.fastq_qual_stat -o ERR022690.sra_1.fastq_qual_stat.png fastq_quality_boxplot_graph.sh -i ERR022690.sra_2.fastq_qual_stat -o ERR022690.sra_2.fastq_qual_stat.png

  12. FastQC Ferramenta para análise e controle de qualidade • http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/ fastqc seqfile1 seqfile2 .. seqfileN fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

  13. Estatísticas • assemblystats • http://community.g2.bx.psu.edu/tool/ • Métricas em arquivos fasta • Min read length • Max read length • Mean read length • Standard deviation of read length • Median read length • N50 read length • PRINSEQ • http://prinseq.sourceforge.net • Métricas em arquivos fasta, qual e fastq • Filtros • qualidade • poly(A) • Conteúdo de GC • duplicações • FASTQC • http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/ • Necessita conversão para fastq • sff2fastq • https://github.com/indraniel/sff2fastq

  14. Colapsar sequências Objetivo: Evitar duplicação de leituras ocorridas na etapa de PCR. Adequado para detecção de mutações, mas não em expressão gênica diferencial, o melhor é utilizar um modelo que considere a ocorrência dessas duplicações. • FASTX-Toolkit fastx_collapser -Q 33 -i ERR022690.sra.merged.fastq -o ERR022690.sra.merged.collapsed.fasta • PRINSEQ (requer MUITA memória!) • http://prinseq.sourceforge.net/ • in-houseperl scripts (requer preferencialmente “nsort” - http://www.ordinal.com caso contrário demora muito tempo!). Entrada é FASTQ. • http://lgmb.fmrp.usp.br/redmine-1.0/projects/bitutils/repository • dedup.sh Obs.: Nas três abordagens acima, no caso de leituras paired-end é necessário concatenar os pares, colapsar as sequências e depois separá-las novamente. • Goby (http://campagnelab.org/software/goby/) • goby 3g fasta-to-compact --paired-end --quality-encoding Sanger -d -x PE_1.txt -o PE.compact-reads • goby 3g tally-reads -i PE.compact-reads -o myfilter • goby 3g compact-to-fasta -t fastq -f myfilter-keep.filter -i PE.compact-reads -o PE_p1.txt -p PE_pair.txt

  15. Podas de qualidade (1) / Cauda poli-A/T • prinseq-lite.pl • A filtragem de cauda poli-A/T pode reduzir o número de falsos positivos nos alinhamentos. • A eliminação de regiões de baixa qualidade pode reduzir o número de falsos negativos. • Principais argumentos: • -derep : opção 1 (idêntico) • -min_len : tamanho mínimo • -out_format : opção 2 (FASTA e QUAL) • -trim_tail_right : tamanho mínimo • -trim_tail_left : tamanho mínimo • -trim_qual_step : passo para o deslize da janela • -trim_qual_window : tamanho da janela • -out_good : arquivo de saída

  16. Podas de qualidade (2) • fastq_quality_trimmer -Q 33 -t 31 -i ERR022690.sra_2.fastq -o ERR022690.sra_2_trim31.fastq • -Q: qualityscore (33 Phred/64 Illumina) • -t : qualitythreshold • -l : minimumlength • -i : input • -o: output • Trim.pl (byNikJoshi) • http://wiki.bioinformatics.ucdavis.edu/index.php/Trim.pl • Ideal para leituras paired-ends • perlTrim.pl--type 2 --qual-threshold30 --length-threshold31 --qual-type0 --pair1 dataset2/input/ERR022690.sra_1.fastq--pair2 dataset2/input/ERR022690.sra_2.fastq--outpair1 dataset2/input/ERR022690.sra_1_trim20.fastq--outpair2 dataset2/input/ERR022690.sra_2_trim20.fastq--singledataset2/input/ERR022690.sra_trim.fastq

  17. Manipulação de arquivos SFF • Arquivos .sff (standard flowgram format) • Converter sffparafasta/qual sffinfo-seq INPUTREADS.sff > READS.fasta sffinfo-qual INPUTREADS.sff > READS.qual • Pirograma sffinfo-flow INPUTREADS.sff > READS.flow • Somente ids sffinfo-a INPUTREADS.sff > ACCS.txt • Gerar outro sff (lista) sfffile-i ACCS.txt -o OUTREADS_ACCS.sff INPUTREADS.sff • Gerar outro sff (aleatório 10k reads) sfffile–pickr 10k –o OUTREADS_10k.sff INPUTREADS.sff

  18. Homopolímeros T C A G A ?c GG - AAAAA ?a keysequence (TCAG) – Calibragem do sinal • Detecção entre sinais 1 e 2 = 100%. • Detecção entre sinais 5 e 6 = 20%.

  19. Protocolos especiais 454 • Paired-Ends • Orientação fwd-fwd • Multiplex • Adaptadores MID • Scripts úteis • http://www.genome.ou.edu/informatics.html Biblioteca Padrão x Biblioteca MID

  20. Montagem Transcriptomacom leituras 454 • Desafios extras • Cauda poly(A) • Genes ribossomais • Bancos de dados pré-montados (est2assembly) • http://www.ncbi.nlm.nih.gov/ • Genoma mitocondrial • Bancos de dados pré-montados (est2assembly) • http://www.ncbi.nlm.nih.gov/ • Elementos repetitivos (e.g. elementos transponíveis) • http://www.girinst.org/repbase/ • Adaptadores/Primers • http://vbc.med.monash.edu/cgi-bin/wiki.pl/454_HowTo

  21. seqclean http://sourceforge.net/projects/seqclean/ seqclean <seqfile> [-v <vecdbs>] [-s <screendbs>] [-r <reportfile>] [-o <outfasta>] [-n slicesize] [-c {<num_CPUs>|<PVM_nodefile>}] [-l <minlen>] [-N] [-A] [-L] [-x <min_pid>] [-y <min_vechitlen>] [-m <e-mail>] Parameters <seqfile>: sequence file to beanalyzed (multi-FASTA) -c use thespecifiednumberofCPUson local machine(default 1) -n numberofsequencestakenatonce in each search slice (default 2000) -v commadelimitedlistofsequence files to use for end-trimmingof <seqfile> sequences (usuallyvectorsequences) -l duringcleaning, considerinvalidthesequencessorterthan <minlen> (default 100) -s commadelimitedlistofsequence files to use for screening <seqfile> sequences for contamination (mito/riboordifferentspeciescontamination) -r writethecleaningreportinto file <reportfile> (default: <seqfile>.cln) -o output the "cleaned" sequences to file <outfasta> (default: <seqfile>.clean) -x minimumpercentidentity for analignemntwith a contaminant (default 96) -y minimumlengthof a terminal vector hit to beconsidered(>11, default 11) -N disabletrimmingofendsrich in Ns (undetermined bases) -M disabletrashingoflowqualitysequences -A disabletrimmingofpolyA/T tails -L disablelow-complexityscreening (dust) -I do notrebuildthecdbindex file -m send e-mail notifications to <e-mail> Reproduzir a poda no arquivo .qual cln2qual <cln_report> <qual_file>

  22. RepeatMasker • Mascarar elementos repetitivos espalhados no genoma • e.g., transposons, retrotransposons, ISs • http://www.repeatmasker.org/ RepeatMasker -qq -no_is -nolow <FASTA FILE> -lib <REPEATLIBFILE> -species <SPECIES> -qq : maisrápidoporémmenossensível -no_is : não mascarar inserção de sequências de bactérias (IS) -nolow : não mascarar sequências de baixa complexidade -pa : número de processadores -lib : arquivo com as sequências dos elementos repetitivos no formato FASTA Filtra reads com mais de 70% de mascaramento. prinseq-lite.pl -fasta input.fasta.masked -qual input.fasta.qual \ -ns_max_p 70 -out_good input.fasta.masked.cleaned ;

  23. Clipping adapters/primers/barcodes (FASTQ - Illumina) • Lista Sequênciascontaminates (Illumina) • http://bioinfo-core.org/index.php/Sequence_Contaminant_List cat ERR022690.sra_2.fastq |\ fastx_clipper -Q 33 -l 31 -v -a ACACTCTTTCCCTACACGACGCTCTTCCGATCT |\ fastx_clipper -Q 33 -l 31 -v -a CGGTCTCGGCATTCCTACTGAACCGCTCTTCCGATCT |\ fastx_clipper -Q 33 -l 31 -v -a ATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATC |\ fastx_clipper -Q 33 -l 31 -v -a CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATC |\ fastx_artifacts_filter -Q 33 -v |\ fastq_quality_filter -Q 33 -q 20 -p 50 -v -o ERR022690.sra_2_cleaned.fastq; fastx_artifacts_filter – remoção de sequências baixa complexidade; fastx_quality_filter – remoção das sequências que não possuem –p % de bases com qualidade maior ou igual a –q ;

  24. Reparar a ordem das leituras pair-ends.pl [-h/--help] [ -g1 PEExp_1.fastq-g2 PEExp_2.fastq -i1 PEExp_1_cleaned.fastq-i2 PEExp_2_cleaned.fastq -o1 PEExp_1_cleaned_paired.fastq-o2 PEExp_2_cleaned_paired.fastq –os EExp_cleaned_single.fastq -h --help Help -g1 --guidefile1 Guide file 1 (Original fastq p1 file - pre-filtering) -g2 --guidefile2 Guide file 2 (Original fastq p2 file - pre-filtering) -i1 --inputfile1 Input file 1 (Filteredfastq p1 file - post-filtering) -i2 --inputfile2 Input file 2 (Filteredfastq p2 file - post-filtering) -o1 --outputfile1 Output file 1 -o2 --outputfile2 Output file 2 -os --outputfiles Output file s http://lgmb.fmrp.usp.br/redmine-1.0/projects/bitutils/repository

  25. Preparação da Entrada para o Newbler • Converter o arquivo pré-processado no formato FASTQ para FASTA e QUAL prinseq-lite.pl -fastqinput.fastq -out_format 2 \ > -out_good /tmp/input Arquivosgerados: input.fasta input.qual

  26. Preparação da Entrada (paired-ends) para o Velvet • Une os arquivos em pares P1 (forward) e P2 (reverse) shuffleSequences_fasta.pl P1.fasta P2.fasta input.fasta shuffleSequences_fastq.pl P1.fastq P2.fastq input.fastq @2009-05-05:4:1:2:762#0/1 CCGATTTTCCGGAAAAAGGCTAAAACTACAAAGNNN +2009-05-05:4:1:2:762#0/1 ababa`a`aaaaababaaaa_aaba`W`aabaYDDD @2009-05-05:4:1:2:762#0/2 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN +2009-05-05:4:1:2:762#0/2 DDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDD @2009-05-05:4:1:2:1736#0/1 ATGCGCATGGCCACCCCGCTGCTGATGCAGGCGNNN +2009-05-05:4:1:2:1736#0/1 `]`a^aaT`\a`a`a`a^`\][KO\RX`[MM\PDDD @2009-05-05:4:1:2:1736#0/2 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN +2009-05-05:4:1:2:1736#0/2 DDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDD P1 P2

  27. Referências • Schmieder R, Edwards R. Qualitycontrolandpreprocessingofmetagenomicdatasets. Bioinformatics. 2011 Mar 15;27(6):863-4. Epub 2011 Jan 28. PubMed PMID:21278185; PubMed Central PMCID: PMC3051327; • Tarailo-Graovac M, Chen N. UsingRepeatMasker to identifyrepetitiveelements in genomicsequences. CurrProtocBioinformatics. 2009 Mar;Chapter 4:Unit 4.10. PubMed PMID: 19274634; • http://sourceforge.net/projects/seqclean/ • http://seqanswers.com/ • http://trace.ddbj.nig.ac.jp/dra/documentation_e.shtml • http://prinseq.sourceforge.net/manual.html • http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/ • http://hannonlab.cshl.edu/fastx_toolkit/index.html

  28. Daniel Guariz Pinheiro dgpinheiro@gmail.com

  29. Tutorial • http://lgmb.fmrp.usp.br/~daniel/downloads/TutorialCBAB.docx • os arquivos ecoli_... rDNA... mito... (têm que ser descomprimidos de est2assembly_dataC.tar) • Arquivos já foram baixados !!! Não façam download dos dados aqui no curso... • /home/labinfo/DanielGP • Os arquivos neste diretório devem ser copiados para as respectivas pastas dentro da estrutura de diretórios organizada (classes/). • Alternativa: criar links simbólicos (somente usuários avançados); • Diretório de trabalho • /cbab/labinfo/ • ALMOÇO: 13:00 RETORNO: 14:00 hrs

More Related