1 / 28

“Eukaryotic and prokaryotic promoter prediction using hybrid approach” Hao Lin • Qian-Zhong Li

“Eukaryotic and prokaryotic promoter prediction using hybrid approach” Hao Lin • Qian-Zhong Li Theory in Biosciences, 2011. Eukaryotic and prokaryotic promoter prediction using hybrid approach. Introdução Bases de dados Abordagem proposta Técnicas Experimentos Resultados. Introdução.

livvy
Download Presentation

“Eukaryotic and prokaryotic promoter prediction using hybrid approach” Hao Lin • Qian-Zhong Li

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. “Eukaryotic and prokaryotic promoter prediction using hybrid approach” Hao Lin • Qian-Zhong Li Theory in Biosciences, 2011

  2. Eukaryotic and prokaryotic promoter prediction using hybrid approach • Introdução • Bases de dados • Abordagem proposta • Técnicas • Experimentos • Resultados

  3. Introdução • Conservação • Oligonucleotídeo • K-mer • Transcrição (Exons e Introns) • PWM (Position Weight Matrix)

  4. IntroduçãoTranscrição

  5. IntroduçãoPWM (Position Weight Matrix)

  6. Base de Dados • Eucariotos • 300 pb → -249 a +50 (TSS = 0) • Procariotos • 81 pb → -60 a +20 bp (TSS = 0) • Bases (5 espécies) • C. elegans → 598 promoters, 600 coding sequences and 600 introns • B. subtilis → 270 promoters, 300 coding sequences and 300 convergent intergenic sequences • H. sapiens → 1787 promoters, 1800 coding sequences and 1800 introns • D. melanogaster → 1886 promoters, 2859 coding sequences and 1799 introns • E. coli → 741 promoters, 700 coding sequences and 700 convergent intergenic sequences

  7. Abordagem proposta • Abordagem híbrida baseada em Mahalanobis Discriminant modificado para identificação de promotores procarióticos e eucarióticos • Utiliza 2 técnicas para descrever características de sinal e de composição • Position Correlation Score Function (PCSF) (Li and Lin 2006; Gordon et al. 2006; Kielbasa et al. 2005) • Increment of Diversity (ID) (Laxton 1978)

  8. Abordagem proposta • PCSF (baseado em PWM) • Usado para estimar a ocorrência de sequências k-mer numa posição específica • ID • Medir a similaridade na composição de oligonucleotídeos em sub-regiões específicas entre sequências de teste e de treino • MD modificado • Usando como entrada os resultados de PCSF e ID, é aplicado para predizer promotores

  9. Conservação de oligonucleotídeos • Quanto maior o valor de maior a conservação da região

  10. Position Correlation Score Function (PCSF) • Uma matriz de probabilidade trimer oligonucleotídeo com 64 linhas (uma linha para cada trimer oligonucleotídeo) e o número de colunas de regiões conservadas é construído através da equação:

  11. Position Correlation Score Function (PCSF) • Baseado na matriz de probabilidade construída, a Equação 3 Average background probability → pode ser utilizada para calcular o valor de peso das sequências (assim como e ) • shows the degree of sequence closed to matrix resource

  12. Increment of Diversity (ID) • De acordo com o conceito de diversidade, se uma sequência X pode ser descrita como um vetor d-dimensional , então a diversidade da sequência será • Frequência absoluta do ith k-mer oligonucleotídeo → • Para duas sequências, o incremento de diversidade pode ser descrito como

  13. Increment of Diversity (ID) • Quanto menor o ID, maior a similaridade entre 2 sequências

  14. Através do PCSF e do ID, cada sequência eucariótica pode ser descrita como um vetor de 12 dimensões • 3 do PCSF e 9 do ID

  15. Mahalanobis Discriminant (MD) • Group mean → • Covariance matrix of training dataset → • Inverse matrix → • Determinant →

  16. Função de predição

  17. Hipótese • Sequências codificantes e não-codificantes juntas numa única base negativa podem resultar em baixa performance • Diferença entre sequências codificantes e não codificantes

  18. Sub-regiões sequências de promotores eucarióticas • As bases de dados de promotores eucarióticos foram divididas em 3 regiões • Transcrita • Não transcrita • Core promoter

  19. Sub-regiões em sequências de promotores eucarióticos cctcgatagtgccctcataaggcgcttaaacccaccttacccttaccatcatggctagtcgacgccaaaagcagttcgatcggaagtacagctcctatcggtaggtttggagattctggagctgaaaaaaccaatttt TSS Core Promoter Região transcrita Região não transcrita

  20. Experimentos

  21. Experimentos • Base de teste e de treino dividida em 10 partes • Varia-se a taxa entre elas • 5 taxas diferentes • 10-fold cross validation • Comparações com outras abordagens para D. melanogaster • 400 seq → 200 promotores, 100 coding, 100 introns • Comparações com outras abordagens para H. sapiens • 400 seq → 200 promotores, 100 coding, 100 introns

  22. Avaliação de performance

  23. Resultados

  24. Resultados

  25. Resultados

  26. Trabalhos futuros • Utilizar informações estruturais do DNA e predição completa do genoma

More Related