280 likes | 353 Views
“Eukaryotic and prokaryotic promoter prediction using hybrid approach” Hao Lin • Qian-Zhong Li Theory in Biosciences, 2011. Eukaryotic and prokaryotic promoter prediction using hybrid approach. Introdução Bases de dados Abordagem proposta Técnicas Experimentos Resultados. Introdução.
E N D
“Eukaryotic and prokaryotic promoter prediction using hybrid approach” Hao Lin • Qian-Zhong Li Theory in Biosciences, 2011
Eukaryotic and prokaryotic promoter prediction using hybrid approach • Introdução • Bases de dados • Abordagem proposta • Técnicas • Experimentos • Resultados
Introdução • Conservação • Oligonucleotídeo • K-mer • Transcrição (Exons e Introns) • PWM (Position Weight Matrix)
Base de Dados • Eucariotos • 300 pb → -249 a +50 (TSS = 0) • Procariotos • 81 pb → -60 a +20 bp (TSS = 0) • Bases (5 espécies) • C. elegans → 598 promoters, 600 coding sequences and 600 introns • B. subtilis → 270 promoters, 300 coding sequences and 300 convergent intergenic sequences • H. sapiens → 1787 promoters, 1800 coding sequences and 1800 introns • D. melanogaster → 1886 promoters, 2859 coding sequences and 1799 introns • E. coli → 741 promoters, 700 coding sequences and 700 convergent intergenic sequences
Abordagem proposta • Abordagem híbrida baseada em Mahalanobis Discriminant modificado para identificação de promotores procarióticos e eucarióticos • Utiliza 2 técnicas para descrever características de sinal e de composição • Position Correlation Score Function (PCSF) (Li and Lin 2006; Gordon et al. 2006; Kielbasa et al. 2005) • Increment of Diversity (ID) (Laxton 1978)
Abordagem proposta • PCSF (baseado em PWM) • Usado para estimar a ocorrência de sequências k-mer numa posição específica • ID • Medir a similaridade na composição de oligonucleotídeos em sub-regiões específicas entre sequências de teste e de treino • MD modificado • Usando como entrada os resultados de PCSF e ID, é aplicado para predizer promotores
Conservação de oligonucleotídeos • Quanto maior o valor de maior a conservação da região
Position Correlation Score Function (PCSF) • Uma matriz de probabilidade trimer oligonucleotídeo com 64 linhas (uma linha para cada trimer oligonucleotídeo) e o número de colunas de regiões conservadas é construído através da equação:
Position Correlation Score Function (PCSF) • Baseado na matriz de probabilidade construída, a Equação 3 Average background probability → pode ser utilizada para calcular o valor de peso das sequências (assim como e ) • shows the degree of sequence closed to matrix resource
Increment of Diversity (ID) • De acordo com o conceito de diversidade, se uma sequência X pode ser descrita como um vetor d-dimensional , então a diversidade da sequência será • Frequência absoluta do ith k-mer oligonucleotídeo → • Para duas sequências, o incremento de diversidade pode ser descrito como
Increment of Diversity (ID) • Quanto menor o ID, maior a similaridade entre 2 sequências
Através do PCSF e do ID, cada sequência eucariótica pode ser descrita como um vetor de 12 dimensões • 3 do PCSF e 9 do ID
Mahalanobis Discriminant (MD) • Group mean → • Covariance matrix of training dataset → • Inverse matrix → • Determinant →
Hipótese • Sequências codificantes e não-codificantes juntas numa única base negativa podem resultar em baixa performance • Diferença entre sequências codificantes e não codificantes
Sub-regiões sequências de promotores eucarióticas • As bases de dados de promotores eucarióticos foram divididas em 3 regiões • Transcrita • Não transcrita • Core promoter
Sub-regiões em sequências de promotores eucarióticos cctcgatagtgccctcataaggcgcttaaacccaccttacccttaccatcatggctagtcgacgccaaaagcagttcgatcggaagtacagctcctatcggtaggtttggagattctggagctgaaaaaaccaatttt TSS Core Promoter Região transcrita Região não transcrita
Experimentos • Base de teste e de treino dividida em 10 partes • Varia-se a taxa entre elas • 5 taxas diferentes • 10-fold cross validation • Comparações com outras abordagens para D. melanogaster • 400 seq → 200 promotores, 100 coding, 100 introns • Comparações com outras abordagens para H. sapiens • 400 seq → 200 promotores, 100 coding, 100 introns
Trabalhos futuros • Utilizar informações estruturais do DNA e predição completa do genoma