800 likes | 974 Views
Utilizando Inteligência Artificial em Bioinformática. Prof. André de Carvalho LABIC - Universidade de São Paulo. Principais tópicos. Introdução Bioinformática Biologia Molecular Reconhecimento de Genes Utilizando Inteligência Artificial Conclusão. IA e Bioinformática.
E N D
Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo
Principais tópicos • Introdução • Bioinformática • Biologia Molecular • Reconhecimento de Genes • Utilizando Inteligência Artificial • Conclusão
IA e Bioinformática Redes Neurais, Algorítmos genéticos BIOLOGIA COMPUTAÇÃO Bioinformática
Definições • Bioinformática • Pesquisa e desenvolvimento de ferramentas computacionais, matemáticas e estatísticas para a resolução de problemas da Biologia • Biologia molecular A Computação está para a Biologia da mesma forma que a Matemática está para a Física. Harold Morowitz
Bioinformática • Nos últimos anos, diversos laboratórios têm trabalhado no seqüenciamento de vários genomas • Até o ano 2000: • Mais que 30 organismos tinham sido seqüenciados • Cerca de 150 organismos estavam sendo seqüenciados • Determinação da seqüência de nucleotídeos em uma molécula é o primeiro passo para entender seu funcionamento • Beneficia várias áreas • Medicina - Farmácia - Agricultura
Andamento de projetos genoma • 73 genomas completos publicados • Humano • Camundongo • Drosophila • Arabidopsis • Levedura • 212 de procariotos em andamento • 157 de eucariotos em andamento
Fração do genoma da levedura CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACCCACACACACACATCCTAACACTACCCTAACACAGCCCTAATCTAACCCTGGCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTCCACTCGTTACCCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTTACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCACTGCCACTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATACTGTTCTTCTACCCACCATATTGAAACGCTAACAAATGATCGTAAATAACACACACGTGCTTACCCTACCACTTTATACCACCACCACATGCCATACTCACCCTCACTTGTATACTGATTTTACGTACGCACACGGATGCTACAGTATATACCATCTCAAACTTACCCTACTCTCAGATTCCACTTCACTCCATGGCCCATCTCTCACTGAATCAGTACCAAATGCACTCACATCATTATGCACGGCACTTGCCTCAGCGGTCTATACCCTGTGCCATTTACCCATAACGCCCATCATTATCCACATTTTGATATCTATATCTCATTCGGCGGTCCCAAATATTGTATAACTGCCCTTAATACATACGTTATACCACTTTTGCACCATATACTTACCACTCCATTTATATACACTTATGTCAATATTACAGAAAAATCCCCACAAAAATCACCTAAACATAAAAATATTCTACTTTTCAACAATAATACATAAACATATTGGCTTGTGGTAGCAACACTATCATGGTATCACTAACGTAAAAGTTCCTCAATATTGCAATTTGCTTGAACGGATGCTATTTCAGAATATTTCGTACTTACACAGGCCATACATTAGAATAATATGTCACATCACTGTCGTAACACTCTTTATTCACCGAGCAATAATACGGTAGTGGCTCAAACTCATGCGGGTGCTATGATACAATTATATCTTATTTCCATTCCCATATGCTAACCGCAATATCCTAAAAGCATAACTGATGCATCTTTAATCTTGTATGTGACACTACTCATACGAAGGGACTATATCTAGTCAAGACGATACTGTGATAGGTACGTTATTTAATAGGATCTATAACGAAATGTCAAATAATTTTACGGTAATATAACTTATCAGCGGCGTATACTAAAACGGACGTTACGATATTGTCTCACTTCATCTTACCACCCTCTATCTTATTGCTGATAGAACACTAACCCCTCAGCTTTATTTCTAGTTACAGTTACACAAAAAACTATGCCAACCCAGAAATCTTGATATTTTACGTGTCAAAAAATGAGGGTCTCTAAATGAGAGTTTGGTACCATGACTTGTAACTCGCACTGCCCTGATCTGCAATCTTGTTCTTAGAAGTGACGCATATTCTATACGGCCCGACGCGACGCGCCAAAAAATGAAAAACGAAGCAGCGACTCATTTTTATTTAAGGACAAAGGTTGCGAAGCCGCACATTTCCAATTTCATTGTTGTTTATTGGACATACACTGTTAGCTTTATTACCGTCCACGTTTTTTCTACAATAGTGTAGAAGTTTCTTTCTTATGTTCATCGTATTCATAAAATGCTTCACGAACACCGTCATTGATCAAATAGGTCTATAATATTAATATACATTTATATAATCTACGGTATTTATATCATCAAAAAAAAGTAGTTTTTTTATTTTATTTTGTTCGTTAATTTTCAATTTCTATGGAAACCCGTTCGTAAAATTGGCGTTTGTCTCTAGTTTGCGATAGTGTAGATACCGTCCTTGGATAGAGCACTGGAGATGGCTGGCTTTAATCTGCTGGAGTACCATGGAACACCGGTGATCATTCTGGTCACTTGGTCTGGAGCAATACCGGTCAACATGGTGGTGAAGTCACCGTAGTTGAAAACGGCTTCAGCAACTTCGACTGGGTAGGTTTCAGTTGGGTGGGCGGCTTGGAACATGTAGTATTGGGCTAAGTGAGCTCTGATATCAGAGACGTAGACACCCAATTCCACCAAGTTGACTCTTTCGTCAGATTGAGCTAGAGTGGTGGTTGCAGAAGCAGTAGCAGCGATGGCAGCGACACCAGCGGCGATTGAAGTTAATTTGACCATTGTATTTGTTTTGTTTGTTAGTGCTGATATAAGCTTAACAGGAAAGGAAAGAATAAAGACATATTCTCAAAGGCATATAGTTGAAGCAGCTCTATTTATACCCATTCCCTCATGGGTTGTTGCTATTTAAACGATCGCTGACTGGCACCAGTTCCTCATCAAATATTCTCTATATCTCATCTTTCACACAATCTCATTATCTCTATGGAGATGCTCTTGTTTCTGAACGAATCATAAATCTTTCATAGGTTTCGTATGTGGAGTACTGTTTTATGGCGCTTATGTGTATTCGTATGCGCAGAATGTGGGAATGCCAATTATAGGGGTGCCGAGGTGCCTTATAAAACCCTTTTCTGTGCCTGTGACATTTCCTTTTTCGGTCAAAAAGAATATCCGAATTTTAGATTTGGACCCTCGTACAGAAGCTTATTGTCTAAGCCTGAATTCAGTCTGCTTTAAACGGCTTCCGCGGAGGAAATATTTCCATCTCTTGAATTCGTACAACATTAAACGTGTGTTGGGAGTCGTATACTGTTAGGGTCTGTAAACTTGTGAACTCTCGGCAAATGCCTTGGTGCAATTACGTAATTTTAGCCGCTGAGAAGCGGATGGTAATGAGACAAGTTGATATCAAACAGATACATATTTAAAAGAGGGTACCGCTAATTTAGCAGGGCAGTATTATTGTAGTTTGATATGTACGGCTAACTGAACCTAAGTAGGGATATGAGAGTAAGAACGTTCGGCTACTCTTCTTTCTAAGTGGGATTTTTCTTAATCCTTGGATTCTTAAAAGGTTATTAAAGTTCCGCACAAAGAACGCTTGGAAATCGCATTCATCAAAGAACAACTCTTCGTTTTCCAAACAATCTTCCCGAAAAAGTAGCCGTTCATTTCCCTTCCGATTTCATTCCTAGACTGCCAAATTTTTCTTGCTCATTTATAATGATTGATAAGAATTGTATTTGTGTCCCATTCTCGTAGATAAAATTCTTGGATGTTAAAAAATTATTATTTTCTTCATAAAGAAGCTTTCAAGATATAAGATACGAAATAGGGGTTGATAATTGCATGACAGTAGCTTTAGATCAAAAAGGAAAGCATGGAGGGAAACAGTAAACAGTGAAAATTCTCTTGAGAACCAAAGTAAACCTTCATTGAAGAGCTTCCTTAAAAAATTTAGAATCTCCCATGTCAACGGGTTTCCATACCTCCCCAGCATCATACATCTTTTTTCAAAGAAACTTCAAATGCCTCTTTTATGCAAGGGGCAAAATCCTGAAATGACTTAAACTTAGCAGTTTCGTCTTTTTTCAAAGAGAATGGTTGAAGAAGAATTGTTTTGGACGCTTATTGACAATCTGTTGCATTGATAAAGTACCTACTATCCCAGACTATATTTGTATACAAGTACAAAATTAGGTTTGTTGAAACAACTTTCCGATCATTGGTGCCCGTATCTGATGTTTTTTTAGTAATTTCTTTGTAAATACAGGGAGTTGTTTCGAAAGCTTATGAGAAAAATACATGAATGACAGGTAAAAATATTGGCTCGAAAAAGAGGACAAAAAGAGAAATCATAAATGAGTAAACCCACTTGCTGGACATTATCCAGTAAAGGCTTGGTAGTAACCATAATATTACCCAGGTACGAAACGCTAAGAACCTTGAAAGACTCATAAAACTTCCAGGTTAAGCTATTTTTGAAAATATTCTGAGGTAAAAGCCATTAAGGTCCAGATAACCAAGGGACAATAAACCTATGCTTTTCTTGTCTTCAATTTCAGTATCTTTCCATTTTGATAATGAGCATGTGATCCGGAAAGCTACTTTATGATGTTTCAAGGCCTGAAGTTTGAATATTTATGTAGTTCAACATCAAATGTGTCTATTTTGTGATGAGGCAACCGTCGACAACCTTATTATCGAAAAAGAACAACAAGTTCACATGCTTGTTACTCTCTATAACTAGAGAGTACTTTTTTTGGAAGCAAGTAAGAATAAGTCAATTTCTACTTACCTCATTAGGGAAAAATTTAATAGCAGTTGTTATAACGACAAATACAGGCCCTAAAAAATTCACTGTATTCAATGGTCTACGAATCGTCAATCGCTTGCGGTTATGGCACGAAGAACAATGCAATAGCTCTTACAAGCCACTACATGACAAGCAACTCATAATTTAA
Bioinformática • Ênfase está se deslocando progressivamente da acumulação de dados para a sua interpretação • Com os seqüenciamentos realizados, uma grande quantidade de dados tem sido gerada • Estes dados precisam agora ser analisados • Análise laboratorial destes dados é difícil e cara • Ferramentas computacionais sofisticadas são necessárias para a análise dos dados obtidos
Bioinformática • Para muitas destas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos • Técnicas de laboratório de Biologia Molecular quase sempre geram dados com erros ou imprecisões • Na medição dos valores ou definição das classes • Inteligência Artificial fornecem técnicas eficientes para lidar com problemas deste tipo
Biologia Molecular • Estudo das células e moléculas • Em particular: genoma dos organismos • Estruturas principais: • Genes • Cromossomos • DNA • RNA • Proteínas Expressão Gênica nucleotídeos aminoácidos
Biologia Molecular • Dogma central da Biologia Molecular • Transferência de Informação Replicação DNA Transcrição RNA Tradução Proteínas
Biologia Molecular • Algumas descobertas posteriores contradizem este dogma: • RNA pode sofrer replicação em alguns vírus e plantas • RNA viral, através de uma enzima denominada transcriptase reversa, pode ser transcrito em DNA • DNA pode traduzir diretamente proteínas específicas • Sem passar pelo processo de transcrição
Biologia Molecular • DNA (Ácido Desoxirribonucleico) • O DNA é uma molécula formada por duas fitas (dupla fita) que se entrelaçam formando uma hélice dupla • DNA é composto de quatro nucleotídeos diferentes • Adenina, Citosina, Guanina e Timina • Fitas são mantidas juntas por ligações que conectam cada nucleotídeo de uma fita ao seu complemento na outra • A se liga com T e C se liga com G
Biologia Molecular • Genes • Subseqüências de DNA • Localizados no cromossomo • Servem como molde para a produção de proteínas • Encaixadas entre os genes estão segmentos chamados de regiões não codificadoras
Biologia Molecular • Proteínas • Definem estrutura, função e mecanismos regulatórios das células • Exemplos de mecanismos regulatórios: controle do ciclo celular, transcrição gênica • Seqüências lineares • Combinações de 20 aminoácidos diferentes • Três nucleotídeos (codon) formam um aminoácido
Biologia Molecular • Expressão gênica • Processo pelo qual genes são usados para produzir proteínas • Mecanismos de expressão gênica são diferentes para organismos: • Eucariotos • Material genético difuso nas células (Ex.: bactérias) • Procariotos • Material genético em um núcleo (Ex.: seres humanos)
Processo de expressão gênica • Transcrição • RNA polimerase é a molécula (enzima) que transcreve DNA em RNA • RNA polimerase começa a transcrição após se ligar a um sinal regulatório no DNA chamado promotor • Gera molécula de RNA mensageiro (mRNA)
Processo de expressão gênica • Transcrição depende do organismo • Organismos eucariotos • Cada gene é transcrito independentemente • Existe um promotor antes de todo gene • Organismos procariotos • Vários genes consecutivos podem ser transcritos em uma única molécula de RNA • Não existe necessariamente um promotor antes de cada gene
Processo de expressão gênica • Tradução • Sintetiza uma proteína utilizando como forma mRNA • Leitura do mRNA é feita por uma molécula chamada de ribossomo • Mensagem lida é utilizada para montar uma cadeia de proteína • Tripla de nucleotídeos consecutivos (codon) codifica um aminoácido • Código genético: mapeamento de codons em aminoácidos
Processo de expressão gênica G C A G C T C C G G A C T C C A T . . . DNA RNA Polimerase T Transcrição promotor mRNA A
Processo de expressão gênica T GC A G C T C C G G A C T C C A T . . . DNA RNA Polimerase Transcrição promotor mRNA A CGU C G A G G C C U G A G G U A . . .
Ribossomo Tradução Processo de expressão gênica DNA T G C A G C T C C G G A C T C C A T . . . RNA Polimerase promotor Transcrição mRNA A C G U C G A G G C C U G A G G U A . . . A C G Thr
Processo de expressão gênica DNA T G C A G C T C C G G A C T C C A T . . . RNA Polimerase Transcrição promotor mRNA A C G U C G A G G C C U G A G G U A . . . Tradução Ribossomo Ser His Ser Gly Leu Cys
Processo de expressão gênica • Estrutura de leitura • Para uma dada faixa de DNA, nucleotídeos podem ser agrupados em triplas de três formas diferentes • Um dos nucleotídeos pode ocupar a 1a, 2a ou 3a posição em um codon • Apenas um destes três possíveis agrupamentos é realmente lido pelo ribossomo • O agrupamento lido é chamado de estrutura de leitura do gene A T T A C G A A G
Processo de expressão gênica • Em organismos eucariotos, existe um outro passo importante durante o processo de expressão gênica • Após o DNA ser transcrito, certas partes da molécula são eliminadas antes de sua transformação em proteína • Genes em eucariotos são formados por segmentos alternados de exons e introns
Regiões de splice • Exons: • Seqüências de nucleotídeos que são expressas (traduzidas em proteínas) • Introns: • Seqüências intercaladas que são eliminadas na tradução • Regiões de splice (splice-junctions): • Pontos de fronteira onde ocorrem junções de exons e introns • Doadoras: bordas exon-intron • Aceptoras: bordas intron-exon
Splice-junctions DNA doador aceptor Transcrição mRNA exon intron Splicing mRNA
Biologia Molecular e IA • Problemas da Biologia Molecular que podem ser tratados por IA • Reconhecimento de genes • Construção de árvores filogenéticas • Análise de expressão gênica • Previsão de estruturas de proteínas • Análise de interação entre genes • Montagem de fragmentos • Alinhamento de seqüências
Reconhecimento de genes • Um dos principais problemas em biologia molecular é a identificação de genes em seqüências de DNA não caracterizadas • Algoritmos convencionais não têm sido eficientes • Variação natural dos genes • Complexidade dos genes • Natureza pouco compreendida dos genes • Abordagem promissora: Aprendizado de Máquina
Reconhecimento de genes • Duas abordagens principais têm sido seguidas: • Busca por sinal • Busca por conteúdo
Reconhecimento de genes • Busca por sinal • Localiza genes indiretamente • Procura sinais particulares relacionados com a expressão de genes • Sinal • Região localizada do DNA que realiza uma função específica (exemplo: se liga a uma enzima)
Reconhecimento de genes • Busca por conteúdo • Reconhece genes diretamente • Identifica segmentos de seqüências de DNA que possuem as propriedades gerais de regiões codificadoras • Se baseia no conhecimento das diferentes propriedades estatísticas de regiões codificadoras e não codificadoras
Busca por sinal • É importante não apenas entender a função de cada gene • Mas também os mecanismos que regulam a expressão do gene • Vários sinais exercem importantes funções regulatórias definindo: • Condições sob as quais os genes são expressos • Taxa com a qual a expressão ocorre
Busca por sinal • Detecção de sinal já é um problema em si • Vários sinais que podem ser identificados em seqüências de nucleotídeos são importantes para a identificação de genes • Sítios de início de transcrição (promotores) • Sítios de término de transcrição (terminadores) • Sítios de splice-junction • Sítios de início da tradução (codons de iniciação) • Sítios de término da tradução (codons de parada ou stop codons)
Busca por sinal • Diferentes sinais têm diferentes dificuldades de identificação • Codons de parada são facilmente identificados • Identificação de outros sinais é mais complicada • Busca por sinal é uma tarefa de classificação • Dada uma janela de tamanho fixo de um DNA, determinar se ela contém um sinal de interesse • Se uma característica identificável do sinal ocupa uma posição particular na janela
Busca por sinal Promotor na posição 3? Classificador Posição 1 = ‘C’ Posição 2 = ‘T’ Posição 3 = ‘T’ Posição 4 = ‘A’ Posição 5 = ‘C’ Posição 6 = ‘G’ Representação das características Seqüência de DNA ... A T C G T G C T T A C G C G T C C A 1 2 3 4 5 6
Reconhecimento de início da tradução • Reconhece codons de iniciação • Tradução de mRNA em proteína não começa com sua primeira tripla de nucleotídeos • Em organismos procariotos, uma simples molécula de mRNA pode ter vários sítios de início de tradução • Genes consecutivos podem ser transcritos em uma única cadeia de mRNA
Reconhecimento de promotores • Sinal regulatório de uma molécula de DNA onde RNA polimerase se liga para começar a transcrição • RNA polimerase é uma molécula que transcreve DNA em RNA • Auxilia na localização de genes no DNA • Existem sítios amplamente aceitos como sendo as regiões que fornecem as carecterísticas definidoras de promotores • Regiões 10 e 35
Busca pelo conteúdo • Identifica genes reconhecendo padrões que que ocorrem na sua seqüência de nucleotídeos • Regiões do DNA que serão traduzidas em proteínas • Organismos procariotos: distinguir genes de regiões não codificadoras • Organismos eucariotos: distinguir também introns de exons • Janelas de tamanho fixo também são utilizadas para esta previsão
Busca pelo conteúdo • Busca por conteúdo procura responder as seguintes perguntas: • Quais são as regiões codificadoras • Para uma dada região, que faixa e qual estrutura de leitura codifica a proteína • Várias propriedades podem ser exploradas para distinguir regiões codificadoras de não codificadoras
Busca pelo conteúdo • Propriedades que podem ser exploradas: • Alguns aminoácidos são usados mais freqüentemente que outros em regiões codificadoras • A existência de diferentes números de codons para aminoácidos diferentes • Codons que mapeiam em um dado aminoácido não são usados igualmente na maioria dos organismos • Não podem conter codons de parada • Alguns codons têm maior probabilidade de serem vizinhos
Reconhecimento de genes • Abordagens mais promissoras em reconhecimento de genes: • Combinam previsão de vários sinais diferentes e regiões codificadoras • Reconhecimento de operons • Genes consecutivos que são ativados ou desativados em conjunto
Redes Neurais Artificiais • Sistemas computacionais distribuídos baseados na estrutura e funcionamento do sistema nervoso • Nodos simulam neurônios • Conexões ponderadas simulam sinapses • Definidas por • Arquitetura • Aprendizado
Redes Neurais Artificiais camadas intermediárias camada de entrada camada de saída conexões
A A A C C C G G G T T T Redes Neurais Artificiais • Stormo et al (1982): reconhecimento de sítios de início de tradução no DNA de bactérias E. Coli • Primeira aplicação de Redes Neurais em Bioinformática • Utilizou rede Perceptron ... A T C G T G C T T A C G C G C G T ...
Trabalho Problema abordado Towell et al (1990) Sítios de início de transcrição Uberbacher et al (1993) Servidor GRAIL - identificação de genes Riis et al (1995) Polyac et al (1992) Previsão de estrutura de proteínas Ma e Wang (1999) Bajic et al. (2002) Reconhecimento de promotores Rampone (1998) Reconhecimento de regiões de splicing Redes Neurais Artificiais
Algoritmos Genéticos • Técnica de busca e otimização • Baseados na genética e teoria da seleção natural • Utiliza uma população de soluções candidatas (indivíduos) • A cada indivíduo é associado um escore de aptidão, que mede o quão boa é a solução que ele representa • Otimização ocorre em várias gerações • A cada geração • Mecanismos de seleção selecionam os indivíduos mais aptos • Operadores de reprodução geram novos indivíduos
Algoritmos Genéticos População inicial População final Avaliação Seleção População atual Reprodução