200 likes | 307 Views
CAPES. Universidade de São Paulo Programa de Pós-Graduação Interunidades Bioengenharia – EESC/FMRP/IQSC. COMPUTAÇÃO INTELIGENTE NO ESTUDO DE VARIANTES DE HEMOGLOBINA. Sousa 1 , T.H.S.;Delbem 2 , A.C.B.; Policastro 2 , A.C.; Garrat, 4 R. C.
E N D
CAPES Universidade de São PauloPrograma de Pós-Graduação Interunidades Bioengenharia – EESC/FMRP/IQSC COMPUTAÇÃO INTELIGENTE NO ESTUDO DE VARIANTES DE HEMOGLOBINA Sousa1, T.H.S.;Delbem2, A.C.B.; Policastro2, A.C.; Garrat, 4R. C. 1Bioengenharia-São Carlos-USP; 2ICMC-São Carlos-USP, 4IFSC- São Carlos - USP
___________________________________________________________SUMÁRIO___________________________________________________________SUMÁRIO sumário • Motivação • Introdução • Objetivo • Materiais e Métodos • Resultados • Conclusão
_________________________________________________________MOTIVAÇÃO_________________________________________________________MOTIVAÇÃO Evolução in vitro • Método laboratorial para a evolução de moléculas por meio de mutações. Obtenção de propriedades desejadas.Evolução de proteínas in vitro. descobrimento de novas drogas. cura de muitas doenças de origem genética. • Técnica de alto custorequer longo período de tempo.
______________________________________________________INTRODUÇÃO______________________________________________________INTRODUÇÃO PROTEÍNAS • macromoléculas direta ou indiretamente responsáveis pelo desempenho de praticamente todas as funções metabólicas, estruturais, imunológicas e reprodutivas nos organismos vivos. • Componentes fundamentais de todos os seres vivos. • Moléculas orgânicas mais abundantes das células. LEHNINGER, 1976
______________________________________________________INTRODUÇÃO______________________________________________________INTRODUÇÃO PROTEÍNAS Principais elementos: C, H, N , O e S. Elementos adicionais: P, Fe, Zn e Cu. Elementos liberados por hidrólise: Aminoácidos ou -aminoácidos Algumas de suas principais funções: • Catálize enzimática; • Transporte e armazenamento; • Sustentação mecânica; • Proteção imunitária e outras.
______________________________________________________INTRODUÇÃO______________________________________________________INTRODUÇÃO Conformação das proteínas Proteínas fibrosas Proteína Globulares
______________________________________________________INTRODUÇÃO______________________________________________________INTRODUÇÃO AMINOÁCIDOS • 20 aminoácidos são encontrados nas proteínas (padrão) • Classificados Grupamentos R Polaridade:Hidrofóbicos, Hidrofílicos, Básicos e Ácidos
______________________________________________________INTRODUÇÃO______________________________________________________INTRODUÇÃO HEMOGLOBINA • Proteínas, contidas nas hemácias, responsáveis pelo transporte de O2 , CO2, e íons de H+ . • A Hb contém 2 cadeias (141 a.a) e 2 cadeias (146 a.a) liga-se a cada cadeia um grupo heme
________________________________________________________INTRODUÇÃO________________________________________________________INTRODUÇÃO HEMOGLOBINA Desoxihemoglobina Estado T Oxiemoglobina Estado R
________________________________________________________INTRODUÇÃO________________________________________________________INTRODUÇÃO Aprendizado de Máquina AM é uma área de pesquisa computacional objetivo é desenvolvimento de sistemas computacionais capazes de aprenderem e adquirirem conhecimento de forma automática. Algoritmos de Aprendizado: Programa computacional capaz de tomar decisões baseadas em soluções de problemas anteriores. Exemplos de técnicas de AM: Redes Neurais, SVM, técnica de Árvores de Decisão e Algoritmos Genéticos.
______________________________________________________OBJETIVO______________________________________________________OBJETIVO OBJETIVO • Propomos neste trabalho investigar técnicas computacionais inteligentes capazes de determinar a funcionalidade de proteínas mutantes a partir das seqüências de aminoácidos e classificar de maneira correta as mutações da proteína hemoglobina para em seguida predizer as características de uma nova mutação.
________________________________________________MATERIAIS E MÉTODOS Foram realizados dois estudos: 1) Proteínas (Hemoglobinas - Hb). • Foram utilizadas as cadeias alfa e beta da proteína HB Com 141 e 146 aminoácidos respectivamente. • Um cojunto de dados de proteínas disponíveis em: http://us.expasy.org e http://globin.cse.psu.edu. • adquiridas estruturas primárias da Hb (mutantes) associadas ou não a uma patologia com suas respectivas classificações seqüência original da proteína estudada.
________________________________________________MATERIAIS E MÉTODOS 2) Técnicas computacionais inteligentes. • A técnica computacional (AM) Algoritmos C 4.5, Algoritmo SMO, Random Forest, Kstar e FLRpara a verificação da funcionalidade de hemoglobinas. • Programa Weka (Waikato Environment Knowledge Analysis) versão 3.2, composto por um conjunto de algoritmos de AM implementados em Java, disponível no site http://www.cs.waikato.ac.nz/ml/weka/ index.htm.
________________________________________________MATERIAIS E MÉTODOS METODOLOGIA • Os experimentos seguiram a metodologia 10-fold-cross-validation. • As seqüências foram aleatoriamente separadas em 10 grupos de tamanhos aproximadamente iguais Um grupo foi utilizado como conjunto de novas seqüências apresentadas ao sistema para o aprendizado 9 grupos restantes foram utilizados como seqüências de treinamento dos demais algoritmos. • Após cada treinamento utilizando os 9 grupos, o grupo de teste foi apresentado ao sistema e a média dos erros foi calculada esse processo foi repetido para os 9 grupos restantes.
________________________________________________________RESULTADOS________________________________________________________RESULTADOS RESULTADOS Testes realizados AM e AG • ATabela 1 apresenta os resultados dos testes que foram realizados com a cadeia alfa da proteína Hemoglobina seqüências mutantes de indivíduos heterozigotos ambientes químicos. • A Tabela 2 apresenta os resultados dos testes que foram realizados com a cadeia beta da proteína Hemoglobina seqüências mutantes de indivíduos heterozigotos ambientes químicos.
________________________________________________________RESULTADOS________________________________________________________RESULTADOS Algoritmo Algoritmo Erro Médio Erro Médio Boas Boas Ruins Ruins Total Total C 4.5 C 4.5 36.2% 17.9% 88 114 25 50 139 138 SVM SVM 29.7% 18.7% Random Forest Random Forest 33.3% 17.9% Kstar Kstar 26.8% 19.4% FLR FLR 23.7% 31.8% Tabela 1-Erro médio para os indivíduos Heterozigotos da cadeia alfa Tabela 2-Erro médio para os indivíduos Heterozigotos da cadeia beta
________________________________________________________RESULTADOS________________________________________________________RESULTADOS RESULTADOS • A Tabela 3 apresenta os testes que foram realizados com a cadeia beta da proteína Hemoglobina com o Algoritmo Genético Filtro objetivo era selecionar ainda mais as entradas para os classificadores. • ATabela 4 apresenta os resultados dos testes realizados com a cadeia beta da proteína HemoglobinaAlgoritmo Genético.
Algoritmo Algoritmo Erro Médio Erro Médio Boas Boas Ruins Ruins Total Total ________________________________________________________RESULTADOS C 4.5 C 4.5 3.6% 197 186 383 SVM SVM 2.1% 197 186 Tabela 3-Algoritmos Genéticos/ Cadeia Beta/ Filtro 383 Tabela 4- Algoritmos Genéticos/ Cadeia Beta 1.8 % 197 186 383 197 186 383 1.6 %
__________________________________________________________ CONCLUSÃO CONCLUSÃO • Os testes realizados com os algoritmos escolhidos apresentaram um resultado esperado quando se utilizam técnicas de aprendizado que requerem bancos de dados numerosos. • A utilização de técnicas de aprendizado de máquina, por exemplo, o C 4.5, permite a construção de árvores de decisões que podem revelar a lógica de como é determinada a função de proteínas.
__________________________________________________________ CONCLUSÃO CONCLUSÃO • Como apresentado nos resultados experimentais o uso do Algoritmo Genético permitiu que se alcançassem resultados bastante significativos. • Como etapa futura a ser investigada está a criação de um software capaz de predizer futuras mutações da proteína estudada, a partir dos conhecimentos adquiridos.