270 likes | 359 Views
Deleterious SNP prediction: be mindful of your training data!. Flávia Araújo frba@cin.ufpe.br. Objetivos. Estudar os três conjuntos de dados mais comumente utilizados para classificar os SNPs como deletérios ou neutros.
E N D
Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br
Objetivos • Estudar os três conjuntos de dados mais comumente utilizados para classificar os SNPs como deletérios ou neutros. • Analisando as vantagens e desvantagens de cada conjunto de dados e também recomendando a melhor abordagem para estudos futuros.
Single Nucleotide Polymorphisms • SNPs • Ocorre em uma seqüência de DNA em apenas um único nucleotídeo. Ex: A A G C CT A A A G C TT A • 90% dos polimorfismo no DNA humano é causado por SNP. • Em regiões codificantes ocorrem pelo menos 4 SNPs por gene, podendo ou não ocorrer a mudança no aminoácido.
Single Nucleotide Polymorphisms • SNPs • Sinônimo: a mudança de base não afeta na composição da proteína. (mutação silenciosa) • Não Sinônimo: a mudança de base altera a composição da proteína. • Podendo afetar a função da proteína ou contribuir para uma doença genética. • A importância de se estudar os SNP é a possibilidade de poder mapear características de interesse entendendo a diversidade dos fenótipos.
Introdução • Dos métodos existentes na literatura utiliza-se uma grande variedade de atributos: estruturais e sequence-based para separar os SNPs deletérios dos neutros. • Desses atributos os estruturais são que fornecem um maior entendimento dos mecanismos, mas esses atributos não estão disponíveis para todos os SNPs.
Introdução • Esses atributos são utilizados para uma grande variedade de métodos de predição usando técnicas de aprendizagem de máquina: • Decision trees, • Support Vector Machine, • Neural Networks, • Bayesian Networks, etc.
Métodos • Árvores de decisão (Decision Trees) • São modelos preditivos utilizados para classificação dos SNPs. • Cada nó representa um ponto de decisão no qual o teste é realizado mediante um atributo. Nó
Métodos • Foi utilizado validação cruzada 10-fold para remover qualquer viés que a divisão dos conjuntos de dados em treinamento e teste pudessem apresentar. • Sendo os resultados obtidos com a árvore de decisão exibidos em uma matriz de confusão. (OE) = [(FP+FN)/(TP+FP+TN+FN)], Onde, TP = true positive, TN = true negative, FP = false positive and FN = false negative. Taxa de falso positivo: [FPR=FP/(TN+FP)] Taxa de falso negativo: [FNR=FN/(TP+FN)].
Atributos • Para permitir as predições de todos os SNPs foram selecionados atributos que não precisam de informações estruturais: • Identidade original e mutado do resíduo de aminoácido • Classe fisico-química do aminoácido original e mutado (Hydrophobic, Polar, Encarregado, Glycine) • Diferença da hidrofobicidade entre o resíduo original e mutado • Massa de mudança na mutação • Predição do sítio de mutação na estrutura secundária: (Loop, Helix, Strand) • Predição do sítio de mutação na solvente acessibility: (0 9; enterrado ou expostos) • Scorecons valor: seqüência conservação score mutação no site: (0 1; não Plenamente conservada) • Sítio de mutação Buried charge: (Resíduo é um dos K, R, D, E, H e tem uma acessibilidade de 0 ou 1) • Posição específica pontuação matriz (PSSM) valor de aminoácido substituição • Log-odds score substituição do aminoácido.
Conjuntos de dados para a predição de SNP deletérios: • Conjunto de dados Mutagêneses • Consiste em um conjunto sistemático de mutação imparcial do T4 lisozima (1990 mutações / 40% mutações deletérios) e proteína lac repressor (3303 mutações / 38% mutações deletérios). • Conjunto de dados Swiss-Prot • Conjunto com single polimorfismos de aminoácidos (SAP), onde são classificados como: • Disease: Quando o polimorfismo é associado a uma doença, tendo 12911 disease SAP em 1055 proteínas. • Polimorfismo: Quando não tem uma doença conhecida associada, tendo 8302 polimorfismo SAP em 3388 proteínas.
Conjuntos de dados para a predição de SNP deletérios: • Conjunto de dados divergentes • Os SAPs neutros são encontrados pela divergência entre proteínas humanas relacionados com seus mamíferos ortólogos. Assumindo que a variação entre espécies próximas não é deletéria. • Foram utilizadas proteínas contendo SAPs disease, cada proteína foi procurada no banco NCBI usando BLASTP. • Todos os resultados de não mamíferos foram descartados e os dados restantes foram processados em dois métodos. Ambos os métodos fizeram o alinhamento das sequências encontradas com as proteínas disease e os aminoácidos diferentes foram anotados, verificando a sequence identity (SI). • Um dos métodos utilizou todas as seqüências de mamíferos encontrados (neutralAH) e a outra apenas os melhores matchs (neutralBH).
Validação Cruzada e Aleatorização dos dados • Para uma melhor acurácia com as decision trees os dados são balanceados. • Homogeneous cross validation: • Utiliza os mesmos dados para treinamento e teste. • 4000 SAPs amostras são escolhidas aleatoriamente de cada conjunto de dados 10 vezes (ex.: 4000 deletérios e 4000 neutros). Estes dados são utilizados para realizar a validação cruzada 10-fold. • Heterogeneous cross validation: • Parte dos dados do conjunto de treinamento são do mesmo tipo de parte dos dados do conjunto de teste. • 4000 SAPs amostras aleatórias escolhidas 10 vezes de cada conjunto de dados dividido em dois conjuntos: treinamento e teste (ex: 2000 deletérios e 2000 neutros).
Validação cruzada e Aleatorização dos dados • Os dados de mutageneses é uma exceção nesse treinamento devido a baixa quantidade de dados disponíveis: • Inicialmente os dados foram divididos em duas classes (lac: 1325 deleterious e 1978 neutral; lysozyme: 762 deleterious e 1228 neutral). • Dessas 762 mutações foram escolhidas aleatoriamente 10 vezes de cada classe. Essas amostras foram então utilizadas para fazer uma validação cruzada homogenea 10-fold. • Os conjuntos de dados de lac e lysozyme foram unidos para formar um conjunto de dados mutagenese contendo 3048 mutações por amostra (1372 treinamento e152 teste).
Construção da matriz HEAT • Human Expected Amino acids Transitions (HEAT) • Foi construída uma matriz consistindo das taxas esperadas de substituições de aminoácidos nas proteínas de genes humanos, na ausência de seleção. • A matriz foi construída similar a Vitkup et al. (2003). Utilizando uma matriz de taxa de substituição de vizinhos-dependentes.
Construção da matriz HEAT • Essa matriz HEAT foi utilizada para calcular as taxas esperadas de todas as substituições de aminoácidos resultantes de mutações de um único nucleotídeo (SNM). • Comparação entre as taxas de cada conjunto de dados com a taxa de substituição esperada • [log (P(datasetSubstitution)/P(HEAT Substitution))].
Resultados • Comparação dos dados: • SNM (single nucleotide mutations) podem dar origem a 150 possíveis substituições de aminoácidos em um códon. • Enquanto que MNM (multiple nucleotide mutations) resulta em 230 possíveis substituições.
Resultados • Os dados Mutagenes apresentam alta porcentagem de MNMs (multiple nucleotide mutations) Lac: 57% e Lyso: 59%. • Swiss-Prot tem cerca de 0,2% de MNMs para disease e 0,1% para polymorphysm. • Enquanto que os dados divergentes apresenta uma variação de 5 a 40% de acordo com o limiar da seqüência identidade (SI).
Resultados • A verificação da taxa de substituição dos aminoácidos devido a SNM (mutação de um único nucleotídeo) pode ser observada através da HEAT para cada um dos três dados analisados. • [log (P(datasetSubstitution)/P(HEAT Substitution))].
Análise da HEAT • A comparação feita com a HEAT pôs em evidência as diferenças dos conjuntos de dados mostrando o potencial para discriminar SNP deleterious de neutros usando apenas o parâmetro da substituição dos aminoácidos. • Podendo ser observado que os dados: • Swiss-Prot polimorfismo com a matrix HEAT (R = 0,91, P<0,0001) apresentaram elevado nível de correlação. • Swiss-Prot disease (R=0.81, P<0.0001) • Enquanto que o conjunto de Dados divergentes (R = 0,74, P<0,0001).
Discussão • Foi possível observar que é de extrema importância considerar a seleção de formação dados com muito cuidado, pois estes tem efeitos significativos sobre classificadores e taxas de erro estimada. • Os resultados sugeriram que o uso de dados de mutagenese com conteúdo significativamente alto de MNMs (mutação de múltiplos nucleotídeo) do que poderia ser esperado para nsSNPs pode levar a regras altamente irrelevantes para a predição de SNP. No entanto são bons para a predição dos efeitos gerais das mutações de proteínas.
Discussão • Os dados divergentes também produziu dados que foram relevantes para distingui-los de mutações de patologias conhecidas, mas não são bons o suficiente para distinguir SNPs deletérios de neutros.
Discussão • Foi então sugerido que os melhores dados de treinamento para predição de nsSNP em humanos são as variantes das proteínas humanas conhecidas: Disease e Polymorphysm anotados no Swiss-Prot. • Embora estes dados ainda apresentem problemas pois os dados anotados como polymorphysm neutro possa ter associação com uma doença ainda desconhecida.
Conclusão • Importantes observações foram levantadas sobre os dados, sendo o Swiss-prot o melhor conjunto de dados sugerido. • Os próprios autores acreditam que os efeitos ocasionados pelos dados descritos no artigo tem afetado diversos estudos, assim como no deles. • Portanto é importante que os estudiosos deste campo estejam cientes destes efeitos.