730 likes | 874 Views
Identificação de elementos regulatórios usando Genômica Comparativa e Phylogenetic Footprinting. Raonne Barbosa Vargas. Introdução. Motivação
E N D
Identificação de elementos regulatórios usando Genômica Comparativa e Phylogenetic Footprinting Raonne Barbosa Vargas
Introdução • Motivação O ser humano possui uma sequência de DNA única, presente em todas as células de seu organismo. Nos últimos anos, após esta sequência de nucleotídeos ter sido completamente descoberta e os genes definidos nelas serem anotados, a comunidade que estuda a Biologia Molecular passou a enfrentar um novo desafio: como esta mesma sequência de genes pode definir todos os diferentes tipos de células que temos? A resposta está nos fatores que controlam a expressão desses genes, o estudo de um processo chamado de regulação gênica.
Introdução Proteínas chamadas de fatores de transcrição ligam-se à sequência de DNA em posições específicas chamadas de locais de amarração dos fatores de transcrição (TFBS’s), para regular a expressão de um determinado gene, ativando ou inibindo os mecanismos da transcrição. Os locais de amarração funcionais são por isso chamados de elementos regulatórios. A regulação gênica ainda é uma área de estudo muito complexa e seu completo entendimento ainda é considerado uma esperança distante, que irá requerer muitos esforços, inclusive com uma imprescindível ajuda da Computação, tanto pela capacidade de processamento de enormes quantidades de dados, mas também pela necessidade de avançados Algoritmos indispensáveis na solução de alguns problemas.
Introdução Figura 1 – Elemento Regulatório
Objetivo O objetivo desta pesquisa é tentar identificar elementos regulatórios de genes humanos. Utilizando métodos computacionais podemos tentar predizer a localização exata de elementos regulatórios de genes humanos, o que representa um enorme avanço no entendimento da regulação gênica e facilita incrivelmente o trabalho de biólogos na anotação experimental dos elementos regulatórios. Os elementos regulatórios podem ser geralmente encontrados na região imediatamente anterior ao início de um gene, ou até nos primeiros pares de base do mesmo. A sequência de nucleotídeos nesta região será chamada de sequência promotora.
Objetivo Figura 2 – Definindo uma sequência promotora, onde serão procurados os elementos regulatórios.
Phylogenetic Footprinting Para conseguir encontrar estes elementos regulatórios esta pesquisa baseia-se em uma teoria chamada de Phylogenetic Footprinting, cuja tradução seria “impressão de pegadas filogenéticas”. Esta teoria considera que mutações em regiões funcionais de genes se acumulariam mais lentamente do que em regiões não-funcionais, pois estariam sob pressão evolutiva. Desta forma, elementos regulatórios evoluem a uma taxa mais baixa do que as demais sequências não-funcionais ao seu redor. Por isso, é esperado que elementos regulatórios estejam mais conservados nas sequências de DNA de espécies consideradas próximas na árvore de evolução filogenética.
Phylogenetic Footprinting Desta forma Phylogenetic Footprinting propõe um processo para se identificar possíveis elementos regulatórios, que baseia-se na comparação de sequências genômicas. Primeiro é necessário definir que genes ortólogos são genes similares em espécies distintas que descendem de um antecessor comum. Se um gene humano possui um gene ortólogo no chimpanzé, por exemplo, então é de se esperar que os elementos regulatórios destes genes estejam bem conservados em ambas as espécies. Assim podemos definir o processo em 2 etapas:
Phylogenetic Footprinting No primeiro passo é necessário identificar se o gene a ser estudado possui ortólogos nas espécies sendo consideradas. Então obtém-se as sequências promotoras de cada gene ortólogo. No segundo passo as sequências promotoras devem ser analisadas em busca de pequenas sub-sequências que estejam bem conservadas em todas elas. Estas sub-sequências bem conservadas são chamadas de motifs. Esses motifs representarão excelentes candidatos a elementos regulatórios.
Genômica Comparativa Para analisar as sequências promotoras e extrair delas os motifs, utiliza-se um algoritmo de alinhamento múltiplo. Após a obtenção dos motifs, será utilizado também um algoritmo de agrupamento para agrupar motifs semelhantes, que podem ser variações de um mesmo elemento regulatório. Os grupos obtidos são finalmente comparados a TFBS’s anotados na base de dados TRANSFAC, na última etapa desta pesquisa.
Algoritmo Aqui procuramos resumir a solução proposta nesta pesquisa em um simples algoritmo que resume cada etapa do processo, que serão uma por uma analisadas em detalhes em seguida. Entrada: • Lista de genes a serem analisados. Em todos os casos de estudo desta pesquisa teremos os 23516 genes humanos anotados no genoma humano no NCBI* e incluídos na base de dados HomoloGene*. • Conjunto de espécies a serem consideradas na comparação genômica proposta por Phylogenetic Footprinting. * NCBI e HomoloGene serão apresentados em detalhes posteriormente.
Algoritmo ALGORITMO: • Para cada gene na lista de entrada: • Pesquise em HomoloGene para identificar os genes ortólogos a este gene. • Se este gene possui ortólogos para todas as espécies consideradas no conjunto de espécies da entrada: • Para cada gene ortólogo: • Pesquise em Entrez Gene para obter a localizaçãodo gene na sequência genômica de sua espécie. • Pesquise em Entrez Nucleotide para obter a sequência promotora deste gene. • Compute o Alinhamento Múltiplo das sequências promotoras. • Extraia do alinhamento os motifs bem conservados. • Compute o agrupamento dos motifs. • Compare com a base de dados TRANSFAC.
Algoritmo Saída: • Lista de motifs encontrados, especificando sua localização exata no cromossomo e o gene que ele regula. • Lista dos Grupos, com os motifs de cada um deles. • Lista de casamentos relevantes encontrados com TFBS’s anotados no TRANSFAC.
Casos de Estudo • Humano / Chimpanzé / Camundongo / Rato • Humano / Chimpanzé / Camundongo / Rato / Cachorro • Humano / Chimpanzé / Camundongo / Rato / Galinha • Humano / Chimpanzé / Camundongo / Rato / Cachorro / Galinha • Humano / Chimpanzé / Camundongo / Rato / Mosca
Dados Biológicos • NCBI O National Center for Biotechnology Information (NCBI) é uma fonte de informação para biologia molecular que inclui a criação de bancos de dados públicos, condução de pesquisas em biologia computacional, desenvolvimento de ferramentas para analisar dados genômicos, e a disseminação de informações biomédicas. NCBI: http://www.ncbi.nlm.nih.gov/ Para manter a consistência de todas as informações e das relações entre elas, todos os dados biológicos requeridos para o desenvolvimento da solução desta pesquisa foram extraídos de bancos de dados do NCBI.
Dados Biológicos • HomoloGene – Genes Ortólogos Para identificação de genes ortólogos esta pesquisa utiliza o banco de dados chamado HomoloGene, um sistema de detecção automática de homólogos entre genes anotados em diversos genomas eucarióticos completamente sequenciados. HomoloGene: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=homologene Os conjuntos de espécies utilizados nesta pesquisa foram restringidos principalmente por essa base de dados, como pode ser visto na tabela na página inicial do HomoloGene (figura 4).
Dados Biológicos Exemplo de pesquisa no HomoloGene: Consideremos então o gene ING5, que tem a função de inibidor de crescimento, e possui um número de identificação no NCBI (id) igual a 84289. Se estivermos interessados em verificar se este gene possui ortólogos para por exemplo humano, chimpanzé, camundongo e rato, podemos pesquisá-lo no HomoloGene e obter essa infomação. Podemos verificar na Figura 5 que o ING5 possui sim ortólogos para as espécies consideradas nesse exemplo. Desta forma, obtemos do HomoloGene os id’s dos genes ortólogos e partimos para investigar cada um desses genes para obter suas sequências promotoras.
Dados Biológicos • Entrez Gene – Informação sobre os genes Entrez Gene é um banco de dados para busca de genes que contém diversas informações sobre eles, como tipo, nome, descrição, organismo, e muito mais. Entre Gene: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene Nesta pesquisa Entrez Gene será utilizado para identificação da localização de cada gene ortólogo, para que o posicionamento de sua sequência promotora seja estipulado.
Dados Biológicos Continuando o exemplo com ING5, a figura 7 mostra o resultado da busca deste gene no Entrez Gene, com todas as informações deste gene. A localização do gene é exibida na seção “Genomic Regions”, contendo o id de seu cromosomo (NC_000002.10) e a sua localização no mesmo, tendo início na posição 242290129 e terminando em 242317569.
Dados Biológicos • Entrez Nucleotide – Sequências Promotoras Como foi mostrado anteriormente, nesta pesquisa as sequências promotoras são definidas com sendo a partir de 1000 pares de base antes da posição de início do gene, até 200 pares de base após o início do gene. promoter_start = gene_start – 1000 promoter_end = gene_start + 200 Possuindo então o id do cromosomo e as posições de início e fim da sequência, basta realizar uma simples busca na base de dados Entrez Nucleotide para obter a sequência de nucleotídeos desejada.
Figura 8 - Entrez Nucleotide - contém sequências de nucleotídeos de diversos genomas.
Dados Biológicos Para exemplificar um busca no Entrez Nucleotide, vamos novamente considerar o gene ING5, o qual já sabemos está situado no cromosomo de id NC_000002.10 e possui posicição de início igual a 242290129. Desta forma sabemos que a sequência promotora se inicia na posição 242289129 e vai até 242290329. A figura 9 mostra o resultado da busca dessa sequência no Entrez Nucleotide, no formato FASTA.
Alinhamento Múltiplo Alinhamento Múltiplo de strings é um problema NP-Hard e por isso seu processamento pode demandar um quantidade de tempo a cima do aceitável. O algoritmo utilizado para realizar o alinhamento múltiplo consiste em uma extensão do alinhamento global dois a dois proposto por Needleman e Wunsch, que segue uma estratégia de programação dinâmica. Todos os pares de sequência são alinhados separadamente, uma matriz de distâncias é calculada e utilizada na montagem progressiva do alinhamento múltiplo.
Alinhamento Múltiplo Existem hoje diversas ferramentas computacionais para a computação de um alinhamento múltiplo, como por exemplo: CLUSTALW, MAVID, MLAGAN, DIALIGN, TBA e FootPrinter. A ferramenta escolhida para nos auxiliar nesta tarefa foi o CLUSTALW, por ser uma das mais famosas e mais comumente utilizadas. Além disso, CLUSTALW é uma versão de linha de comando de CLUSTALX para UNIX, e é totalmente integrada à biblioteca BioPython. Detalhes sobre programação virão posteriormente. CLUSTALW oferece uma alternativa para o alinhamento 2 a 2, permitindo que seja utilizada um heurística mais rápida porém menos precisa. Entretanto, nesta pesquisa esta alternativa não foi utilizada, sendo mantido o processo de programação dinâmica visando resultados de melhor qualidade.
Alinhamento Múltiplo • Identificação de Motifs Uma vez que foi processado o alinhamento múltiplo, é necessário extrair deles os motifs bem conservados. Seguindo várias referências na literatura científica, foi definido que procuraríamos motifs de tamanho 10. Requere-se então que uma sub-sequência de tamanho 10 possua um casamento perfeito entre todas as espécies em pelo menos 9 dos 10 nucleotídeos. Veja os exemplos a seguir.
Figura 13 – Sub-sequência com 9 casamentos perfeitos e 2 imperfeitos – não é um motif
Alinhamento Múltiplo Os motifs identificados são anotados e salvos em arquivo. As posições onde ocorre casamento imperfeito são completadas com gaps (-). A figura 14 mostra o arquivo contendo os motifs encontrados no estudo que incluia as espécies humano / chimpanzé / camundongo / rato / mosca. Para cada motif é indicado sua sequência, id do gene, espécie, id do cromosomo, posição de início do gene, posição de término do gene e posição de início do motif.
Alinhamento Múltiplo Figura 14 – Motifs encontrados no estudo humano/chimpanzé/camundongo/rato/mosca
Agrupamento • Introdução Uma vez terminada a estratégia de Phylogenetic Footprinting e tendo sido encontrados os motifs que representam excelentes candidatos a elementos regulatórios, agora nós passamos a analisar esses motifs. O objetivo de agrupar os motifs é poder juntar aqueles motifs que possuem alto grau de similaridade, pois estes podem ser variações de um mesmo elemento regulatório, ou serem alvo de um mesmo fator de transcrição, ou compartilhar alguma outra similaridade funcional. O método de agrupamento utilizado foi bem restritivo, de forma a manter um alto grau de similaridade entre os motifs de um mesmo grupo, mesmo que obtendo um grande número de grupos com apenas 1 elemento. Posteriormente serão levados em consideração apenas os grupos com mais de 1 motif, e estes serão comparados com TRANSFAC.
Agrupamento • Algoritmo K-Means O algoritmo de agrupamento utilizado foi o K-Means, um dos mais populares algoritmos iterativos de agrupamento. Este algoritmo é aleatório e baseia-se na heurística de Loyd. O número de grupos (K) deve ser definido previamente. Os motifs são designados aleatoriamente para os K grupos. Um vetor de expressão média (ou centróide) de cada grupo é computado. Cada motif é movido para o grupo mais próximo (do qual mais se assemelha ao centróide) e os centróides são recalculados. O processo se repete até que nenhum motif possa ser movido para outro grupo.
Agrupamento • Algoritmo K-Means Dependendo do posicionamento inicial que é aleatório, o K-Means pode converter para um mínimo local ou às vezes até não converter. Para evitar um loop infinito, a programação finaliza o processo quando detecta o mesmo agrupamento aparecendo novamente periodicamente. Além disso, para cada valor de K testado o algoritmo foi executado 3 vezes, com mudança na semente aleatória, e o melhor agrupamento foi escolhido, tentando assim fugir de mínimos locais. Na busca pelo melhor agrupamento, vários valores para o número de grupos K foram testados de acordo com a estratégia apresentada a seguir.
Agrupamento • Número “K” de grupos Para definir o número de grupos foram levadas em consideração duas ponderações. A primeira diz respeito ao fato de que estamos interessados em grupos com alta similaridade entre os seus elementos, mesmo que tenhamos muitos grupos unitários. Desta forma foi definido que seriam testados 100 valores diferentes de K entre 70% e 90% do número de motifs. Por exemplo, no estudo humano/chimpanzé/camundongo/rato/cachorro/galinha tínhamos 715 motifs. Testamos valores de K entre 500 e 642. No estudo incluindo humano/chimpanzé/camundongo/rato/mosca nós tínhamos apenas 13 motifs para agrupar, o que nos possibilitava testar todos os 13 diferentes valores de K sem problemas.
Agrupamento • Número “K” de grupos A segunda ponderação baseia-se num conceito estatístico que afirma o seguinte: • O índice W que buscamos minimizar, no nosso caso a soma das distâncias dos elementos dentro dos grupos (within-cluster sum of distances), vai diminuindo ao passo que aumentamos o número de grupos K. Para um número de grupos igual ao número de motifs, teremos W=0 e um motif em cada grupo. • Enquanto aumentamos o valor de K, a diminuição do valor de W torna-se cada vez mais lenta. Desta forma, o valor ideal de K pode ser determinado quando a variação do valor de W para valores diferentes de K se tornar menor que um determinado limite desejado. Veja o exemplo da tabela a seguir, com os valores de K e W computados para o estudo humano/chimpanzé/camundongo/rato/cachorro/galinha.
Agrupamento • Número “K” de grupos A estratégia adotada então foi verificar a variação do valor de W entre cada 5 agrupamentos consecutivos. Quando esta variação fosse menor que um determinado limite, o valor de K era escolhido. Este limite da variação era diferente de acordo com o número de motifs e grupos em cada estudo. Na tabela anterior o limite era de uma diferença de no máximo 100 unidades entre cada 5 agrupamentos. A tabela a seguir mostra a mesma análise para os 13 agrupamentos de humano/chimpanzé/camundongo/rato/mosca, porém neste caso o limite da variação de W foi imposto para cada 3 agrupamentos.
Agrupamento Desta forma o agrupamento foi computado, e para cada caso de estudo foi gravado em arquivo, contendo os motifs de cada grupo com todas as informações de cada um: a sequência do motif, o id do gene, a espécie, o id do cromosomo, a posição de início e fim do gene e a posição de início do motif. A figura a seguir mostra parte do arquivo com o agrupamento para o estudo humano/chimpanzé/camundongo/rato/cachorro/galinha, com as informações de alguns dos grupos.
TRANSFAC Figura 16 - TRANSFAC
TRANSFAC Os TFBS’s anotados em TRANSFAC serão usados para que possamos identificar motifs descobertos que são elementos regulatórios já conhecidos, determinar outros motifs que possam ter semelhanças a algum elemento regulatório conhecido, e também isolar motifs encontrados que podem ser elementos regulatórios novos, ainda não descobertos. Desta forma calculamos a sequência de consenso para cada grupo, e comparamos cada uma a todos os 1388 elementos regulatórios de humanos anotados no TRANSFAC, em busca de casamentos (matches) relevantes.
TRANSFAC • Sequência de Consenso de um Grupo Alinhados os motifs de um grupo, para cada coluna é assinalado um nucleotídeo se este estivesse presente naquela coluna em mais de 50% dos motifs e aparecesse um número de vezes maior ou igual a duas vezes todos os outros nucleotídeos somados. Se nenhum nucleotídeo cumprisse esse pré-requisito a coluna era completada com um gap(-). Veja um exemplo de um grupo do estudo humano/chimpanzé/camundongo/rato: CLUSTER 13576: CCAGACACT- 222545 H.sapiens NC_000006.10 117219941 117256891 117219310 AAAGAACAT- 93081 H.sapiens NC_000013.9 102216460 102224143 102216728 AAAGACACT- 51297 H.sapiens NC_000020.9 31287463 31294773 31287424 AAAGACACT => Sequência de Consenso do grupo 13576