640 likes | 868 Views
Introducción a la Bioinformática II Tom á s Arredondo Vidal 29/9/2009. Introducción a la Bioinformática. Esta charla trata de lo siguiente: Introducción a bases de datos y herramientas utilizadas en la bioinformática. Introducción a la Bioinformática. ADN de Células:. Prokariotas
E N D
Introducción a la Bioinformática IITomás Arredondo Vidal29/9/2009
Introducción a la Bioinformática • Esta charla trata de lo siguiente: • Introducción a bases de datos y herramientas utilizadas en la bioinformática
Introducción a la Bioinformática ADN de Células: • Prokariotas • Organismos microscópicos • Su genoma es una molécula circular de ADN • Genoma es del orden de 0.6-8 Mpb (millones de pares de bases) • Densidad de genes es de aproximadamente un gen = 1000 pares de bases • Sus genes no son sobrepuestos (no overlap) • Sus genes son transcritos (copiados a ARNm) inmediatamente después de una región llamada promotor • Son continuamente codificantes (sin intrones)
Introducción a la Bioinformática ADN de Células: • Eukariotes • Organismos variados (plantas, animales, hongos,...) • Genoma consiste de múltiples pedazos contiguos de ADN típicamente denominados cromosomas • Genoma es del orden de 10-3000 Mpb (millones de pares de bases) • Densidad de genes es de aproximadamente un gen = 100000 pares bases • Genoma incluye muchas áreas no codificantes • Sus genes son transcritos (copiados a ARNm) después de una región llamada promotor pero elementos en la secuencia a gran distancia pueden tener gran efecto en el proceso • Genes pueden derivar en múltiples formas de ARNm y proteínas • Mas complejas!
Introducción a la Bioinformática • Dogma Central (Watson & Crick) • Transferencia general de la información • De ADN a ADN, de ADN a ARN, de ARN a Proteína
Replicación Transcripción Traducción Proteína Introducción a la Bioinformática Dogma Central (Watson & Crick)
Introducción a la Bioinformática Dogma Central (Watson & Crick)
Introducción a la Bioinformática • Dogma Central (Watson & Crick) • Transferencia general de la información • De ADN a ADN, de ADN a ARN, de ARN a Proteína
Introducción a la Bioinformática Documentación • PUBMED • El National Center for Biotechnology Information (NCBI) tiene muchos diferentes recursos disponibles para investigadores bioinformaticos en la web • NCBI crea bases de datos publicas, hace investigacion en biologia computacional, desarrolla herramientas para analizar datos genomicos (e.g. BLAST) y disemina la informacion para tener mejor entendimiento de los procesos moleculares que afectan las enfermedades y la salud humana • NCBI da acceso a PUBMED, mas de 200 revistas sobre biologia, medicina, bioinformatica • Ir a: www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Pmc
Introducción a la Bioinformática Genómica • NCBI • En Genomica NCBI trabaja en conjunto con el European Molecular Biology Laboratory (EMBL) y el DNA Data Bank of Japan • Sitio web de NCBI: http://www.ncbi.nlm.nih.gov/ • Bases de datos de NCBI: • http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi
Introducción a la Bioinformática Genómica • Bases de datos de nucleótidos • La bioinformática requiere encontrar e interpretar datos biológicos. De nuestro interés son las bases de datos para nucleótidos, proteínas y vías metabólicas • Algunas bases de datos o fuentes de nucleótidos incluyen: Genbank, NCBI LocusLink, TIGR, Ensembl, RefSeq y PDB • Entrez es una colección de bases de datos nucleótidos y mantiene un registro histórico (primario) de todos las secuencias de nucleótidos que se han introducido en Genbank, RefSeq y PDB • Entrez (4/2006) tiene sobre 130 mil millones de bases! • Se puede utilizar el Genbank ID (e.g. X01714), un gene id (e.g. gi41296) o el nombre de la proteína (dUTPase) para iniciar búsquedas en Genbank
Introducción a la Bioinformática Genómica • Significado de los campos: Entrez / Genbank • Locus: nombre de locus, tamaño de la secuencia (pb’s), el tipo de molecula (ADN, ARN), topologia (lineal o circular) • Definition: definición corta del gen que corresponde a la secuencia • Accession: lista el identificador único en las varias bases de datos (e.g. X01714) • Keywords: palabras claves • Source: el nombre común del organismo relevante al cual pertenece la secuencia • Organism: Identificación del organismo completo con la completa información taxonómica • Reference: Artículos en los que se determino la secuencia • Comments: Comentarios
Introducción a la Bioinformática Genómica • Significado de los campos: Entrez / Genbank • FEATURES: Área que incluye varias secciones • source: Origen de regiones especificas en la secuencia, se usa para distinguir vectores de clones de secuencias • promoter: muestra la ubicación precisa de un elemento promotor • misc feature: característica miscelánea, indica comienzo de trascripción • RBS (Ribosome Binding Site): lugar del ultimo elemento al principio de la cadena (upstream) • CDS: secuencia codificante (ORFs) • misc feature: indica elementos potencialmente reguladores • BASE COUNT: cuenta de las bases a, t, c, g • Secuencia: secuencia genética en líneas de 60 nucleótidos
Introducción a la Bioinformática Genómica • Bases de datos de nucleótidos: Entrez • Como seleccionar un record de una secuencia especifica en un • prokariote del gen dUTPase • Ir a Entrez: www.ncbi.nlm.nih.gov/entrez • Elegir del menu Search: Nucleotide • Escribir el identificador de Genbank / accession (X01714) • Seleccionar el link X01714 • Seleccionar Display → Fasta para el formato FASTA • Seleccionar Text para generar un archivo texto
Introducción a la Bioinformática Genómica • Bases de datos de nucleótidos: Entrez • Como seleccionar un record de una secuencia especifica, el • gen dUTPase en el ARN mithocondrial de un eukariote • Ir a Entrez: www.ncbi.nlm.nih.gov/entrez • Elegir del menu Search: Nucleotide • Escribir el identificador de Genbank / accession (U90223) • Seleccionar el link U90223 • Seleccionar Display → default para el formato FASTA • Seleccionar Text para generar un archivo texto
Introducción a la Bioinformática Genómica • Bases de datos de nucleótidos: Entrez • Como seleccionar un record de una secuencia especifica en un • eukariote del gen dUTPase en la secuencia genética (un • cromosoma) • Ir a Entrez: www.ncbi.nlm.nih.gov/entrez • Elegir del menu Search: Nucleotide • Escribir el identificador de Genbank / accession (AF018430) • Seleccionar el link AF018430 • Seleccionar Display → default para el formato FASTA • Seleccionar Text para generar un archivo texto • FASTA es un formato formato para seleccionar (copiar y pegar) • la secuencia de nucleótidos deseado.
Introducción a la Bioinformática Genómica • Bases de datos de nucleótidos: Entrez • Para hacer una búsqueda relacionada con una proteína • especifica (e.g. dUTPase) sin saber el número de accesión • Ir a Entrez: www.ncbi.nlm.nih.gov/entrez • Elegir del menu Search: Nucleotide • Escribir: human [organism] AND dUTPase [Protein name] y apretar Go • La búsqueda va a retornar varias selecciones: AH005568 es la • secuencia completa, el resto son exons y secuencias • de aminoácidos nuclear y mitocondrial • Seleccionar Link al lado del link AF018432 y seleccionar secuencias relacionadas • La selección retorna varios datos, algunos son secuencias de ARNm como el U90223
Introducción a la Bioinformática Genómica • Bases de datos de nucleótidos: Entrez • Para hacer una búsqueda relacionada con una proteína • especifica (e.g. dUTPase) sin saber el número de accesión • Ir a Entrez: www.ncbi.nlm.nih.gov/entrez • Elegir del menú Search: Nucleotide • Escribir: human [organism] AND dUTPase [Protein name] y apretar Go • La búsqueda va a retornar varias selecciones: AH005568, ... • algunas exones y otras son secuencias completas de • aminoácidos nuclear y mitocondrial • Seleccionar Link al lado del link AF018432 y seleccionar secuencias relacionadas • La selección retorna varios datos, algunos son secuencias de ARNm como el U90223
Introducción a la Bioinformática Genómica • Bases de datos de nucleótidos: Entrez • Para hacer una busqueda relacionada con una proteína • especifica (e.g. dUTPase) sin saber el número de accesión • Ir a Entrez: www.ncbi.nlm.nih.gov/entrez • Elegir del menú Search: Nucleotide • Escribir: human [organism] AND dUTPase [Title] y apretar Go • La búsqueda va a retornar mas de 190 selecciones de GenBank • pero muchas son secuencias parciales de ARNm llamadas • ESTs (Expressed Sequence Tags) • Para eliminar estos ESTs: • Seleccionar Limits link (abajo de ventana Search) • Seleccionar Exclude ESTs • Ir a la parte de arriba y seleccionar Go
Introducción a la Bioinformática Genómica • Bases de datos de genes: LocusLink/Entrez Gene • Para hacer una búsqueda relacionada con un locus (ubicación) • de un gen en una cromosoma (no solo instancias de secuencias • relacionados a un gen) • Ir a Genbank Entrez Gene: http://www.ncbi.nih.gov/entrez/query.fcgi?db=gene • En el For escribir: DUT (nombre del gen) y apretar Go • Ir a SNP Gene View: • La búsqueda va a retornar el LocusID de tres organismos con • este gen (dUTPase)
Introducción a la Bioinformática Genómica • Significado de los campos: Entrez Gene • La búsqueda en Entrez Gene va a retornar la siguiente • información (e.g. DUT), incluyendo su ubicación • Official Symbol: DUT and Name: dUTP pyrophosphatase [Homo sapiens] • Other Aliases: HGNC:3078, dUTPase • Other Designations: dUTP nucleotidohydrolase; deoxyuridine 5'-triphosphate nucleotidohydrolase; deoxyuridine triphosphatase • Chromosome: 15; Location: 15q15-q21.1 • GeneID: 1854
Introducción a la Bioinformática Genómica • Bases de datos de genes • Para trabajar con genomas completos virales: • Ir a Entrez: www.ncbi.nlm.nih.gov/entrez/. • Elegir en la barra arriba del menú: Genome • Hacer click en el link: Viruses • Escribir en la ventana de búsqueda: HIV2 • Seleccionar • La barra azul simboliza el genoma del virus, se puede seleccionar para ver la región de interés • Se puede seleccionar la sección Coding para ver una lista de proteínas, esta a la vez se puede guardar (Save) en varios formatos incluyendo Fasta
Introducción a la Bioinformática Genómica • Bases de datos de genes • Para trabajar con genomas completos bacteriales: • Ir a Entrez: www.ncbi.nlm.nih.gov/entrez/. • Elegir en la barra arriba del menú: Genome • Hacer click en el link Related resources: Microbial • Se puede seleccionar el genoma para una bacteria de interés • Se puede seleccionar bajo Genbank para ver la secuencia
Introducción a la Bioinformática Genómica • Proyecto del Genoma Humano • Para trabajar con el genoma humano: • Ir a: http://www.ncbi.nlm.nih.gov/genome/guide/ • Para buscar genes: • Ir a: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Gene • Ver sample searches : human muscular dystrophy • Para ver homologias entre varios organismos y el genoma humano: • Ir a: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=homologene • Seleccionar Tax Plot: Homo sapiens, mus musculus and rattus norvegicus • Plot It!
Introducción a la Bioinformática Genómica • Bases de datos de genes eukariotes: Ensembl • Ensembl incluye el genoma de eukariotes como el ratón, • humano, mosquito y mas: • Ir a Ensemble: www.ensembl.org/. • Elegir botón: Homo sapiens • Elegir cromosoma 15, al medio de q21.1 • Se puede ver el gen DUT • Otras cosas de interés son el mapa del sitio (Site Map) y el tour • del sitio (Ensembl Tour) • Ensemble también incluye información acerca de los genes • como por ejemplo las enfermedades que han sido relacionados • a el. Elegir data mining de la pagina principal. Otro sitio de • interés es el buscados de genomas de USC: • Ir a : genome.cse.ucsc.edu/. • Ir a genomes, buscar: U90223 (dUTPase)
Introducción a la Bioinformática Proteómica • Bases de datos de proteínas • Secuenciar genomas es mas fácil que secuenciar proteínas de aminoácidos directamente • La mayoría de las secuencias de aminoácidos conocidas se ha obtenido indirectamente a través del análisis de secuencia genómicas • La proteómica o el estudio de la visualización y análisis de las moléculas de proteínas en organismos nos indican que las proteínas reales no actúan como se esperaría de una simple traducción de ORFs de nucleótidos • La razón es que cuando se traduce la cadena de aminoácidos puede ser muy modificada antes de convertirse en la proteína final • Esto se denomina maduración de la proteína
Introducción a la Bioinformática Proteómica • Bases de datos de proteínas • Algunos etapas en la maduración (modificaciones de post- • traducción) de las proteínas incluyen: • Cortes en la cadena de aminoácidos • Eliminación de fragmentos en la cadena de aminoácidos • Modificación química de aminoácidos especificas • Suma de moléculas de lípidos • Suma de moléculas glicosidicas (de azúcar) • Un rol fundamentar para una base de datos de proteínas • es mostrar esta información cuando esta disponible por • experimentos (e.g. 2D gel electrofóresis) o se predice • por técnicas computacionales
Introducción a la Bioinformática Proteómica • Bases de datos de proteínas • Para que la proteína haga su función correcto dentro de la célula es necesario que llegue a su ubicación correcta en el organismo o en la célula. Esto requiere que durante su traducción la cadena sea expuesta a señales especificas que célula utiliza para dirigir la proteína a su ubicación especifica atravesando membranas en su ruta • Algunos destinos finales de las proteínas incluyen: • Membrana celular • Afuera de la célula • Transportado al periplasma (para bacterias) • Transportado al mitocondria o otro organello • Transportado al núcleo celular • Saber el destino final de la proteína es importante para saber su funcionamiento y este tipo de información se incluye bases de datos de proteínas
Introducción a la Bioinformática Proteómica • Bases de datos de proteínas • Factores adicionales para determinar el funcionamiento de la proteína son sus folds (vueltas) • Típicamente estos se determinan a través de la hidrofobicidad, acoplamiento (docking) de los aminoácidos, cargas electrostáticas • La cadena péptica se convierte en una proteína en 3D funcional y estable a través de esta vueltas • La estructura final depende de subdominios (o formas) de aminoácidos que funcionan como bloques lego • La naturaleza organiza estos bloques para producir la inmensa variedad de proteínas existentes • La mayoría de las proteínas naturales están hechas de combinaciones de una a 10 dominios elegidos de varios miles • Estos dominios se identifican por características bases (signaturas) de aminoácidos, estas secuencias conservadas que generan dominios se denominan motifs
Introducción a la Bioinformática Proteómica 1A5P:_ RIBONUCLEASE A KETAAAKFER QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT QANKHIIVAC EGNPYVPVHF DASV KETAAAKFER QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT QANKHIIVAC EGNPYVPVHF DASV
Y C F S L W H R L P Q I N S T M K R D A V G E Introducción a la Bioinformática
Introducción a la Bioinformática Proteómica • Bases de datos de proteínas: SWISS-PROT • La principal base de datos de proteínas por la calidad de sus datos anotados es SWISS-PROT • Se utiliza el Primary Accession Number (identificador de la proteína) para identificar una secuencia que se quiere encontrar (e.g. P32861) • SWISS-PROT es un recurso de datos derivado (secundario) de la literatura y manualmente verificados • TrEMBL es una base de datos automáticamente anotada
Introducción a la Bioinformática Proteómica • Bases de datos de proteínas: SWISS-PROT • Como ejemplo vamos a ver la proteína denominada EGF • receptor: • Ir a SWISS-PROT: www.expasy.ch/sprot/. • Escribir en la ventana Search: P00533 • Go!
Introducción a la Bioinformática Proteómica • Significado de los Campos: SWISS-PROT • La búsqueda en SWISS-PROT va a retornar varios campos: • Entry Name: identificador que indica que tipo de registro se retorno en la búsqueda, no es necesariamente estable (puede cambiar) • Primary Accession Number: identificador único y estable de la secuencia, este numero tiene que ser usado como referencia del trabajo (e.g. P00533) • Secondary Accession Numbers: identificadores antiguos relacionados con esta secuencia • Fecha inicial • Sequence was last modified in: Fecha ultima modificación • Annotations were last modified in: últimos cambios a este registro
Introducción a la Bioinformática Proteómica • Significado de los Campos: SWISS-PROT • Otros campos retornados: • Protein name: información descriptiva de la secuencia • Synonyms: el nombre y numero de la reacción bioquímica que esta proteína (enzima) ejecuta • Gene name: nombre del gen relacionado • From: origen de la proteína • Taxonomy: clasificación taxonómica del organismo origen de la proteína • Comments: sección con información de utilidad que no pertenece a otra de las secciones • Cross-References: sección con enlaces a otras bases de datos que contienen información acerca de esta proteína • Keywords: palabras claves en este registro • Features: sección que mapea la información de la proteína a su secuencia
Introducción a la Bioinformática Genomica • Bases de datos de Vías Metabólicas • Algunas recursos sobre vías metabólicas incluyen: KEGG, BRENDA, IUBMB, ECOCYC • KEGG (Kyoto Encyclopedia of Genes and Genomes) incluye una gran cantidad de vías metabólicas y es la mas importante a nivel mundial • En KEGG típicamente se utiliza el numero de la enzima (E.C. para comenzar una búsqueda) • BRENDA es un sistema de información enzimático • IUBMB es el sitio oficial de la Unión de Bioquímica y Biología Molecular • ECOCYC es la enciclopedia de genes y el metabolismo de E.Coli
Introducción a la Bioinformática Vías Metabólicas • Bases de datos de Vías Metabólicas • Típicamente se utiliza el nombre de la via (e.g. Xenobiotics/DDT, 2,4-DICHOLOROBENZOATE DEGRADATION) • KEGG: • www.genome.ad.jp/kegg • Expasy: • www.expasy.ch/cgi-bin/search-biochem-index • Brenda: • www.brenda.uni-koeln.de/ • La IUMBM tiene informacion sobre nombres de enzimas: • www.chem.qmw.ac.uk/iubmb/ • ECOCYC: • www.ecocyc.org
Introducción a la Bioinformática Vías Metabólicas Bases de datos de Vías Metabólicas: KEGG # [ LinkDB | KEGG ] # ENTRY EC 2.7.1.2 # NAME Glucokinase # CLASS Transferases Transferring phosphorus-containing groups Phosphotransferases with an alcohol group as acceptor # SYSNAME ATP:D-glucose 6-phosphotransferase # REACTION ATP + D-Glucose = ADP + D-Glucose 6-phosphate # SUBSTRATE ATP D-Glucose # PRODUCT ADP D-Glucose 6-phosphate # COMMENT A group of enzymes found in invertebrates and microorganisms highly specific for glucose. <...>
Introducción a la Bioinformática Vías Metabólicas • Aplicaciones Para Comparar Secuencias • BLAST (Basic Local Alignment Search Tool) es la principal aplicación para comparar secuencias • Las principales versiones son BLASTP y TBLASTN • BLASTP compara la secuencia de una proteína con una base de datos de proteínas • TBLASTN comparar la secuencia de una proteína con una base de datos de nucleótidos
Introducción a la Bioinformática Herramientas Bioinformáticas • Usos de BLAST • Para encontrar algo acerca de la función de mi proteína: usar BLASTP para comparar con otras proteínas en las bases de datos • Para descubrir nuevos genes que codifican a alguna proteína (o enzima): usar TBLASTN para comparar la proteína con secuencias de ADN traducidas en todas sus posibles ORFs
Introducción a la Bioinformática Herramientas Bioinformáticas • BLASTP: Protein to Protein BLAST • Como ejemplo vamos a usar el servidor NCBI BLAST • para encontrar proteínas similares al nucleolin del • hamster en la base de datos SWISS-PROT: • Ir a BLAST: www.ncbi.nih.gov/BLAST • Elegir Standard protein-protein BLAST • Insertar proteina a comparar: puede ser usando el numero de accesion (P09405) o insertando la secuencia en formato FASTA • Choose database: swissprot • Deseleccionar CD Search (dominios conservados muy tipicos como Zn Fingers) • Apretar BLAST! • Seleccionar Format! que abre una ventana nueva • Guardar los resultados (Save Picture As)
Introducción a la Bioinformática Herramientas Bioinformáticas • Resultados de BLAST • Parte grafica: muestra donde nuestra secuencia es similar a las otras secuencias • Hit list: nombre de secuencias similares a la nuestra • Alignments: los alineamientos entre nuestra secuencia y las secuencias similares • Parametros: parametros usados
Introducción a la Bioinformática Herramientas Bioinformáticas • Resultados de BLAST • Sequence Accesion Number • Description • Bit score – estima el significado del alineamiento (mientras mayor mejor) • E-value – estima el numero de veces que se pudiera encontrar un alineamiento tan bueno aleatoriamente (mientras menor mejor) • Alineamientos (%identidad, largo)
Introducción a la Bioinformática Herramientas Bioinformáticas • Otros tipos de BLAST • BLASTP compara una secuencia de aminoácidos contra una base de datos de secuencias de proteínas • BLASTN compara una secuencia de nucleótidos contra una base de datos de nucleótidos • BLASTX toma una secuencia de nucleótidos y la traduce en los seis posibles RFs para comparar con una base de datos de secuencias de proteínas • TBLASTN compara una secuencia de aminoácidos contra una base de datos de nucleótidos, traduciendo la secuencia de aminoácidos a todos sus posibles RFs • TBLASTX compara una secuencia de aminoácidos contra una base de datos de nucleótidos, traduciendo la secuencia de aminoacidos y la base de datos a todos sus posibles RFs
Introducción a la Bioinformática Herramientas Bioinformáticas • Aplicaciones Para Comparar Secuencias Múltiples • Alineamientos múltiples se utilizan para comparar secuencias homologas (ancestro comun) • Se alinean aminoácidos o nucleótidos en la misma columna por que son homólogos de acuerdo a algún criterio • Los criterios principales son: • similitud estructural • similitud evolucionaría • similitud funcional • similitud secuencial • Los programas automáticos típicamente usan el criterio de similitud secuencial porque es el mas fácil de implementar. Cuando las secuencias son similares todos los criterios son equivalentes
Introducción a la Bioinformática Herramientas Bioinformáticas • Aplicaciones Para Comparar Secuencias Múltiples • Una comparación de múltiples secuencias nos permite: • Extrapolar: determinar que una secuencia realmente es parte de una familia de proteinas o dominio • Analisis filogenetico: con una seleccion cuidadose se puede reconstruir la historia evolucionaria de las proteinas • Identificacion de patrones: al descubrir una region conservada se puede identificar una region que es caracteristica de una funcion (motif) en secuencias nucleicas o de aminoacidos • Elementos reguladores de ADN: se puede encontrar sitios de binding • Prediccion de estructura: ayuda a generar predicciones de la estructura 3D de la proteina • Analisis PCR: identificar porciones menos degeneradas de la familia de proteinas
Introducción a la Bioinformática Herramientas Bioinformáticas Aplicaciones Para Comparar Secuencias Múltiples Este análisis nos permite ver las fuerzas que moldean la evolución: Aminoácidos (o nucleótidos) importantes no cambian (mutan)... Porque? Los menos importantes cambian mas fácilmente, a veces aleatoriamente, y a veces para adaptarse a una función