590 likes | 705 Views
Introducción a la Bioinformática I Tom á s Arredondo Vidal 13/10/2008. Introducción a la Bioinformática. Esta charla trata de lo siguiente: Introducción a aspectos de la bioinformática Discusión acerca de algunas bases de datos y herramientas utilizadas en la bioinformática
E N D
Introducción a la Bioinformática ITomás Arredondo Vidal13/10/2008
Introducción a la Bioinformática • Esta charla trata de lo siguiente: • Introducción a aspectos de la bioinformática • Discusión acerca de algunas bases de datos y herramientas utilizadas en la bioinformática • Discusión sobre secuencias genéticas y algoritmos usados para su análisis
Introducción a la Bioinformática Bioinformática: Algunas áreas de Estudio • Genómica – Estudio, mapeo, y secuenciacion de genomas • Microarreglos – Arreglos experimentales para determinar el nivel de actividad o precencia de muchos genes en parallelo • Proteomica – Estudio, vusualizacion y quantificacion de las moleculas de proteinas presentes en tejidos u organismos • Estructurales – Simulacion y estudio de la estructura de proteinas
Introducción a la Bioinformática Motivación para los estudios Bioinformáticos: • Medicina: • Nuevas drogas, nuevas vacunas de ADN, terapias genéticas • Producción de medicinas usando bacterias y levaduras • Genómica: • Fuente de información para medicina preventiva, terapéutica, diagnóstico • Ingeniería de tejidos: • Métodos para generar piel, cartílago, huesos • Biomateriales, Nanotecnologia, Applicaciones Industriales y Químicas • De adonde partió el estudio de la Bioinformática?
g g c c g g g g g c g c g g g c g g g c t c g g c Introducción a la Bioinformática Motivación para los estudios Bioinformáticos: Diagnostico Genome Gene map Gene sequence Expression Diseases c t Alzheimers Cancer a t t Arthritis t t t a a t t CV Disease a a t MS a a t t t Obesity Vision a t t Arthritis
Introducción a la Bioinformática Motivación para los estudios Bioinformáticos: Producción de Vacunas
Introducción a la Bioinformática Virus: amigos y enemigos
Introducción a la Bioinformática Evolución Genetica • Gregor Mendel: • En 1865 el sacerdote Agustino Gregor Mendel hizo experimentos sobre híbridos de plantas (arvejas) basados en el fenotipo observable de ellas • Mendel, desarrolló los principios fundamentales de que hoy es la moderna ciencia de la genética • A través de la estadística de los resultados de sus cruces Mendel demostró que las características heredables son llevadas en unidades discretas que se heredan por separado en cada generación • Estas unidades discretas, que Mendel llamó elemente, se conocen hoy como genes
Introducción a la Bioinformática Evolución Genetica • Gregor Mendel hizo experimentos sobre híbridos de plantas (1866): • Así, Mendel aisló 7 pares de caracteres que eran razas puras: cada carácter estudiado se presentaba en dos variantes, tales como: altura de la planta (alta o baja), superficie de la semilla (lisa o rugosa), forma de la vaina (inflada o contraída), forma de la vaina y otras • En sus experimentos Mendel uso unas 28.000 plantas de arvejas • Las posibles codificaciones viables de ADN de un gen que ocupan una posición (locus) en el genoma de un organismo se denominan alelos
Introducción a la Bioinformática Evolución Genetica • Gregor Mendel hizo experimentos sobre híbridos de plantas (1866)...: • Los alelos de un gen son responsables de las diferentes expresiones de los genes (e.g. color de un pétalo) que es visto en el fenotipo del organismo • En un organismo diploide hay dos copias de cada cromosoma en cada célula (e.g. humanos 1013 celulas), por ende hay dos alelos para cada gen • En organismos diploides las celulas sexuales (e.g. gametos) son haploides (e.g. tienen una copia de cada cromosoma) y se juntan para formar un cigoto (e.g. zygote) que es la celula que se divide repetidamente para formar el embrión
Introducción a la Bioinformática Evolución Genetica • Conclusiones o Leyes de Mendel (1866): • Ley de uniformidad: El tipo hereditario de la prole no es intermedio entre los tipos de los padres, sino que en él predomina el de uno u otro. Si se cruzan dos variedades bien definidas de una misma especie, el descendiente híbrido mostrará las características distintivas de uno de los progenitores (característica dominante) • Ley de la segregación de los genes antagónicos: La característica del otro progenitor (recesiva) es latente y se manifestará en la siguiente generación resultante de cruzar a los híbridos entre sí. Tres cuartos muestran la característica dominante y un cuarto la recesiva • Ley de la recombinación de los genes: Cada una de las características puras de cada variedad (color, rugosidad de la piel, etc.) se transmiten a la siguiente generación de forma independiente entre sí, siguiendo las dos primeras leyes
Introducción a la Bioinformática Evolución Genetica • Conclusiones o Leyes de Mendel (1866): • En 1905 Bateson, Saunders y Punnett descubrieron la conexión genética a través de las cromosomas • Ellos determinaron que genes están localizados en cromosomas y que cada cromosoma es una unidad que se reproduce intactamente • Los genes ocupan posiciones (e.g. locus) en macromoléculas llamadas cromosomas • Esta idea fue modificada posteriormente por Thomas Hunt Morgan • Esto nos lleva al estudio de la células y la Genética...
Introducción a la Bioinformática Células • Función: • Las funciones biológicas de los organismos dependen de las células para la producción y regulación de compuestos necesarios para su funcionamiento • Los organismos se clasifican de acuerdo a sus características celulares: • Eukariotes (hongos, animales, plantas, humanos) • Prokariotes (bacterias) • Virus • Archaea (organismos similares a las bacteria que viven en ambientes extremos)
Introducción a la Bioinformática ADN • Watson y Crick • En 1953, James Watson y Francis Crick, descubrieron la estructura tridimensional del ácido desoxirribonucleico (ADN) al encontrar un modelo que explicaba todos los datos obtenidos hasta el momento • El ADN es un polímero (gr. poly - muchas, meros - partes) o sea una macro molecula de muchas componentes individuales • Es una cadena doble compuesta por fosfatos (PO4), azucar (desoxiribosa) y una base nitrogenada PO-4 | Azúcar - Base | PO-4 | Azúcar - Base | PO-4
Introducción a la Bioinformática ADN • En el modelo de Watson y Crick, el ADN es una doble hélice, con las bases dirigidas hacia el centro, perpendiculares al eje de la molécula y un esqueleto de azúcar-fosfato a lo largo de los lados de la hélice (que protege las bases del ambiente) • Las hebras que la conforman son complementarias y antiparalelas. Las bases de cada cadena se aparean de forma complementaria Adenina con Timina (A-T) y Guanina con Citosina (C-G) • Cada base tiene puentes de hidrógeno con su complementaria, uniendo así las dos cadenas
Introducción a la Bioinformática ADN y ARN • Estructura • Los ácidos nucleicos que se conocen son el ácido desoxirribonucleico (ADN) y el ácido ribonucleico (ARNA) • Ambos están compuestos por nucleótidos en formas monocatenarias (ARN) o de doble cadena (DNA) • Las bases nitrogenadas que componen los ácidos nucleicos son los compuestos que codifican la información genética en la molécula (el código genético: A, T, C, G) • Las bases nitrogenadas se clasifican en dos grandes familias: púricas y pirimidínicas
Introducción a la Bioinformática ADN y ARN • Estructura • Bases púricas: Adenina,Guanina • Bases pirimidínicas: Citosina, Timina, Uracilo • El ADN contiene adenina-guanina-citosina y timina que se emparejan en una doble hélice A-T y G-C • El ARN contiene Uracilo en vez de Timina • El ARN tiene diferentes nombres dependiendo de su funcion (e.g. ARNm: ARN mensajero, ARNt: ARN de transferencia, ... hay mas tipos de ARN) • El DNA y todas las formas bicatenarias (duplex) de los ácidos nucleícos se unen entre sí gracias a los enlaces de hidrógeno que se establecen entre sus bases • La Timina enlaza con la Adenina con dos enlaces y la Guanina y la citosina se unen entre sí por tres enlaces de hidrógeno
Introducción a la Bioinformática ADN y ARN Bases Enlaces
Introducción a la Bioinformática ADN • Estructura • En el ADN las azucares sucesivas se conectan a través del fosfato y una hebra tiene la orientación de 5' a 3' y la otra hebra (complementaria) de 3' a 5' (dado que la molécula de azúcar esta rotada) • PO-4 PO-4 • | | • 5' Azucar - C === G - Azucar 3' • 3' | | 5' • PO-4 PO-4 • | | • 5' Azucar - C === G - Azucar 3' • 3' | | 5' • PO-4 PO-4
Introducción a la Bioinformática ADN de Células: • Prokariotas • Organismos microscópicos • Su genoma es una molécula circular de ADN • Genoma es del orden de 0.6-8 Mpb (millones de pares de bases) • Densidad de genes es de aproximadamente un gen = 1000 pares de bases • Sus genes no son sobrepuestos (no overlap) • Sus genes son transcritos (copiados a ARNm) inmediatamente después de una región llamada promotor • Son continuamente codificantes (sin intrones)
Introducción a la Bioinformática ADN de Células: • Eukariotes • Organismos variados (plantas, animales, hongos,...) • Genoma consiste de múltiples pedazos contiguos de ADN típicamente denominados cromosomas • Genoma es del orden de 10-3000 Mpb (millones de pares de bases) • Densidad de genes es de aproximadamente un gen = 100000 pares bases • Genoma incluye muchas áreas no codificartes • Sus genes son transcritos (copiados a ARNm) después de una región llamada promotor pero elementos en la secuencia a gran distancia pueden tener gran efecto en el proceso • Genes pueden derivar en múltiples formas de ARNm y proteínas • Mas complejas!
Introducción a la Bioinformática • Dogma Central (Watson & Crick) • Transferencia general de la información • De ADN a ARN, de ARN a Proteína
Introducción a la Bioinformática • Dogma Central (Watson & Crick) • Transferencia general de la información • De ADN a ARN, de ARN a Proteína
Introducción a la Bioinformática Dogma Central (Watson & Crick)
Introducción a la Bioinformática ADN • Codigo Genetico: • Las funciones biológicas de los organismos dependen de las células para la producción y regulación de compuestos necesarios para su funcionamiento • Codones: tripletes de bases codificantes en aminoacidos • Comienzo: ATG (Met) • Termino: TAA, TAG, TGA • Exones: secciones codificantes (con genes) • Intrones: secciones entre medio de exones no codificantes • Sequencias Codificantes: • ORF: Open Reading Frame (de codon de comienzo a término) • CDS: Coding Sequence
Introducción a la Bioinformática ADN • Codigo Genetico: • La secuencia genética del ADN esta codificada en secuencias de nucleotidos (Adenosina, Timina, Citosina, Guanina) • El ARN substituye Timina (T) por Uracilo (U) • El ADN actúa como un molde en la replicación celular para producir mas ADN (mitosis) • El ADN también transmite la información necesaria para la reproducción celular (meiosis) • Los genes se organizan en cromosomas para la reproducción durante meiosis • En el caso de meiosis se intercambia material genético entre cromosomas homologas • La unidad de intercambio genético es el gen
Y C F S L W H R L P Q I N S T M K R D A V G E Introducción a la Bioinformática
Introducción a la Bioinformática ADN • Mitosis: • Watson y Crick formularon la hipótesis semiconservativa que fue posteriormente demostrada por Meselson y Stahl en 1957 • Según esta hipótesis, la nuevas moléculas de DNA duplexo contienen una hebra de material original y otra nueva
Introducción a la Bioinformática ADN • Meiosis: • Thomas Hunt Morgan en 1910 estudio en detalle la conexión genética con moscas de la fruta • El determino que los genes en los cromosomas tienen conexión parcial (partial linkage) al estudiar Meiosis • Esto ocurre porque las cromosomas homologas pueden intercambiar ADN durante la fase Prophase I • La frecuencia con la cual los genes son separados por cruces es directamente proporcional con su distancia en su cromosoma
Introducción a la Bioinformática Genes: Partial Linkage
Introducción a la Bioinformática Genomica • Vías Metabólicas • Vías metabólicas: reacciones elementales celulares que producen compuestos centrales para la sobrevivencia de la célula • Con el metabolismo se describen los mecanismos de las células para extraer y convertir la energía de los compuestos químicos y para construir las moléculas necesarias para la síntesis y regulación de los ácidos nucleicos, proteínas, membranas, y polisacáridos • El metabolismo es una red compleja de reacciones químicas dentro de los confines de la célula, y que puede ser analizado como conjuntos separados conocidos como vías metabólicas
Introducción a la Bioinformática Genomica • Fundamentos de las Vías Metabólicas • Reacciones químicas • Balance energético y termodinámica • La Integración celular (las células deben gastar mucha de su energía transportando substrato a través de las membranas biológicas) • Mecanismos regulatorios de las vías. Las vías pueden ser activadas o desactivadas. Modulación de la actividad enzimática (proteica), y disponibilidad de la enzima (expresión genética, control de translación)
Introducción a la Bioinformática Genomica • Vías Metabólicas • Hay dos áreas principales en la bioquímica del metabolismo: • Catabolismo: la degradación oxidativa de moléculas • Anabolismo: la síntesis reductiva de moléculas • Las vías, ya sean catabólicas o anabólicas, son interdependientes, controladas por las necesidades energéticas y las demandas estructurales del organismo • La célula controla cuales vías están activas y por cuanto tiempo
Introducción a la Bioinformática • Esta charla trata de lo siguiente: • Introducción a aspectos de la bioinformática • Discusión acerca de algunas bases de datos y herramientas utilizadas en la bioinformática • Discusión sobre secuencias genéticas y algoritmos usados para su análisis
Introducción a la Bioinformática Genomica • Bases de datos de nucleótidos • La bioinformática requiere encontrar e interpretar datos biológicos. • De nuestro interés son las bases de datos para nucleótidos, proteínas y vías metabólicas • Algunas bases de datos de nucleótidos incluyen: Genbank, NCBI LocusLink, TIGR, Ensembl • Genbank es la base de datos principal de nucleótidos y mantiene un registro histórico (primario) de todos las secuencias de nucleótidos que se han introducido en el • Se utiliza el Gene ID (e.g. X01714) para iniciar búsquedas en Genbank
Introducción a la Bioinformática Genomica • Bases de datos de proteínas • La principal base de datos de proteínas por la calidad de sus datos anotados es SWISS-PROT • Se utiliza el Primary Accession Number para identificar una secuencia que se quiere encontrar (e.g. P32861) • SWISS-PROT es un recurso de datos derivado (secundario) de la literatura y manualmente verificados • TrEMBL es una base de datos automáticamente anotada
Introducción a la Bioinformática Genomica • Bases de datos de Vías Metabólicas • Algunas recursos sobre vías metabólicas incluyen: KEGG, BRENDA, IUBMB, ECOCYC • KEGG (Kyoto Encyclopedia of Genes and Genomes) incluye una gran cantidad de vías metabólicas y es la mas importante a nivel mundial • En KEGG típicamente se utiliza el numero de la enzima (E.C. para comenzar una búsqueda) • BRENDA es un sistema de información enzimático • IUBMB es el sitio oficial de la Unión de Bioquímica y Biología Molecular • ECOCYC es la enciclopedia de genes y el metabolismo de E.Coli
Introducción a la Bioinformática Genomica Bases de datos de Vías Metabólicas: KEGG # [ LinkDB | KEGG ] # ENTRY EC 2.7.1.2 # NAME Glucokinase # CLASS Transferases Transferring phosphorus-containing groups Phosphotransferases with an alcohol group as acceptor # SYSNAME ATP:D-glucose 6-phosphotransferase # REACTION ATP + D-Glucose = ADP + D-Glucose 6-phosphate # SUBSTRATE ATP D-Glucose # PRODUCT ADP D-Glucose 6-phosphate # COMMENT A group of enzymes found in invertebrates and microorganisms highly specific for glucose. <...>
Introducción a la Bioinformática Genomica • Aplicaciones Para Comparar Secuencias • BLAST (Basic Local Alignment Search Tool) es la principal aplicación para comparar secuencias • Las principales versiones son BLASTP y TBLASTN • BLASTP compara la secuencia de una proteína con una base de datos de proteínas • TBLASTN comparar la secuencia de una proteína con una base de datos de nucleótidos
Introducción a la Bioinformática Genomica • Usos de BLAST • Para encontrar algo acerca de la función de mi proteína: usar BLASTP para comparar con otras proteínas en las bases de datos • Para descubrir nuevos genes que codifican a alguna proteína (o enzima): usar TBLASTN para comparar la proteína con secuencias de ADN traducidas en todas sus posibles ORFs
Introducción a la Bioinformática Genomica • Resultados de BLAST • Sequence Accesion Number • Description • Bit score – estima el significado del alineamiento (mientras mayor mejor) • E-value – estima el numero de veces que se pudiera encontrar un alineamiento tan bueno aleatoriamente (mientras menor mejor) • Alineamientos (%identidad, largo)
Introducción a la Bioinformática Genomica • Aplicaciones Para Comparar Secuencias Múltiples • También es deseable muchas veces hacer alineamientos múltiples. Hay muchas herramientas para esto. Entre ellas: CLUSTALW, TCOFFEE • Mas en el laboratorio!
Introducción a la Bioinformática Genomica • Evolución Genética • Todos los genes están relacionados (Zuckerkandl, Pauling 1960’s) • Los genes a veces evolucionan independientemente del organismo (formulado por R. Dawkins 1976) • Solamente unos pocos miles de familias de genes existen (C. Chothia, 1992, Nature 357)
Introducción a la Bioinformática Genomica • Análisis Filogenético: Definiciones • Genes Homólogos: Genes con un ancestro común • Genes Ortólogos: Homólogos separados por especiacion en el cual un ancestro común genera dos subgrupos que lentamente se separan para convertirse en nuevas especies • Genes Paralogs: Homólogos separados por un evento de duplicación. Una de las copias típicamente mantiene su función mientras que la otra tiene otra función pero relacionada • Genes Xenologs: Xenologs ocurren por la transferencia horizontal de una especie a otra. No hay historia del nuevo gen en el genoma que fue insertado
Introducción a la Bioinformática Búsqueda de secuencias/proteínas homologas:
Introducción a la Bioinformática Genomica Análisis filogenético: Ortólog y Paralog A Duplicación A B Especiación A1 B1 A2 B2