380 likes | 590 Views
Bioinformática: fundamentos y aplicaciones de actualidad. Fundamentos de Biología Molecular Manuel Lemos Ramos Dpto. de Microbiología y Parasitología Universidade de Santiago de Compostela. Sequence 2587 BP; 822 A; 575 C; 499 G; 691 T; 0 other;
E N D
Bioinformática: fundamentos y aplicaciones de actualidad Fundamentos de Biología Molecular Manuel Lemos Ramos Dpto. de Microbiología y Parasitología Universidade de Santiago de Compostela
Sequence 2587 BP; 822 A; 575 C; 499 G; 691 T; 0 other; tatgtttttt ctgatagtgc acagattgtg tttacccaag cgaaatatgg tgacagcagc 60 ggcatccgtg gtgcagcttg gctaggtttg aactagcaga aagtgattaa agtcacaact 120 ttagtcatcg aaaaattaag taaagcaagt gttttacata ttaaattact gatatttaaa 180 acatacactc ctaattctat ttatatttca catcaacaca caaacacaaa tgatagtaat 240 taccatttag atccaatatc attgcgcaca gcttgaatct gttattgatg aataaggtaa 300 taactcagat gtacactaaa acactactat cagcctccat attgctagcg ctttcccctg 360 cagctctcgc agaagaagtt tctcgattcg atgaggttgt tgtttcggca acgcgaactt 420 ctcaagccat caaaaatacc gccgcttctg ttgctgtcat ttcgagcaaa gacattgaag 480 ccaatatggc aaaagatgtc gcagctatcc ttgaatatac ccctggagtt tcaaccaata 540 gctcatctcg ccaaggtgta cagaccatca atattcgcgg cgtagaaggt aatcgaatca 600 aaatcatggt tgatggagtc acacaaggac aagcattcga cggaggtcct tactcttttg 660 tcaattcgag cgctatcagt atcgatcccg atatggtaaa gagtgttgaa gtcatcaaag 720 gtgcggcgtc aagccttcac ggcagtgatg ccattggtgg tgtcgtcgct tttgacacca 780 aagatcctcg tgatttcctt aaaggagacg caaccacagg cggacaagca aagctttcct 840 actcttcaga agataaatct ttcagtgaac atattgccat tgcaaataga agtggcaatt 900 tagagacctt ggtcgcctat actcgccgtg atgggcaaga gcaacaaaat tttgccgatc 960 gtaaagaaga ttattcgata gagactcaag atagtgcaaa aaatgacttg ctacttaagc 1020 tccaatatca actgagcgat gctcaccgtt tggagttctt tggtgaagca ctgcataaca 1080 aaacagattc tgatatcgct cattccagtt acaaaaacta tcatggtcaa gatacaacga 1140 aacagtatcg ccttggcatc aaacacattt ggctagctga ctctgccatc gcagacacca 1200 tcactagccg agcatcttgg caaagcaaag aagataacgg cttaacgcac cgttttcagc 1260 cagcatcgtc aggaaggcct ccttacactc cagccaatgc ggacaaccaa caaaccaaag 1320 attacttcta taatgaagat aaaattgaat tagaaacgca actggataag ttagttacct 1380 taggtcaaac cgaacataac tttatttatg gtttaagttt tgccagtagc gatatttcaa 1440 ataccaatac agaactcaac tcggatcctg caacgccaaa tcaagttttg gtttatacac 1500 cggatgctac agaccaaaaa atcggcctct ttgttcaaga tgagatcacc cttttgagcg 1560 gtaatttgat tgtcacacca ggccttcgtt atgattcatt tagcaccgat cccggtggta 1620 gcaccacaga acctctcgtt aaatttgacg attcagcact caccagccgt cttggcgcac 1680 tgtaccgtat caataatcaa cattcagtat ttgctcaagt cagccaaggc ttccgtgccc 1740 ctaactttac tgagctgtac tacacgtatg acaacattgc tcaccgttat gtgaacgatc 1800 caaacccata ccttaagtca gaaacaagct tggcctatga attgggttat cgtcacaata 1860 caaacgtctc ggcaactgaa atttctgcat tttatagcga ctatgatgat ttcattgaac 1920 gagttacaac taagaaagtg aacggaataa cccactactc ctatgtcaac ttaagtgaag 1980 cgacgatcaa agggattgaa ttatcaaatc aattaaaatt ggatcaatta attggagccc 2040 cgaatggtat gtcaacacgc ctagcggcaa gttatagcaa aggtgaagat ggtaacggac 2100 gtccattgaa cagcgtaaac ccatggaatg ttgtcgcagc actaaattat gatgatgaaa 2160 gtaccacttg gggtactagc ctgaagttga attatactgc tgcgaagtca gccggtaata 2220 tcaaccgtga ccaacttaat agcggtacag aaaaccaagt tgaactgccg agtgcgacca 2280 ttgtcgatat caccgcttac tttaaaccaa tgcaagatgt cactattact gcgggcatat 2340 ttaacttaac cgacaaagag tactaccgtt ggaatgatat ccgcggtaaa acaaacttag 2400 ataacgacta ctctcaagct gagcgtaact atgctattac cgctaaatat gagttttagc 2460 gattaaacca ttattcacaa agccagcgtt atgctggctt tgttgttcca tgaactcctc 2520 aataaaaaag gctagataac tagccttttc ttacaatgtc caatgtatct tgagcgatta 2580 agattac 2587 Desoxi-riboNucleic Acid(DNA) Ácido Desoxi-riboNucleico (ADN)
La estructura del ADN • El monómero del ADN es un nucleótido. • Los nucleótidos están formados por un azúcar (desoxi-ribosa), una base nitrogenada y un grupo fosfato. • Los componentes del nucleótido están unidos por fuertes enlaces covalentes. • Las bases son purinas (Guanina y Adenina) y pirimidinas (Citosina y Timina). • La estructura del ADN está formada por 2 cadenas complementarias. • Las 2 cadenas están orientadas en direcciones opuestas, quedando en cada una un extremo 5’ y un extremo 3’. • La unión entre las 2 cadenas se realiza mediante enlaces de hidrógeno entre 2 bases (1 de cada cadena), formando un “par de bases”. • La adenina se une siempre a la timina mediante 2 enlaces. La guanina se une siempre a la citosina mediante 3 enlaces. • Los grupos hidroxilo libres del fosfato son los que dan una fuerte carga eléctrica negativa y el carácter ácido a la molécula • La molécula de ADN se enrrolla en la forma de una doble hélice. • Por cada 10 pares de bases, la molécula gira 360º. La estructura recuerda a una escalera de caracol.
La estructura del ADN • Distintas formas de representación del ADN La estructura del ADN
Genes y Genomas • Un gen es un fragmento de ADN que contiene la información necesaria (en forma de secuencia de bases) para codificar la síntesis de una proteína o un ARN. Podemos considerar a un gen como una unidad de información. • No todo el material genético de un organismo está organizado en genes. Existe ADN no codificante. En las células humanas solamente el 3% del ADN da lugar a la síntesis de proteínas • El genoma de un organismo es el conjunto de material genético que contienen sus células.
Tamaño de las moléculas de ADN • El virus más pequeño contiene poco más de 4.000 pares de bases. Una bacteria contiene como media 5.106 pares de bases (5.000 Kb o 5 Mb) (2 m de longitud). • Como norma general las bacterias contienen una sola molécula de ADN circular, mientras que las células eucarióticas (animales y vegetales) contienen varias moléculas de ADN lineal organizadas en cromosomas. • Una célula humana contiene 3.000 Mb distribuidas en 46 cromosomas. Cada cromosoma contiene una molécula lineal de ADN.
Organización del material genético • El material genético de las células eucarióticas se organiza en cromosomas. Cada uno está formado por una mólecula de ADN en doble hélice lineal asociado a proteínas básicas (histonas). • El material genético de las células procarióticas se organiza habitualmente en 1 sólo cromosoma que contiene una molécula de ADN circular. Mitosis Estructura del cromosoma
Estructura del ARN • El ARN (ácido ribonucleico) contiene ribosa en lugar de desoxi-ribosa. • Está formado por las mismas bases nitrogenadas, excepto la Timina que se sustituye por Uracilo. • El Uracilo es también complementario de la Adenina. • A diferencia del ADN está formado por una única cadena de nucleótidos. • La longitud de la cadena es mucho menor que en el ADN. • Se pueden formar enlaces entre bases complementarias dentro de la misma cadena, lo que origina estructuras tridimensionales complejas.
Replicación Transcripción Traducción ARN Proteínas Transcripción inversa (retrovirus) De los genes a las proteínas Dogma Central de la Biología Molecular Flujo de la información genética ADN
DNA pol ARN cebador Replicación del ADN • Catalizada por una ADN-polimerasa que añade nucleótidos al extremo 3’-OH de la cadena naciente. • La ADN-polimerasa necesita un cebador de ARN. • Los nucleótidos se añaden por emparejamiento complementario con las bases de la cadena molde. • Los sustratos, desoxi-ribonucleótido trifosfato (dNTP) se hidrolizan al añadirse, liberando energía para la síntesis del ADN. • Existen diversas proteínas que colaboran en la replicación.
Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing Transcripción • La síntesis del ARNm la realiza una ARN polimerasa en dirección 5’--> 3’. • Los ribonucleótidos se añaden por emparejamiento complementario con las bases de la cadena molde de ADN. • La presencia de Adenina en el ADN determina la adición de un Uracilo en el ARN.
La transcripción en procariotas • Los genes que codifican proteínas involucradas en la misma ruta metabólica suelen presentarse agrupados en el cromosoma, formando operones, lo que permite la expresión coordinada. • Una región reguladora adyacente al operón, determina su transcripción- es el “operador”. • Proteínas reguladoras funcionan con los operadores, para controlar la transcripción de los genes.
Propiedades de los promotores • Los Promotores son regiones de aprox. 40 bp localizados en el extremo -5' del punto de inicio de la transcripción. • Existen 2 elementos de secuencia consenso: • La “región -35”, con consenso TTGACA– (unión de la subunidad sigma?) • La “región -10” (Pribnow box ), con consenso TATAAT (región ideal para la apertura de la doble hebra).
Transcripción • Terminación asistida por factores proteicos (r) • Secuencias específicas: sitios de terminación en el DNA • Repeticiones invertidas (palíndromos), ricos en G:C, que forman una estructura de lazo en el RNA • 6-8 A en DNA, que producen U en el RNA Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing
Transcripción en eucariotas • La Cromatina limita el acceso de las proteínas reguladoras a los promotores. • Existen factores proteicos que deben reorganizar la cromatina. • Las RNA polimerasas I, II y III transcriben rRNA, mRNA y tRNA, respectivamente. • Las 3 polimerasas interaccionan con los promotores a través de los “factores de transcripción”. • La “TATA box” (TATAAA) es un promotor “consenso”. • Los factores de transcripción reconocen secuencias promotoras específicas e inician la transcripción (algunos factores se unen a secuencias específicas en la región codificante del gen). • Además de promotores, los genes eucariotas tienen “enhancers”, o “upstream activation sequences”. Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing
Estructura del gen eucariota • Los genes eucariotas están divididos en exones (se traducen a aminoácidos) e intrones (no codificantes). • Ejemplos: El gen de la actina tiene un intrón de 309-pb que separa los primeros 3 aminoácidos de los restantes 350. • El gen del colágeno pro-alpha-2 del pollo, mide 40-kb, con 51 exones que suman sólo 5 kb. • Los exones suelen medir entre 45 y 249 bases. • El mecanismo por el que se escinden los intrones y por el que se unen los exones, es complejo y muy preciso (“RNA- splicing”) Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing
Estructura del gen eucariota Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing
Traducción del mensaje genético • La información contenida en la secuencia de bases del ADN es trasladada o traducida a una secuencia de aminoácidos en una proteína, a través del ARN que actúa como intermediario Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing
Las proteínas Aminoácidos esenciales que forman las proteínas
Síntesis de proteínas Sequence 2587 BP; 822 A; 575 C; 499 G; 691 T; 0 other; tatgtttttt ctgatagtgc acagattgtg tttacccaag cgaaatatgg tgacagcagc 60 ggcatccgtg gtgcagcttg gctaggtttg aactagcaga aagtgattaa agtcacaact 120 ttagtcatcg aaaaattaag taaagcaagt gttttacata ttaaattact gatatttaaa 180 acatacactc ctaattctat ttatatttca catcaacaca caaacacaaa tgatagtaat 240 taccatttag atccaatatc attgcgcaca gcttgaatct gttattgatg aataaggtaa 300 taactcagat gtacactaaa acactactat cagcctccat attgctagcg ctttcccctg 360 cagctctcgc agaagaagtt tctcgattcg atgaggttgt tgtttcggca acgcgaactt 420 ctcaagccat caaaaatacc gccgcttctg ttgctgtcat ttcgagcaaa gacattgaag 480 ccaatatggc aaaagatgtc gcagctatcc ttgaatatac ccctggagtt tcaaccaata 540 gctcatctcg ccaaggtgta cagaccatca atattcgcgg cgtagaaggt aatcgaatca 600 aaatcatggt tgatggagtc acacaaggac aagcattcga cggaggtcct tactcttttg 660 tcaattcgag cgctatcagt atcgatcccg atatggtaaa gagtgttgaa gtcatcaaag 720 gtgcggcgtc aagccttcac ggcagtgatg ccattggtgg tgtcgtcgct tttgacacca 780 aagatcctcg tgatttcctt aaaggagacg caaccacagg cggacaagca aagctttcct 840 actcttcaga agataaatct ttcagtgaac atattgccat tgcaaataga agtggcaatt 900 tagagacctt ggtcgcctat actcgccgtg atgggcaaga gcaacaaaat tttgccgatc 960 gtaaagaaga ttattcgata gagactcaag atagtgcaaa aaatgacttg ctacttaagc 1020 tccaatatca actgagcgat gctcaccgtt tggagttctt tggtgaagca ctgcataaca 1080 aaacagattc tgatatcgct cattccagtt acaaaaacta tcatggtcaa gatacaacga 1140 aacagtatcg ccttggcatc aaacacattt ggctagctga ctctgccatc gcagacacca 1200 tcactagccg agcatcttgg caaagcaaag aagataacgg cttaacgcac cgttttcagc 1260 cagcatcgtc aggaaggcct ccttacactc cagccaatgc ggacaaccaa caaaccaaag 1320 attacttcta taatgaagat aaaattgaat tagaaacgca actggataag ttagttacct 1380 taggtcaaac cgaacataac tttatttatg gtttaagttt tgccagtagc gatatttcaa 1440 ataccaatac agaactcaac tcggatcctg caacgccaaa tcaagttttg gtttatacac 1500 cggatgctac agaccaaaaa atcggcctct ttgttcaaga tgagatcacc cttttgagcg 1560 gtaatttgat tgtcacacca ggccttcgtt atgattcatt tagcaccgat cccggtggta 1620 gcaccacaga acctctcgtt aaatttgacg attcagcact caccagccgt cttggcgcac 1680 tgtaccgtat caataatcaa cattcagtat ttgctcaagt cagccaaggc ttccgtgccc 1740 ctaactttac tgagctgtac tacacgtatg acaacattgc tcaccgttat gtgaacgatc 1800 caaacccata ccttaagtca gaaacaagct tggcctatga attgggttat cgtcacaata 1860 caaacgtctc ggcaactgaa atttctgcat tttatagcga ctatgatgat ttcattgaac 1920 gagttacaac taagaaagtg aacggaataa cccactactc ctatgtcaac ttaagtgaag 1980 cgacgatcaa agggattgaa ttatcaaatc aattaaaatt ggatcaatta attggagccc 2040 cgaatggtat gtcaacacgc ctagcggcaa gttatagcaa aggtgaagat ggtaacggac 2100 gtccattgaa cagcgtaaac ccatggaatg ttgtcgcagc actaaattat gatgatgaaa 2160 gtaccacttg gggtactagc ctgaagttga attatactgc tgcgaagtca gccggtaata 2220 tcaaccgtga ccaacttaat agcggtacag aaaaccaagt tgaactgccg agtgcgacca 2280 ttgtcgatat caccgcttac tttaaaccaa tgcaagatgt cactattact gcgggcatat 2340 ttaacttaac cgacaaagag tactaccgtt ggaatgatat ccgcggtaaa acaaacttag 2400 ataacgacta ctctcaagct gagcgtaact atgctattac cgctaaatat gagttttagc 2460 gattaaacca ttattcacaa agccagcgtt atgctggctt tgttgttcca tgaactcctc 2520 aataaaaaag gctagataac tagccttttc ttacaatgtc caatgtatct tgagcgatta 2580 agattac 2587
Síntesis de proteínas /product="HuvA protein" /protein_id="CAC28362.1" /db_xref="GI:12697532" /db_xref="GOA:Q9AJS1" /db_xref="SPTREMBL:Q9AJS1" /translation="MYTKTLLSASILLALSPAALAEEVSRFDEVVVSATRTSQAIKNT AASVAVISSKDIEANMAKDVAAILEYTPGVSTNSSSRQGVQTINIRGVEGNRIKIMVD GVTQGQAFDGGPYSFVNSSAISIDPDMVKSVEVIKGAASSLHGSDAIGGVVAFDTKDP RDFLKGDATTGGQAKLSYSSEDKSFSEHIAIANRSGNLETLVAYTRRDGQEQQNFADR KEDYSIETQDSAKNDLLLKLQYQLSDAHRLEFFGEALHNKTDSDIAHSSYKNYHGQDT TKQYRLGIKHIWLADSAIADTITSRASWQSKEDNGLTHRFQPASSGRPPYTPANADNQ QTKDYFYNEDKIELETQLDKLVTLGQTEHNFIYGLSFASSDISNTNTELNSDPATPNQ VLVYTPDATDQKIGLFVQDEITLLSGNLIVTPGLRYDSFSTDPGGSTTEPLVKFDDSA LTSRLGALYRINNQHSVFAQVSQGFRAPNFTELYYTYDNIAHRYVNDPNPYLKSETSL AYELGYRHNTNVSATEISAFYSDYDDFIERVTTKKVNGITHYSYVNLSEATIKGIELS NQLKLDQLIGAPNGMSTRLAASYSKGEDGNGRPLNSVNPWNVVAALNYDDESTTWGTS LKLNYTAAKSAGNINRDQLNSGTENQVELPSATIVDITAYFKPMQDVTITAGIFNLTD KEYYRWNDIRGKTNLDNDYSQAERNYAITAKYEF"
Síntesis de proteínas Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing • La síntesis transcurre desde el extremo N-terminal al extremo C-terminal. • Los ribosomas leen el ARNm en la dirección 5’--3’. • La traducción tiene lugar en polirribosomas o polisomas. Hay más de un ribosoma traduciendo cada ARNm simultáneamente. • La elongación de la cadena proteica tiene lugar por adición secuencial de aminoácidos al extremo C-terminal.
El código genético • Cada aminoácido está codificado por una secuencia de 3 nucleótidos en el ARNm llamada codón. • Las combinaciones de las 4 bases tomadas de 3 en 3 originan 64 posibles permutaciones. • Puesto que solamente existen 20 aminoácidos formando parte de las proteínas, el código es redundante: existen codones sinónimos. • Existe además un codón que marca el inicio de una proteína y 3 codones que marcan el fin.
Síntesis de proteínas Initiation
El código genético • N- ile leu phe arg val ile arg pro ... thr arg asn phe thr ... arg -C • 2 N- tyr phe ile ser ser asn ser thr leu asn ala lys leu his leu thr -C • 1 N- leu phe tyr phe glu ... phe asp leu lys arg glu thr ser leu asn -C pautas de lectura (ORF’s) sentido de lectura para la secuencia de la cadena superior 5’- TTATTTTATTTCGAGTAATTCGACCTTAAACGCGAAACTTCACTTAAC –3’ 3’- AATAAAATAAAGCTCATTAAGCTGGAATTTGCGCTTTGAAGTGAATTG –5’ DNA sentido de lectura para la secuencia de la cadena inferior -1 C- ... lys ile glu leu leu glu val lys phe ala phe ser ... lys val -N -2 C- ile lys asn arg thr ile arg gly ... val arg phe lys val ... arg -N -3 C- asn ... lys ser thr asn ser arg leu arg ser val glu ser leu ser -N pautas de lectura (ORF’s)
El código genético • N- ile leu phe arg val ile arg pro ... thr arg asn phe thr ... arg -C • 2 N- tyr phe ile ser ser asn ser thr leu asn ala lys leu his leu thr -C • 1 N- leu phe tyr phe glu ... phe asp leu lys arg glu thr ser leu asn -C pautas de lectura (ORF’s) sentido de lectura para la secuencia de la cadena superior 5’- TTATTTTATTTCGAGTAATTCGACCTTAAACGCGAAACTTCACTTAAC –3’ 3’- AATAAAATAAAGCTCATTAAGCTGGAATTTGCGCTTTGAAGTGAATTG –5’ DNA sentido de lectura para la secuencia de la cadena inferior -1 C- ... lys ile glu leu leu glu val lys phe ala phe ser ... lys val -N -2 C- ile lys asn arg thr ile arg gly ... val arg phe lys val ... arg -N -3 C- asn ... lys ser thr asn ser arg leu arg ser val glu ser leu ser -N pautas de lectura (ORF’s)
El código genético • N- ile leu phe arg val ile arg pro ... thr arg asn phe thr ... arg -C • 2 N- tyr phe ile ser ser asn ser thr leu asn ala lys leu his leu thr -C • 1 N- leu phe tyr phe glu ... phe asp leu lys arg glu thr ser leu asn -C pautas de lectura (ORF’s) sentido de lectura para la secuencia de la cadena superior 5’- TTATTTTATTTCGAGTAATTCGACCTTAAACGCGAAACTTCACTTAAC –3’ 3’- AATAAAATAAAGCTCATTAAGCTGGAATTTGCGCTTTGAAGTGAATTG –5’ DNA sentido de lectura para la secuencia de la cadena inferior -1 C- ... lys ile glu leu leu glu val lys phe ala phe ser ... lys val -N -2 C- ile lys asn arg thr ile arg gly ... val arg phe lys val ... arg -N -3 C- asn ... lys ser thr asn ser arg leu arg ser val glu ser leu ser -N pautas de lectura (ORF’s)
Variabilidad genética • Los SNPs o “polimorfismos de nucleótido único” son variaciones de la secuencia de bases de una región del genoma, que afectan a un único nucleótido. • Para ser considerado un SNP debe ocurrir en al menos un 1% de la población. • Los SNPs proporcionan el 90% de la variación genética humana y ocurren cada 100 o 300 bases a lo largo de todo el genoma (tanto en regiones codificantes como no codificantes). • 2 de cada 3 SNPs corresponden a la sustitución de C por T. • Una gran parte no tienen efecto alguno sobre las funciones celulares, pero algunos pueden producir alteraciones o cambios diversos.
Variabilidad genética: SNPs y Haplotipos • Un haplotipo es un bloque de ADN en un cromosoma que contiene un determinado número de SNPs. El haplotipo es el patrón de SNPs en ese bloque. • Cada haplotipo contiene SNPs característicos. • Mapa de Haplotipos (Hap Map): mapa de los haplotipos y los SNPs que los caracterizan. • Permitirá la identificación de genes y variaciones que a afectan a la salud humana.
Variabilidad genética • La variación de la secuencia de bases en un gen determinado puede cambiar la proteína codificada por ese gen.