1 / 68

TEMA 6

TEMA 6. MÉTODOS TEÓRICOS DE ESTUDIO DE MACROMOLÉCULAS. Características sistemas biológicos (p.v. Teoría). Reacciones y procesos biológicos son en general sencillos Problemas en su representación: Descripción solo parcial del conjunto de procesos bioquímicos en la célula

ania
Download Presentation

TEMA 6

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TEMA 6 MÉTODOS TEÓRICOS DE ESTUDIO DE MACROMOLÉCULAS

  2. Características sistemas biológicos (p.v. Teoría) • Reacciones y procesos biológicos son en general sencillos • Problemas en su representación: • Descripción solo parcial del conjunto de procesos bioquímicos en la célula • Dificultad por el enorme tamaño de las macromoléculas biológicas • Ignoramos en detalle la naturaleza del entorno “fisiológico”.

  3. Métodos estudio estructural de sistemas bioquímicos • Métodos estadísticos. • Emplean criterios de comparación. Del análisis de bases de datos derivan reglas de conocimiento que luego aplican al sistema desconocido • Métodos físicos o microscópicos. • Emplean principios básicos de la física y química.

  4. Métodosestadísticos

  5. Métodos estadísticos (1) • Predicción de perfiles de hidrofobicidad, sitios de glicosilación, determinantes antigénicos y otras propiedades primarias derivadas de secuencia. • Predicción de funcionalidad por similitud de secuencia. • Predicción estructura secundaria (RNA, proteínas,...) • Predicción de fragmentos transmembrana. • Predicción de dominios estructurales Ver por ejemplo http://www.expasy.ch

  6. Métodos estadísticos (2) • Predicción de estructura 3-D por homología • Predicción de estructura 3-D por “threading” • Predicción “ab initio” a partir de potenciales estadísticos • Predicción e identificación de centros activos y lugares de unión. Ver por ejemplo http://www.expasy.ch

  7. 1. Predicción propiedades primarias • En muchos casos basados en composición aminoacídica: • Masa molecular, pI, coeficiente extinción, curvas de titración • Perfiles hidrofóbicos. • Regiones de glicosilación, determiantes antigénicos, sensibilidad a degradación proteolítica.

  8. 2. Predicción funcionalidad por similitud de secuencia • Métodos basados en similitud general • BLAST, FASTA,... • Métodos basados en existencia de secuencias cortas características • PROSITE

  9. Ejemplooutput PROSITE-search contra swissprot ScanProsite Scan Swiss-Prot with a PROSITE pattern Swiss-Prot Release 41.22 of 29-Aug-2003: 133723 entries PDOC00965PS01253FIBRONECTIN_1 Type I fibronectin domain.Pattern: C-x(6,8)-[LFY]-x(5)-[FYW]-x-[RK]-x(8,10)-C-x-C-x(6,9)-CApproximate number of expected random pattern matches in Swiss-Prot release 41.0 (122564 sequences): 0.18 [Ref: PMID 11535175] >P98140 (FA12_BOVIN) Coagulation factor XII precursor (EC 3.4.21.38) (Hageman factor) (HAF) (Fragment) [Bos taurus (Bovine)] (593 AA). 125 - 160 CfepqffrfFheneiWhRlepagvvk..CqCkgpnaq...C

  10. Ejemplo input BLAST Accession number or sequence Enter a Swiss-Prot/TrEMBL accession number or a PROTEIN sequence in RAW format. Secuencia de la proteína problema

  11. Ejemplo output BLAST Query length: 61 AA Date run: 2003-09-08 17:20:12 UTC+0100 on sib-blast.unil.ch Program: NCBI BLASTP 2.2.5 [Nov-16-2002] Database: XXtremblnew; XXtrembl; XXswissprot 1,249,251 sequences; 402,609,643 total letters Swiss-Prot Release 41.22 of 29-Aug-2003 TrEMBL Release 24.10 of 29-Aug-2003 TrEMBL_new of 29-Aug-2003 List of potentially matching sequences Send selected sequences to Include query sequence Db AC Description Score E-value tr Q8XMW7 Hypothetical protein CPE0571 [CPE0571] [Clostridium pe... 142 5e-34 Q8EMU9 Hypothetical conserved protein [OB2741] [Oceanobacillu... 74 2e-13 (...) Listado de proteínas con similitud

  12. Distribution of 63 Blast Hits on the Query Sequence Taxonomy reports Ejemplo alineamientos after Blast

  13. Ejemplo alineamiento en PsiBlast servidor http://www.ncbi.nlm.nih.gov/blast/ >gi|18309553|ref|NP_561487.1| conserved hypothetical protein [Clostridium perfringens] gi|18144230|dbj|BAB80277.1| conserved hypothetical protein [Clostridium perfringens str. 13] Length = 135 Score = 113 bits (283), Expect = 7e-25 Identities = 59/61 (96%), Positives = 59/61 (96%), Gaps = 1/61 (1%) Query: 1 MNNFFKHTLETHTAAQSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV 60 MNNFFKHTLETHT QSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV Sbjct: 1MNNFFKHTLETHT-PQSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV59 Query: 61 V 61 V Sbjct: 60 V 60

  14. 2. Predicción estructura secundaria • Se puede predecir cantidad total de estructura secundaria • Métodos basados en existencia de secuencias cortas características • PROSITE

  15. AGADIR - An algorithm to predict the helical content of peptides • BCM PSSP - Baylor College of Medicine • Prof - Cascaded Multiple Classifiers for Secondary Structure Prediction • GOR I (Garnier et al, 1978) [At PBIL or at SBDS] • GOR II (Gibrat et al, 1987) • GOR IV (Garnier et al, 1996) • HNN - Hierarchical Neural Network method (Guermeur, 1997) • Jpred - A consensus method for protein secondary structure prediction at University of Dundee • nnPredict - University of California at San Francisco (UCSF) • PredictProtein - PHDsec, PHDacc, PHDhtm, PHDtopology, PHDthreader, MaxHom, EvalSec from Columbia University • PSA - BioMolecular Engineering Research Center (BMERC) / Boston • PSIpred - Various protein structure prediction methods at Brunel University • SOPM (Geourjon and Deléage, 1994) • SOPMA (Geourjon and Deléage, 1995) Ejemplo de programas predicción estructura secundaria http://www.expasy.ch

  16. Métodos predicción estructura secundaria • Definen un número limitado de estructuras secundarias de referencia (hélice, giro, cadena típicamente). • Analizan la base de datos de estructura calculando las veces en que cada tipo de residuo se encuentra en una estructura secundaria. • De los datos de distribución derivan propensiones • Con estas propensiones predicen Est. Sec. De proteínas problema.

  17. Ejemplo de output de un programa de predicción Estructura secundaria MODEL F C 0.945 F C 0.589 K E 0.793 H E 0.861 T E 0.871 L E 0.885 E E 0.825 T E 0.648 H C 0.630 T C 0.832 A C 0.844 A C 0.800 (....)

  18. Método de Chou-Fasman • Tres tipos de E.secundaria: a, b, turn. • Se estudia la base de datos se mira cada residuo en que E.secundaria está • Se calculan probabilidades • Se derivan propensiones “tendencia intrínseca de un residuo” a pertenecer a una E.secundaria data • Se promedian las P obtenidas en ventanas de 5 o 6 residuos para derivar estructura del fragmento

  19. Propensiones Chou-Fasman Biochemistry 17, 4277 1978 Favor a Favor b Favor turn

  20. Reglas Chou-Fasman(resumidas) • Cada secuencia con 6 o mas residuos y <P(a)> 1,03 y <P(a)>  <P(b)> y que no tengan Pro son hélices a. • Fragmentos de 5 residuos o más con <P(b)> 1,05 y <P(b)>  <P(a)> será hoja beta • Tetrapéptidos con <P(a)> < 0.9 y <P(turn)> > <P(a)> son posiblemente giros. Las reglas reales son más complejas

  21. Métodos predicción fragmentos transmembranas • Emplean datos de homología con estructuras transmembranas conocidas • Emplean datos de predicción de estructura secundaria • Emplean perfiles de hidrofobicidad. • Emplean datos sobre la necesidad de existencia de hélice anfipáticas y otras señales más difusas

  22. Por ejemplo, si ejecutamos Sosui sobre esta secuencia (Rodopsina) MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA http://sosui.proteome.bio.tuat.ac.jp

  23. No. N terminal transmembrane region C terminal type length 1 40 LAAYMFLLIMLGFPINFLTLYVT 62 PRIMARY 23 2 71 PLNYILLNLAVADLFMVFGGFTT 93 SECONDARY 23 3 113 EGFFATLGGEIALWSLVVLAIER 135 SECONDARY 23 4 156 GVAFTWVMALACAAPPLVGWSRY 178 SECONDARY 23 5 207 MFVVHFIIPLIVIFFCYGQLVFT 229 PRIMARY 23 6 261 FLICWLPYAGVAFYIFTHQGSDF 283 PRIMARY 23 7 300 VYNPVIYIMMNKQFRNCMVTTLC 322 SECONDARY 23 This amino acid sequence is of a MEMBRANE PROTEIN which have 7 transmembrane helices.

  24. Métodos predicción dominios estructurales • En general se aplican criterios de homología contra alineamientos múltiples. • Normalmente se ejecutan contra bases de datos de alineamientos como PFAM. • Incluyen información sobre presencia de determinados motivos estructurales: ej regiones de baja complejidad, transmembranas,... • Se pueden emplear técnicas de Threading

  25. Ejemplo familia PFAM(a-kinases) Q9P201/571-786 LLLKYSK...KSELWTAQETIVYLGDYLTVKKKGRQRNA.FWVHHLHQ.....................................EEILGRYVGKDYKEQKGLWHHFTDVERQMTAQHYVTEFNKRLYEQNIPTQIFYIPSTILLILEDKTIKG.....CISVEPYILGEFVKLSNNTK.....VVKTEYKATEYGLAYGHFSYEFSNHRDVVVDLQGWVTGNGKGLIYLTDPQIHSVD......QKVFTTNFGKRGIFYFFNNQHVECNEIC Q9P201 Q9HEI0/537-758 MLDRMME...SDTNMPVSVFGLNLCKRRTPFAKGALRLASFACTECSRS..............................RHVVKEFKTDGDDEDD.GSGNRSLAHLVDDMRSQALCKAFALEFNSLLADC..PEHNIDFVVTSCFKCNDRRGSQ...GKCMSIEPFLAGKFVKYNGNAGYANKEANLTHDPSNQAAQAFSHFTFERSRGRFLVCDLQGVG.......KTMTDPAIHTLDP...YRFSLSQTNLGAEGFMFFF..AYHECNHLC Q9HEI0KMHA_DICDI/561-800 ILWEFDP...IINKWIRLSMKLKVERK..PFAEGALREA.YHTVSLGVGTDENYPLGTTTKLFPPIEMISPISKNNEAMTQLKNGTKFVLKLYKKEAEQQASRELYFEDVKMQMVCRDWGNKFNQKK.....PPKKIEFLMSWVVELIDRSPSSNGQPILCSIEPLLVGEFKKNNSNYG......AVLT.N.RSTPQAFSHFTYELSNKQMIVVDIQGVD.......DLYTDPQIHTPD.....GKGFGLGNLGKAGINKFI..TTHKCNAVC P42527O76739/34-235 IKWELTIGDDLKPKWTHSIVCVSIEKT..PFAKGSCRTA.HKLKDWSQP...................................DQGLVGKFST...NKKTTRDSYFTDVLMQTFCAKWAEKFNEAK.....PPKPITFLPSYVYELIDHPPP....YPVCGGEPFIEGDYKKHNNNSG......YVSS.DARNTPQSFSHFSYELSNHELLIVDIQGVN.......DFYTDPQIHTKS.....GEGFGEGNLGETGFHKFL..QTHKCNPVC O76739KMHB_DICDI/119-320 IKWEYDP.YTTTAQWTCTATLVKVEPV..PFAEGAFRKA.YHTLDLSK.....................................SGASGRYVSKIGKKPTPRPSYFEDVKMQMIAKKWADKYNSFK.....PPKKIEFLQSCVLEFVDRTSS....DLICGAEPYVEGQYRKYNNNSG......FVSN.DERNTPQSFSHFTYEHSNHQLLIIDIQGVG.......DHYTDPQIHTYD.....GVGFGIGNLGQKGFEKFL..DTHKCNAIC P90648EF2K_RAT/112-317 TRHRYNA...VTGEWLKDEVLIKMASQ..PFGRGAMREC.FRTKKLSN...............................FLHAQHWKGASNYVAKRYLEPVDRSVYFEDVQLQMEAKLWGEEYNRHK.....PPKQVDIMQMCIIELKDRQGQ.....PLFHLEHYIEGKYIKYNSNSG......FVRDDNIRLTPQAFSHFTFERSGHQLIVVDIQGVG.......DLYTDPQIHTEK.....GTDFGDGNLGVRGMALFF..YSHACNRIC P70531

  26. Modelado de proteínas por homología • Técnicas muy poderosas cuando existe una fuerte identidad de secuencia entre la proteína problema y otra de estructura conocida. • Es una técnica sencilla, implementada en programas automáticos/semiautomáticos como SWISMODEL o MODELLER

  27. Modelado de proteínas por homología • Alineamiento de la proteína problema con una o varias estructuras de proteínas de estructura conocida. • Se sobreponen las cadenas principales de la proteína problema y de la proteína(s) de referencia. • Se satisfacen los criterios de mantenimiento de la topología de enlace de la proteína • Se orientan en lo posible las cadenas laterales (Cb) según la proteína de referencia. • Se relajan las cadenas laterales y se optimiza parcialmente el conjunto • Se valida el sistema

  28. Etapas generales modelado por homología Identificación homólogos Determinación restricciones Alineamiento Construcción modelo Refinado Validación

  29. Modelado de proteínas por homología (problemas) • Los modelos no suelen tener la misma calidad en las cadenas laterales que en la cadena principal. • Cuando la identidad de secuencia baja por debajo del 30% entramos en una zona (twilight-zone) donde está poco clara la calidad del modelo. Cuando bajamos del 20% de identidad la técnica no es aplicable. • Solo es fiable cuando se aplica a nivel de dominio. Proteínas con varios dominios no son modeladas con fiabilidad.

  30. Métodos de Threading • Métodos sirven para obtener modelos estructurales cuando identidad con modelos de estructura conocida es baja. • Se usan también para recuperar proteínas con función similar a pesar de tener baja homología de secuencia • Métodos arriesgados (última opción), funcionan solo a nivel de dominio

  31. Métodos de threading

  32. Métodos de Threading(2) • Intentan adaptar la secuencia de la proteína a plegamientos (folds) de referencia • Emplea tipos de folds canónicos (SCOP, CATH). • Se evalua la “estabilidad” de cada uno de los folds teóricos en los que se ha plegado la proteína • Se escoge el de mayor puntuación. • En muchos casos se emplean “meta-servers” que conectan con diferentes servidores de predicción y realizan evaluación promedio (www.bioinfo.plwww.sbc.su.se o www.sbg.bio.ic.ac.uk)

  33. Jerarquía SCOP • Familia. Clara relación evolutiva • Superfamilia. Probable origen evolutivo común • Plegamiento. Fuerte homología estructural

  34. Class Number of folds Number of superfamilies Number of families All alpha proteins 138 224 337 All beta proteins 93 171 276 Alpha and beta proteins (a/b) 97 167 374 Alpha and beta proteins (a+b) 184 263 391 Multi-domain proteins 28 28 35 Membrane and cell surface proteins 11 17 28 Small proteins 54 77 116 Total 605 947 1557 Plegamientos en SCOP

  35. BASE DATOS CATH

  36. Jerarquía CATH • C: Clase (contenido en estructura secundaria) • A: Arquitectura (disposición de los elementos de estructura secundaria) • T: Topología (disposición de las conexiones entre elementos) • H: Homología (homología estructural) • S: Secuencia (homología de secuencia)

  37. Ejemplo de clasificación CATH

  38. Métodos de plegamiento “ab initio” • Intentan plegar proteínas pequeñas a partir de potenciales estadísticos, sin recurrir “a priori” al conocimiento previo del plegamiento de proteínas similares • Emplean métodos muy sencillos de muestreo del espacio conformacional de las proteínas • Muy poco precisos. • Aplicables solo a proteínas pequeñas.

  39. Potenciales estadísticos • Priman la posición (externa / interna) de residuos aminoacídicos • Pueden primar tendencia a estar en E. Secundaria de un tipo • Representan la tendencia diferencial de residuos a estar cerca o lejos en el espacio • Se también usan para evaluar estabilidad de proteínas ya plegadas

  40. Low stability Very stable Hidrophobic Cb-Cb Total http://lore.came.sbg.ac.at:8080/CAME/CAME_EXTERN/ProsaII/index_html Ejemplo perfil PROSA

  41. Ejemplo plegamiento en “grid”

  42. Métodosmicroscópicos

  43. Métodos microscópicos • Pretenden reproducir sistemas bioquímicos a partir de principios fisicoquímicos. • Se pueden basar en dos esquemas diferentes. • Mecánica cuántica • Mecánica clásica

  44. Mecánica cuántica • Basada en primeros principios. • E=E(X,x) • Muy rigurosa • Uso universal • Demasiado costosa computacionalmente • Poco aplicable en sistemas bioquímicos

  45. Mecánica clásica • E=E(X) • Utiliza aproximaciones empíricas a la energía • Muy eficiente computacionalmente • Menos precisa que la Mec. Cuántica • Aplicable solo a sistemas sin cambio de topología y sin efectos cuánticos

  46. Ejemplo: Un enlace químico

  47. Ejemplo: Un enlace químico

  48. Cerca del equilibrio,...

More Related