690 likes | 1.15k Views
TEMA 6. MÉTODOS TEÓRICOS DE ESTUDIO DE MACROMOLÉCULAS. Características sistemas biológicos (p.v. Teoría). Reacciones y procesos biológicos son en general sencillos Problemas en su representación: Descripción solo parcial del conjunto de procesos bioquímicos en la célula
E N D
TEMA 6 MÉTODOS TEÓRICOS DE ESTUDIO DE MACROMOLÉCULAS
Características sistemas biológicos (p.v. Teoría) • Reacciones y procesos biológicos son en general sencillos • Problemas en su representación: • Descripción solo parcial del conjunto de procesos bioquímicos en la célula • Dificultad por el enorme tamaño de las macromoléculas biológicas • Ignoramos en detalle la naturaleza del entorno “fisiológico”.
Métodos estudio estructural de sistemas bioquímicos • Métodos estadísticos. • Emplean criterios de comparación. Del análisis de bases de datos derivan reglas de conocimiento que luego aplican al sistema desconocido • Métodos físicos o microscópicos. • Emplean principios básicos de la física y química.
Métodos estadísticos (1) • Predicción de perfiles de hidrofobicidad, sitios de glicosilación, determinantes antigénicos y otras propiedades primarias derivadas de secuencia. • Predicción de funcionalidad por similitud de secuencia. • Predicción estructura secundaria (RNA, proteínas,...) • Predicción de fragmentos transmembrana. • Predicción de dominios estructurales Ver por ejemplo http://www.expasy.ch
Métodos estadísticos (2) • Predicción de estructura 3-D por homología • Predicción de estructura 3-D por “threading” • Predicción “ab initio” a partir de potenciales estadísticos • Predicción e identificación de centros activos y lugares de unión. Ver por ejemplo http://www.expasy.ch
1. Predicción propiedades primarias • En muchos casos basados en composición aminoacídica: • Masa molecular, pI, coeficiente extinción, curvas de titración • Perfiles hidrofóbicos. • Regiones de glicosilación, determiantes antigénicos, sensibilidad a degradación proteolítica.
2. Predicción funcionalidad por similitud de secuencia • Métodos basados en similitud general • BLAST, FASTA,... • Métodos basados en existencia de secuencias cortas características • PROSITE
Ejemplooutput PROSITE-search contra swissprot ScanProsite Scan Swiss-Prot with a PROSITE pattern Swiss-Prot Release 41.22 of 29-Aug-2003: 133723 entries PDOC00965PS01253FIBRONECTIN_1 Type I fibronectin domain.Pattern: C-x(6,8)-[LFY]-x(5)-[FYW]-x-[RK]-x(8,10)-C-x-C-x(6,9)-CApproximate number of expected random pattern matches in Swiss-Prot release 41.0 (122564 sequences): 0.18 [Ref: PMID 11535175] >P98140 (FA12_BOVIN) Coagulation factor XII precursor (EC 3.4.21.38) (Hageman factor) (HAF) (Fragment) [Bos taurus (Bovine)] (593 AA). 125 - 160 CfepqffrfFheneiWhRlepagvvk..CqCkgpnaq...C
Ejemplo input BLAST Accession number or sequence Enter a Swiss-Prot/TrEMBL accession number or a PROTEIN sequence in RAW format. Secuencia de la proteína problema
Ejemplo output BLAST Query length: 61 AA Date run: 2003-09-08 17:20:12 UTC+0100 on sib-blast.unil.ch Program: NCBI BLASTP 2.2.5 [Nov-16-2002] Database: XXtremblnew; XXtrembl; XXswissprot 1,249,251 sequences; 402,609,643 total letters Swiss-Prot Release 41.22 of 29-Aug-2003 TrEMBL Release 24.10 of 29-Aug-2003 TrEMBL_new of 29-Aug-2003 List of potentially matching sequences Send selected sequences to Include query sequence Db AC Description Score E-value tr Q8XMW7 Hypothetical protein CPE0571 [CPE0571] [Clostridium pe... 142 5e-34 Q8EMU9 Hypothetical conserved protein [OB2741] [Oceanobacillu... 74 2e-13 (...) Listado de proteínas con similitud
Distribution of 63 Blast Hits on the Query Sequence Taxonomy reports Ejemplo alineamientos after Blast
Ejemplo alineamiento en PsiBlast servidor http://www.ncbi.nlm.nih.gov/blast/ >gi|18309553|ref|NP_561487.1| conserved hypothetical protein [Clostridium perfringens] gi|18144230|dbj|BAB80277.1| conserved hypothetical protein [Clostridium perfringens str. 13] Length = 135 Score = 113 bits (283), Expect = 7e-25 Identities = 59/61 (96%), Positives = 59/61 (96%), Gaps = 1/61 (1%) Query: 1 MNNFFKHTLETHTAAQSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV 60 MNNFFKHTLETHT QSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV Sbjct: 1MNNFFKHTLETHT-PQSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV59 Query: 61 V 61 V Sbjct: 60 V 60
2. Predicción estructura secundaria • Se puede predecir cantidad total de estructura secundaria • Métodos basados en existencia de secuencias cortas características • PROSITE
AGADIR - An algorithm to predict the helical content of peptides • BCM PSSP - Baylor College of Medicine • Prof - Cascaded Multiple Classifiers for Secondary Structure Prediction • GOR I (Garnier et al, 1978) [At PBIL or at SBDS] • GOR II (Gibrat et al, 1987) • GOR IV (Garnier et al, 1996) • HNN - Hierarchical Neural Network method (Guermeur, 1997) • Jpred - A consensus method for protein secondary structure prediction at University of Dundee • nnPredict - University of California at San Francisco (UCSF) • PredictProtein - PHDsec, PHDacc, PHDhtm, PHDtopology, PHDthreader, MaxHom, EvalSec from Columbia University • PSA - BioMolecular Engineering Research Center (BMERC) / Boston • PSIpred - Various protein structure prediction methods at Brunel University • SOPM (Geourjon and Deléage, 1994) • SOPMA (Geourjon and Deléage, 1995) Ejemplo de programas predicción estructura secundaria http://www.expasy.ch
Métodos predicción estructura secundaria • Definen un número limitado de estructuras secundarias de referencia (hélice, giro, cadena típicamente). • Analizan la base de datos de estructura calculando las veces en que cada tipo de residuo se encuentra en una estructura secundaria. • De los datos de distribución derivan propensiones • Con estas propensiones predicen Est. Sec. De proteínas problema.
Ejemplo de output de un programa de predicción Estructura secundaria MODEL F C 0.945 F C 0.589 K E 0.793 H E 0.861 T E 0.871 L E 0.885 E E 0.825 T E 0.648 H C 0.630 T C 0.832 A C 0.844 A C 0.800 (....)
Método de Chou-Fasman • Tres tipos de E.secundaria: a, b, turn. • Se estudia la base de datos se mira cada residuo en que E.secundaria está • Se calculan probabilidades • Se derivan propensiones “tendencia intrínseca de un residuo” a pertenecer a una E.secundaria data • Se promedian las P obtenidas en ventanas de 5 o 6 residuos para derivar estructura del fragmento
Propensiones Chou-Fasman Biochemistry 17, 4277 1978 Favor a Favor b Favor turn
Reglas Chou-Fasman(resumidas) • Cada secuencia con 6 o mas residuos y <P(a)> 1,03 y <P(a)> <P(b)> y que no tengan Pro son hélices a. • Fragmentos de 5 residuos o más con <P(b)> 1,05 y <P(b)> <P(a)> será hoja beta • Tetrapéptidos con <P(a)> < 0.9 y <P(turn)> > <P(a)> son posiblemente giros. Las reglas reales son más complejas
Métodos predicción fragmentos transmembranas • Emplean datos de homología con estructuras transmembranas conocidas • Emplean datos de predicción de estructura secundaria • Emplean perfiles de hidrofobicidad. • Emplean datos sobre la necesidad de existencia de hélice anfipáticas y otras señales más difusas
Por ejemplo, si ejecutamos Sosui sobre esta secuencia (Rodopsina) MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLYVTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLGGEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIPEGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQESATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAVYNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA http://sosui.proteome.bio.tuat.ac.jp
No. N terminal transmembrane region C terminal type length 1 40 LAAYMFLLIMLGFPINFLTLYVT 62 PRIMARY 23 2 71 PLNYILLNLAVADLFMVFGGFTT 93 SECONDARY 23 3 113 EGFFATLGGEIALWSLVVLAIER 135 SECONDARY 23 4 156 GVAFTWVMALACAAPPLVGWSRY 178 SECONDARY 23 5 207 MFVVHFIIPLIVIFFCYGQLVFT 229 PRIMARY 23 6 261 FLICWLPYAGVAFYIFTHQGSDF 283 PRIMARY 23 7 300 VYNPVIYIMMNKQFRNCMVTTLC 322 SECONDARY 23 This amino acid sequence is of a MEMBRANE PROTEIN which have 7 transmembrane helices.
Métodos predicción dominios estructurales • En general se aplican criterios de homología contra alineamientos múltiples. • Normalmente se ejecutan contra bases de datos de alineamientos como PFAM. • Incluyen información sobre presencia de determinados motivos estructurales: ej regiones de baja complejidad, transmembranas,... • Se pueden emplear técnicas de Threading
Ejemplo familia PFAM(a-kinases) Q9P201/571-786 LLLKYSK...KSELWTAQETIVYLGDYLTVKKKGRQRNA.FWVHHLHQ.....................................EEILGRYVGKDYKEQKGLWHHFTDVERQMTAQHYVTEFNKRLYEQNIPTQIFYIPSTILLILEDKTIKG.....CISVEPYILGEFVKLSNNTK.....VVKTEYKATEYGLAYGHFSYEFSNHRDVVVDLQGWVTGNGKGLIYLTDPQIHSVD......QKVFTTNFGKRGIFYFFNNQHVECNEIC Q9P201 Q9HEI0/537-758 MLDRMME...SDTNMPVSVFGLNLCKRRTPFAKGALRLASFACTECSRS..............................RHVVKEFKTDGDDEDD.GSGNRSLAHLVDDMRSQALCKAFALEFNSLLADC..PEHNIDFVVTSCFKCNDRRGSQ...GKCMSIEPFLAGKFVKYNGNAGYANKEANLTHDPSNQAAQAFSHFTFERSRGRFLVCDLQGVG.......KTMTDPAIHTLDP...YRFSLSQTNLGAEGFMFFF..AYHECNHLC Q9HEI0KMHA_DICDI/561-800 ILWEFDP...IINKWIRLSMKLKVERK..PFAEGALREA.YHTVSLGVGTDENYPLGTTTKLFPPIEMISPISKNNEAMTQLKNGTKFVLKLYKKEAEQQASRELYFEDVKMQMVCRDWGNKFNQKK.....PPKKIEFLMSWVVELIDRSPSSNGQPILCSIEPLLVGEFKKNNSNYG......AVLT.N.RSTPQAFSHFTYELSNKQMIVVDIQGVD.......DLYTDPQIHTPD.....GKGFGLGNLGKAGINKFI..TTHKCNAVC P42527O76739/34-235 IKWELTIGDDLKPKWTHSIVCVSIEKT..PFAKGSCRTA.HKLKDWSQP...................................DQGLVGKFST...NKKTTRDSYFTDVLMQTFCAKWAEKFNEAK.....PPKPITFLPSYVYELIDHPPP....YPVCGGEPFIEGDYKKHNNNSG......YVSS.DARNTPQSFSHFSYELSNHELLIVDIQGVN.......DFYTDPQIHTKS.....GEGFGEGNLGETGFHKFL..QTHKCNPVC O76739KMHB_DICDI/119-320 IKWEYDP.YTTTAQWTCTATLVKVEPV..PFAEGAFRKA.YHTLDLSK.....................................SGASGRYVSKIGKKPTPRPSYFEDVKMQMIAKKWADKYNSFK.....PPKKIEFLQSCVLEFVDRTSS....DLICGAEPYVEGQYRKYNNNSG......FVSN.DERNTPQSFSHFTYEHSNHQLLIIDIQGVG.......DHYTDPQIHTYD.....GVGFGIGNLGQKGFEKFL..DTHKCNAIC P90648EF2K_RAT/112-317 TRHRYNA...VTGEWLKDEVLIKMASQ..PFGRGAMREC.FRTKKLSN...............................FLHAQHWKGASNYVAKRYLEPVDRSVYFEDVQLQMEAKLWGEEYNRHK.....PPKQVDIMQMCIIELKDRQGQ.....PLFHLEHYIEGKYIKYNSNSG......FVRDDNIRLTPQAFSHFTFERSGHQLIVVDIQGVG.......DLYTDPQIHTEK.....GTDFGDGNLGVRGMALFF..YSHACNRIC P70531
Modelado de proteínas por homología • Técnicas muy poderosas cuando existe una fuerte identidad de secuencia entre la proteína problema y otra de estructura conocida. • Es una técnica sencilla, implementada en programas automáticos/semiautomáticos como SWISMODEL o MODELLER
Modelado de proteínas por homología • Alineamiento de la proteína problema con una o varias estructuras de proteínas de estructura conocida. • Se sobreponen las cadenas principales de la proteína problema y de la proteína(s) de referencia. • Se satisfacen los criterios de mantenimiento de la topología de enlace de la proteína • Se orientan en lo posible las cadenas laterales (Cb) según la proteína de referencia. • Se relajan las cadenas laterales y se optimiza parcialmente el conjunto • Se valida el sistema
Etapas generales modelado por homología Identificación homólogos Determinación restricciones Alineamiento Construcción modelo Refinado Validación
Modelado de proteínas por homología (problemas) • Los modelos no suelen tener la misma calidad en las cadenas laterales que en la cadena principal. • Cuando la identidad de secuencia baja por debajo del 30% entramos en una zona (twilight-zone) donde está poco clara la calidad del modelo. Cuando bajamos del 20% de identidad la técnica no es aplicable. • Solo es fiable cuando se aplica a nivel de dominio. Proteínas con varios dominios no son modeladas con fiabilidad.
Métodos de Threading • Métodos sirven para obtener modelos estructurales cuando identidad con modelos de estructura conocida es baja. • Se usan también para recuperar proteínas con función similar a pesar de tener baja homología de secuencia • Métodos arriesgados (última opción), funcionan solo a nivel de dominio
Métodos de Threading(2) • Intentan adaptar la secuencia de la proteína a plegamientos (folds) de referencia • Emplea tipos de folds canónicos (SCOP, CATH). • Se evalua la “estabilidad” de cada uno de los folds teóricos en los que se ha plegado la proteína • Se escoge el de mayor puntuación. • En muchos casos se emplean “meta-servers” que conectan con diferentes servidores de predicción y realizan evaluación promedio (www.bioinfo.plwww.sbc.su.se o www.sbg.bio.ic.ac.uk)
Jerarquía SCOP • Familia. Clara relación evolutiva • Superfamilia. Probable origen evolutivo común • Plegamiento. Fuerte homología estructural
Class Number of folds Number of superfamilies Number of families All alpha proteins 138 224 337 All beta proteins 93 171 276 Alpha and beta proteins (a/b) 97 167 374 Alpha and beta proteins (a+b) 184 263 391 Multi-domain proteins 28 28 35 Membrane and cell surface proteins 11 17 28 Small proteins 54 77 116 Total 605 947 1557 Plegamientos en SCOP
Jerarquía CATH • C: Clase (contenido en estructura secundaria) • A: Arquitectura (disposición de los elementos de estructura secundaria) • T: Topología (disposición de las conexiones entre elementos) • H: Homología (homología estructural) • S: Secuencia (homología de secuencia)
Métodos de plegamiento “ab initio” • Intentan plegar proteínas pequeñas a partir de potenciales estadísticos, sin recurrir “a priori” al conocimiento previo del plegamiento de proteínas similares • Emplean métodos muy sencillos de muestreo del espacio conformacional de las proteínas • Muy poco precisos. • Aplicables solo a proteínas pequeñas.
Potenciales estadísticos • Priman la posición (externa / interna) de residuos aminoacídicos • Pueden primar tendencia a estar en E. Secundaria de un tipo • Representan la tendencia diferencial de residuos a estar cerca o lejos en el espacio • Se también usan para evaluar estabilidad de proteínas ya plegadas
Low stability Very stable Hidrophobic Cb-Cb Total http://lore.came.sbg.ac.at:8080/CAME/CAME_EXTERN/ProsaII/index_html Ejemplo perfil PROSA
Métodos microscópicos • Pretenden reproducir sistemas bioquímicos a partir de principios fisicoquímicos. • Se pueden basar en dos esquemas diferentes. • Mecánica cuántica • Mecánica clásica
Mecánica cuántica • Basada en primeros principios. • E=E(X,x) • Muy rigurosa • Uso universal • Demasiado costosa computacionalmente • Poco aplicable en sistemas bioquímicos
Mecánica clásica • E=E(X) • Utiliza aproximaciones empíricas a la energía • Muy eficiente computacionalmente • Menos precisa que la Mec. Cuántica • Aplicable solo a sistemas sin cambio de topología y sin efectos cuánticos