Modelado por Homología: ¿Qué hacer con las secuencias de Proteínas?

Modelado por Homología: ¿Qué hacer con las secuencias de Proteínas? Georgina Estrada Tapia ICF-UNAM ginaestapia@yahoo.com.mx Posgrado en Ciencias Biomédicas-UNAM Cuernavaca, Morelos. Abril 01 de 2011

Esquema: • Introducción a la estructura de proteínas & bases de datos • Prediction de estructura • Ab-initio • Threading • Modelado por homología • Ejercicio • Evaluación del modelo

Secuencias& Bases de Datos de Estructuras Bases de Datos: • RCSB- the Protein Data Bank- todas las estructuras depositadas • UniProt- base de datos de secuencias de proteínas • SwissProt • Tremble • NCBI- muchas bases de datos, incluye de secuencias y estructuras • PDBsum- combina estructurales & de secuencias

UniProt- Base de datos de Secuencias de Proteínas • UniProt es una colaboración entre: European Bioinformatics Institute (EBI), Swiss Institute of Bioinformatics (SIB) y el Protein Information Resource (PIR). • En 2002, los tres institutos decidieron unir sus recursos y conocimientos y formaron el consorcio UniProt.

UniProt- Base de Datos de Secuencias de Proteínas

PDB: http://www.pdb.org

Hecho: Más Secuencias que Estructuras • Hay discrepancia entre el número de secuencias conocidas y el de estructuras resueltas: 5,047,807 entradas en UniRef90 vs. 19988 90% de estructuras No redundantes Los métodos computacionales son necesarios para obtener más estructuras

Predicción de Estructura de Proteínas • ¿Por qué predecir estructura si podemos determinarla experimentalmente? • Los métodos experimentales son lentos y caros y no siempre es posible realizarlos • Algunas estructuras no se pueden resolver • Una estructura representativa de una familia puede ser suficiente para deducir estructuras de la familia completa de secuencias.

Esquema General Búsqueda de estructuras para una secuencia problema Elección de Patrón(es) [“Template”] Alineamiento de la secuencia con la estructura(s) Patrón Generación de un modelo para la proteína problema usando información de la estructura patrón. (Ej. MODELLER.- automodel) Evaluación del modelo Fiser A et al. Methods in Enzymology 374: 461-491(2004)

2: Alignment correction 1: Template recognition and initial alignment 3: Backbone generation 4: Loop modeling 8: Iteration 8: Iteration 5: Sidechain modeling Model! 8: Iteration 8: Iteration 7: Model validation 6: Model optimization Ej.-Minimización con Dinámica Molecural (MD)

El Modelado por Homología requiere del manejo de estructuras & secuencias • Proteína (secuencia) problema- solamente la secuencia está disponible- se puede encontrar en UniProt • Plantilla - después de su identificación, ambos tipos de datos estructurales y de secuencia, se pueden corroborar en- UniPort (o bases de datos de NCBI), RCSB y PDBsum

1. Búsqueda de Estructuras • Búsqueda de la secuencia contra secuencias del PDB • Búsqueda de perfiles • Threading: función de ajuste secuencia-estructura

1. Búsqueda de Estructuras • Si BLAST falla (PDB) para encontrar estructuras patrón adecuadas, usar servidores para “fold recognition” (threading): • FFAS03- http://ffas.ljcrf.edu/ffas-cgi/cgi/ffas.pl • HHPRED- http://toolkit.tuebingen.mpg.de/hhpred • HMAP (disponible a través de FUDGE pipeline)- http://wiki.c2b2.columbia.edu/honiglab_public/index.php/Software:PUDGE • I-TASSER- http://zhang.bioinformatics.ku.edu/I-TASSER/ • Estos servidores no solamente encuentran patrones opcionales , también sugieren el alineamiento por pares y en algunos casos hasta construyen modelo 3D.

2. Elección de Estructuras • Más de un Patrón “The more the merrier” - multiple structures with the same fold:

Query Template 3. Alineamiento de la secuencia problema y la secuencia del Patrón • Crear un alineamiento multiple de secuencias (MSA) y extraer el alineamiento por pares (pairwise). • Usar información de estrcutura secundaria para optimizar el alineamiento por pares- evitar ‘gaps’ en esas regiones!

3. Alineamiento de la secuencia problema y la secuencia del Patrón Tips para el MSA • ¿Dónde? (encontrar/buscar homólogos) • Patrones o Plantillas Estructurales- búsqueda contra el PDB • Homólogos secuenciales- búsqueda contra el SwissProt o Uniprot (¡recomendada!)- generalmente usando BLAST • ¿Cuántos? • Tantos como sea posible, siempre y cuando el MSA se vea bien…

E I E E V V A P C C C S R R M R G L M P P Corrección del Alineamiento -A-V F-D- • Determinantes Estructurales  conservados • Usar MSA • Deleciones en tu secuencia  modificar gaps EstructuraFDICRLPGSAEAV Model FNVCRMP---EAI Model FNVCR---MPEAI  Alineamiento Correcto

3. Alineamiento de la secuencia problema y el Patrón Tips para el MSA • ¿Qué tan extensas? (longitud de homólogos) • Fragmentos- homólogos cortos (menos del 50,60% de la longitud de la secuencia problema) = mal alineamiento • Asegurarse que sus secuencias presentan el dominio(s) requeridos • N/C terminales tienden a variar en longitud entre homólogos • ¿Qué tan parecidas? (distancia de la secuencia problema) • Muy parecidas- no informativo • Muchas muy lejanas- mal alineamiento • Asegurarse de tener un grupo balanceado!

3. Alineamiento de la secuencia problema y la secuencia del Patrón Tips para el MSA • ¿De quienes? (a qué especies pertenecen las secuencias) • No importa, todos los homólogos son bienvenidos • Ortólogos/parálogos pueden ser útiles • Secuencias de especies distantes/cercanas proveen diferentes tipos de información • ¿Cuáles métodos de alineamiento? • Los mejores son MUSCLE, T-Coffee and MAFFT. Todos disponibles en la página de EBI

3. Alineamiento de la secuencia problema y la secuencia del Patrón • Alineamiento de Sec. problema-templado • por “profile-to-profile”: • 1. Construir un MSA para la secuencia, serviendo como perfil las propiedades de la familia estructural. • 2. Alinear el perfil con perfiles de todas las proteínas del PDB, usando, por ej., FFAS03 o HHpred. • 3. Comparar alineamientos por pares construídos por diferentes métodos – esperando tener una predicción consenso…

3. Alineamiento de la secuencia problema y la secuencia del Patrón Niveles diferentes de similitud entre el patrón & la proteína problema (varios abordajes computacionales):

4.Construcción del modelo Una vez que se tiene un buen alineamiento Usar MODELLER para la construcción del modelo! http://salilab.org/modeller

5. Evaluación del modelo • La precisión del modelo depende de la identidad de la secuencia con la proteína patrón:

5. Evaluación Estereoquímica -ProCheck

Links Útiles 1. Estructuras • PDB-Blast en NCBI- http://blast.ncbi.nlm.nih.gov/Blast.cgi • Meta server- 3D judry http://bioinfo.pl/meta/ • FFAS03- http://ffas.ljcrf.edu/ffas-cgi/cgi/ffas.pl • HHPRED- http://toolkit.tuebingen.mpg.de/hhpred • FUDGE- pipeline- http://wiki.c2b2.columbia.edu/honiglab_public/index.php/Software:PUDGE 2. Elección de estructura (s) patrón 3. Alineamiento de la secuencia problema con el o los templados • MSA - MUSCLE, T-coffee and MAFFT en http://toolkit.tuebingen.mpg.de/sections/alignment • Editor de alineamiento – Bioedit - http://www.mbio.ncsu.edu/BioEdit/bioedit.html 4. Construcción del modelo • Nest - http://wiki.c2b2.columbia.edu/honiglab_public/index.php/Software:nest • Modeller - http://salilab.org/modeller/modeller.html Automático: - SwissModel: http://swissmodel.expasy.org//SWISS-MODEL.html 5. Evaluación del modelo • ConSurf http://consurf.tau.ac.il • PROCHECK http://www.biochem.ucl.ac.uk/~roman/procheck/procheck.html • WHATCHECK www.cmbi.kun.nl/swift/whatcheck/ • ProSA https://prosa.services.came.sbg.ac.at/prosa.php • ProQ http://www.sbc.su.se/~bjornw/ProQ/ProQ.cgi • AT the Honig lab http://luna.bioc.columbia.edu/Model_Quality_Assessment/cgi-bin/Model_Quality_Assessment.cgi

Modelado por Homología: ¿Qué hacer con las secuencias de Proteínas?