1 / 48

Predicción de Estructura Secundaria Predicciones 1D Amalia Muñoz, CNB

Predicción de Estructura Secundaria Predicciones 1D Amalia Muñoz, CNB. H. influenza. http://www.rcsb.org/pdb. Predicción de Estructura Secundaria Predicciones Estructura Secundaria. Descripción :

ellard
Download Presentation

Predicción de Estructura Secundaria Predicciones 1D Amalia Muñoz, CNB

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Predicción de Estructura Secundaria Predicciones 1D Amalia Muñoz, CNB

  2. H. influenza http://www.rcsb.org/pdb

  3. Predicción de Estructura Secundaria Predicciones Estructura Secundaria

  4. Descripción : Predicción de la estructura secundaria (alpha-beta-loop) de una proteína a partir de su secuencia de aminoácidos. La estructura secundaria se asigna generalmente de forma automática a partir de interacciones no locales, esto es en función de su perfil de puentes de hidrógeno entre los grupos carbonilos y NH del esqueleto o "backbone".  La mayoría de métodos usan redes neuronales u otros algoritmos que se entrenan con proteínas de estructura secundaria conocida para pasar luego a la predicción. Muchos de estos métodos usan información adicional proveniente, por ejemplo, de alineamientos múltiples.

  5. Precedentes Históricos : • 1951. Pauling y Corey sugirieron que existían patrones de conformación local, tales como las hélices alfa y las hojas betas. • 1957. Szent-Györgyi & Cohen. Se intentó correlacionar el contenido de ciertos aminoácidos con el contenido en hélices alfa. • 1960. Blout, Fasman et al. & 1962 Blout. Ampliaron esta idea para correlacionar el contenido total de aminoácidos con el de hélices alfa y láminas beta. • 1960. Kendrew et al. & Perutz et al. Se determinaron experimentalmente las primeras estructuras de proteínas: mioglobina y hemoglobina.

  6. Evolución de los Métodos I : • 1974. Chou y Fasman : método estadístico basado en la tendencia de los aminoácidos a adoptar estructuras secundarias (observada para 15 estructuras rayos-X). Tendencias que se basaban en las propiedades estereoquímicas y fisicoquímicas de los diferentes residuos (casos especiales son glicina y prolina). Este método se ha mejorado aumentando el numero de proteínas empleadas. Mas que residuo a residuo los cálculos se realizan empleando ventanas de 5-6 aminoácidos. El método presenta una fiabilidad de ~50% (cuando se emplean 62 proteínas para obtener las estadísticas). • 1978. Garnier mejoro el método al emplear pares de interacciones significativas estadísticamente. El método presenta una fiabilidad de ~60%.

  7. Evolución de los Métodos II: • 1993. Levin mejoró las predicciones empleando alineamientos múltiples de secuencia. Regiones conservadas dentro del alineamiento proporcionan un fuerte indicador evolutivo de su importancia en la función. Estas zonas conservadas tienen además tendencia a conservar su estructura, reforzando la predicción. El método presenta una fiabilidad de ~69%. • 1994. Rost y Sander combinaron redes neuronales con alineamientos múltiples de secuencias. El método presenta una fiabilidad de ~72%.

  8. Métodos de 1a Generación : Estos son métodos estadísticos basados en la tendencia que presentan los aminoácidos a adoptar estructuras secundarias. El primero, propuesto por Chou y Fasman en 1974 empleaba estadísticas extrapoladas de las 15 estructuras de proteínas determinadas por rayos-X. Tendencias que se basaban en las propiedades estereoquímicas y fisicoquímicas de los diferentes residuos (casos especiales son glicina y prolina). Este método se ha mejorado aumentando el número de proteínas empleadas. El método presenta una fiabilidad de ~50% (cuando se emplean 62 proteínas para obtener las estadísticas).

  9. Amino Acid Secondary Structure Preferences A.A. Helix Sheet Designation P Designation P A H 1.45 I 0.97 C i 0.77 h 1.30 D i 0.98 i 0.80 E H 1.53 B 0.26 F h 1.12 h 1.28 G B 0.53 i 0.81 H h 1.24 b 0.71 I I 1.00 H 1.60 K I 1.07 b 0.74 L H 1.34 h 1.22 M h 1.20 H 1.67 N b 0.73 b 0.65 P B 0.59 b 0.62 Q h 1.17 h 1.23 R i 0.79 i 0.90 S i 0.79 b 0.72 T i 0.82 h 1.20 V h 1.14 H 1.65 W h 1.14 h 1.19 Y b 0.61 h 1.29 Chou-Fasman helix/sheet propensities

  10. Métodos de 2a Generación : • La principal mejora de esta 2a generación de métodos es la combinación de bases de datos mayores de estructura de proteínas y el uso de estadísticas basadas en segmentos: típicamente 11-21 residuos adyacentes y las estadísticas se compilan para evaluar la propensión del residuo central de ese segmento a estar en una determinada estructura secundaria. • Los algoritmos principalmente empleados están basados en: • información estadística • propiedades fisicoquímicas • perfiles de secuencia • redes de multicapas • teoría de grafos • estadísticas multivariable • reglas expertas • “nearest-neighbour”

  11. Kyte-Doolittle hydropathy scale

  12. Problemas observados : • Los métodos de 1a y 2a generación presentaban problemas obvios: • fiabilidad (predicciones 3-estados) < 70% • fiabilidad para las betas 28-48% (~random) • alfas y betas demasiado cortas • Esto es consecuencia de: • las estructuras obtenidas experimentalmente difieren incluso de un cristal a otro • la estructura secundaria depende de interacciones de largo rango (a más de 11-21 residuos adyacentes). Este hecho se acentúa mas para betas que alfas.

  13. Métodos de 3a Generación : La incorporación de la información evolutiva permite una mejora de estas predicciones. Los perfiles de intercambio de residuos extraídos de los alineamientos de una familia son indicativos de detalles estructurales específicos. Además estos perfiles implícitamente contienen información no local, ya que la selección evolutiva de proteínas se hace a nivel de estructura 3D y no a nivel de secuencia. Los perfiles extendidos conseguidos a través de PsiBlast y Hidden-Markov-Models mejoran por tanto las predicciones.

  14. Scheme for PHD Protein Prediction Methods Rost et al. (1997) J. Mol. Biol. 270: 471-480 One level of network PHDacc Two levels of neural network systems: PHDsec and PHDhtm Sequence information from protein family Profile divided from multiple aligment for a window of adjacent residues

  15. Sistemas de Redes Neuronales para la Predicción de Estructura Secundaria (PHDsec)

  16. Predicción de Estructura Secundaria, PSI-Pred http://www.psipred.net • Método de 3 fases : • perfiles de secuencia (matriz de sustitución como input para la red neuronal) • 1a red neuronal • (15 x 21 input, 3 output: h,s,c) • 2a red neuronal • (15 x 4 input, 3 output: h,s,c) • Q3 = 76.7 – 78.3% • Ventana óptima = 15 residuos • 20+1 incluye la posible expansión de la cadena; N-, C- • 3+1 incluye la posibilidad de expansión de N- 340.000 seqs. non redundant Databank Query sequence I-blast 3 Int. Q-blast hits 1st neural network 15x20 input, 3 output 3 state prediction for residue 1 20aa i 15 aa scrolling window around residue i Seq. Leng. 3 state prediction for residue i+1 3 state prediction for residue i+2 Position specific scoring matrix (log odds) 2nd neural network 3x15 input, 3 output

  17. Ventajas y Problemas : • Ventajas: • fiabilidad (predicciones 3-estados) > 70% • fiabilidad para las betas ~ alfa ~ “loops” • Problemas: • malos alineamientos llevan a malas predicciones • confusión de alfas y betas se da en regiones en que se establecen interacciones a largo rango • precaución al evaluar los resultados para proteínas con características inusuales

  18. Ejemplo de la salida de tres servidores de predicción de estructura secundaria y su comparación con el valor experimental La secuencia pertenece a un dominio SH3. La estructura secundaria observada fue asignada con DSSP. Los niveles de fiabilidad de las predicciones son: C+F = 59%, GORIII = 65% y PHD = 72% (C+F y GOR obtuvieron fiabilidades mayores de su media). El “reliability index” presenta valores de 0-9. Para valores de Rel > 4 la predicción fue correcta.

  19. Ejemplo de la fiabilidad (3 estados/residuo) de diferentes servidores de predicción de estructura secundaria Métodos de 1a generación: Chou & Fasman, Lim, GORI Métodos de 2a generación: Schneider, ALB, GORIII Métodos de 3a generación: LPAG, COMBINE, S83, NSSP, PHD

  20. Servidores disponibles: • PHDsec red neuronal que emplea alineamientos múltiples de secuencias. Fiabilidad ~70%. • Jpred2  dos redes neuronales e información evolutiva (PsiBlast). Versión 2 combina los resultados de 4 redes (JNet, NSSP, Predator, PHD) • PROF Basado en alineamientos múltiples y otras características de los residuos obtenidas de bases de datos. Fiabilidad de ~70%. • PSIpred  usa perfiles de PsiBlast (filtrando los resultados) y redes neuronales (combina los resultados de varios métodos de predicción de estructura secundaria). Acierto >76%. • SAM-T99 Una red neuronal y perfiles de alineamientos múltiples mejorados mediante el empleo de "Hidden Markov". • SSpro redes neuronales recurrentes y bidireccionales de ventanas fijas y de pequeño tamaño que permiten usar la cadena proteica completa como input.

  21. Predicción de Estructura Secundaria Accesibilidad al Solvente

  22. Objetivo : Predecir exposición de un residuo al solvente. La accesibilidad se puede describir de varias formas. El método mas detallado y rápido calcula la accesibilidad estimando el volumen expuesto al solvente de cada residuo embebido en una estructura (método desarrollado por Connolly y implementado posteriormente en DSSP). Una simplificación del mismo seria pasar de los valores normalizados (el valor observado dividido por el máximo valor posible) a una descripción con dos posibles estados "buried" (accesibilidad relativa < 16%) y "exposed" (accesibilidad relativa ≥ 16%).

  23. Servidores disponibles: • PHD • PROFphd • JPred2 • PHD y PROFphd (a través de PredictProtein) emplean redes neuronales e incluyen información de los alineamientos. Estos dos servidores son los únicos que predicen valores reales para la accesibilidad relativa (matriz con valores 0, 1, 4, 9, 16, 25, 36, 49, 64, 81). • JPred2 emplea perfiles de PsiBlast como input para sus redes neuronales y devuelve dos estados "buried/exposed".

  24. Perfil de Hidrofobicidad de Kyte-Doolitle

  25. Predicción de Estructura Secundaria Predicción de Proteínas Transmembrana

  26. Descripción : • Uno de los mayores retos de la proteómica es la determinación de la estructura de proteínas transmembrana, ya que son difíciles de cristalizar y de analizar mediante NMR. De aquí su interés. • Existen dos clases principales de proteínas de membrana : • las que introducen hélices en la bicapa lipídica y, • proteínas que forman poros constituidos por barriles de betas (tipo porínas). • Hasta el momento no existen servidores públicos para este segundo grupo debido a la falta de información experimental. La situación es muy diferente para las hélice transmembrana. • La estructura 3D se puede determinar conociendo la precisa localización de las hélices transmembrana explorando simplemente todas las conformaciones posibles. 

  27. Servidores disponibles: • MEMSATintroduce un programa dinámico de optimización para encontrar la mejor predicción basada en preferencias estadísticas • TMAPemplea preferencias estadísticas y perfiles de alineamiento • PHDcombina redes neuronales que emplean información evolutiva con programas dinámicos de optimización para mejorar la predicción • DASoptimiza el uso de perfiles hidrofóbicos • SOSUIcombinación de preferencias hidrofóbicas y anfipáticas para predecir hélices transmembrana • TMHMMes el mas avanzado de los métodos y aparentemente el de mayor fiabilidad . Implementa la información estadística y estas reglas indicadas en los modelos matemáticos " Hidden Markov" para optimizar las predicciones y la localización y orientación de las hélices

  28. Predicción de Estructura Secundaria Otros Motivos Funcionales

  29. Modificaciones Post-transcripcionales • “ExPASy Proteomics tools” • http://www.expasy.ch/tools/: • PSORTpredicción de proteínas de de señal y sitios de localización • TargetPpredicción de la localización subcelular • SignalPpredicción de péptidos señales • ChloroPpredicción de péptidos de cloroplastos • MITOPROTpredicción de secuencias diana de mitocondria • Predotarpredicción de secuencias diana de mitocondria y plástidos • NetOGlycpredicción de sitios de O-glicosilación en proteínas de mamíferos • NDictyOGlycpredicción de sitos de GlcNAc O-glicosilación en “Dictyostelium” • YinOYangpredicción de sitios de unión de O-beta-GlcNAc en proteínas eucarióticas

  30. Modificaciones Post-transcripcionales • “ExPASy Proteomics tools” • http://www.expasy.ch/tools/: • big-PI Predictorpredicción de sitios de modificación GPI (Glicosil-fosfatidil inositol) • DGPIpredicción sitios de anclaje y ruptura de GPI • NetPhospredicción de sitios de fosforilación (Ser, Thr, Tyr) en eucariotas • NetPicoRNApredicción de sitios de ruptura para proteasas en proteínas de picornavirus • NMTpredicción de sitios de N-miristoilación N-terminal • Sulfinatorpredicción de sitios de sulfatación de tirosina

  31. Predicción de Péptidos de Señal http://www.cbs.dtu.dk/services/SignalP/: Predice la presencia y localización de sitios de ruptura de péptidos señal en secuencias proteicas de diferentes organismos.

  32. Predicción de Péptidos de Señal http://www.cbs.dtu.dk/services/SignalP/:

  33. Predicción de Estructura Secundaria EVA : Evaluación de Servidores Automáticos de Predicción de Estructura Secundaria

  34. EVA : Objetivos • Continua, automática y estadísticamente significativa evaluación de los servidores de predicción de estructura de proteínas basándose en estructuras ya conocidas (no se trata de un “metaserver”) • Métodos que cubre : • Predicciones 1D (estructura secundaria, accesibilidad) • Predicciones 2D (distancias interresiduales) • Predicciones 3D (modelado por homología) • Predicciones 3D (métodos de hilvanado o “threading” restringido a buscar homologías entre secuencias) • Predicción de nuevos plegamientos

  35. Predicción de Estructura Secundaria Prácticas

  36. PSI-Pred for Secondary Structure Prediction http://www.psipred.net • Método de 3 fases : • perfiles de secuencia (matriz de sustitución como input para la red neuronal) • 1a red neuronal • (15 x 21 input, 3 output: h,s,c) • 2a red neuronal • (15 x 4 input, 3 output: h,s,c) • Q3 = 76.7 – 78.3% • Ventana óptima = 15 residuos • 20+1 incluye la posible expansión de la cadena; N-, C- • 3+1 incluye la posibilidad de expansión de N-

More Related