Fundamentos de la Proteómica Clásica MAPAS DE PÉPTIDOS. IDENTIFICACIÓN DE

Curso de doctorado “Estructura y Función de Macromoléculas” TÉCNICAS DE SECUENCIACIÓN DE PROTEÍNAS Fundamentos de la Proteómica Clásica MAPAS DE PÉPTIDOS. IDENTIFICACIÓN DE PROTEÍNAS A PARTIR DE PÉPTIDOS Alberto Jorge García Laboratorio de Química de Proteínas y Proteómica CBM-SO. CSIC-UAM ajorge@cbm.uam.es

Transferencia a PVDF Digestión bandas (1D) o spots (2D) Extracción de péptidos Identificación proteína MALDI-TOF (PMF) Búsqueda DB LC-ESI-MS/MS Secuenciación automática Separación HPLC colección de fracciones nano-ESI-MS/MS Secuenciación manual Desalado Análisis PTMs “De Novo” Secuenciación N-terminal Aproximaciones Clásicas para el Análisis del Proteoma Geles 1D ó 2D Degradación de Edman

Identificación de una proteína PROTEÍNA: Conjunto de aminoácidos ordenados en una secuencia específica para dar lugar a una propiedad o actividad definida Para la identificación de una proteína se necesita obtener información de la misma que sea única para esa proteína en particular pI ó MW no siempre permiten hacer una asignación única ?

R-CO-NH-R´ + H2O R-COOH + 2HN-R´ • 3. Mediante comparación con patrones de aminoácidos: • Identificación tiempo de retención en la columna • Cuantificación área de los picos Técnicas Clásicas en Química de Proteínas ANÁLISIS DE AMINOÁCIDOS • Hidrólisis de péptidos o proteínas • Ácida (6M HCl, 110 ºC, 18-24h) • Alcalina (NaOH 4.2N) • Separación y detección de los aminoácidos por HPLC

Técnicas Clásicas en Química de Proteínas Permite conocer la composición de aminoácidos de una proteína pero no la secuencia de la misma

Técnicas Clásicas en Química de Proteínas DEGRADACIÓN DE EDMAN (1950)  Las proteínas son “degradadas” en su extremo N-terminal mediante el acoplamiento de feniltioisocianato (PITC)  La reacción se divide en tres etapas: -Acoplamiento - Ruptura - Conversión  Durante un ciclo de reacción el residuo N-term. del polipéptido es cortado y analizado por HPLC  Queda libre el extremo N-term. del segundo residuo susceptible de un nuevo ciclo  Se obtiene una secuencia de aminoácidos con tantos residuos como ciclos de reacción

CICLO 1 + N-term-aa2-aa3-aa4-aa5-aa6-C-term PTH-aa1 CICLO 2 N-term-aa3-aa4-aa5-aa6-C-term PTH-aa2 + CICLO 3 + N-term-aa4-aa5-aa6-C-term PTH-aa3 CICLO 4 + N-term-aa5-aa6-C-term PTH-aa4 Técnicas Clásicas en Química de Proteínas N-term-aa1-aa2-aa3-aa4-aa5-aa6-C-term ...

S-fosfo Técnicas Clásicas en Química de Proteínas Separación cromatográfica de una mezcla patrón de PTH-aas

Técnicas Clásicas en Química de Proteínas Vigentes hasta hace poco más de 4-5 años Identificación “textual” de la proteína Estudios muy costosos Pormenorizados Muy lentos Mantenimiento complicado Reacciones secundarias no deseables Información limitada

Peptide Mass Fingerprinting (PMF) EVOLUCIÓN HISTÓRICA  Necesidad de desarrollar una técnica que permitiese aumentar la velocidad de análisis de las proteínas, cuyo objetivo inicial fue determinar de una forma rápida cuáles eran las proteínas más abundantes de una muestra que, generalmente, no son las de interés  Los métodos de ionización empleados entonces en espectrometría de masas (FAB y PDMS) eran incapaces de producir iones de proteínas mayores de 20 kDa y necesitaban gran cantidad de muestra  El desarrollo, a principios de los 90, de técnicas de ionización suave (MALDI y ESI) que permitían el análisis de cantidades menores (inferiores al pmol) y podían trabajar con proteínas de hasta 100 kDa tuvo un gran impacto en el PMF

Si se corta una proteína de forma predecible, los tamaños de las piezas obtenidas conformarán la “huella peptídica” de esa proteína Si cada proteína presente en una DB puede ser cortada “in silico” de la misma forma, la huella peptídica permitirá la identificación de la proteína Peptide Mass Fingerprinting (PMF) HIPÓTESIS

Tripsina Corta R-X y K-X excepto si X=P Peptide Mass Fingerprinting (PMF) PROCEDIMIENTO  El “corte” de la proteína se realiza mediante digestión enzimática utilizando proteasas que rompen la proteína generando un determinado número de péptidos  La “huella peptídica” de una proteína dependerá de la proteasa empleada, pero es única para cada una de ellas

>sp|P02769|ALBU_BOVIN Serum albumin precursor (Allergen Bos d 6) (BSA) – Bos taurus (Bovine) MKWVTFISLLLLFSSAYSRGVFRRDTHKSEIAHRFKDLGEEHFKGLVLIAFSQYLQQCPFDEHVKLVNELTEFAKTCVADESHAGCEKSLHTLFGDELCKVASLRETYGDMADCCEKQEPERNECFLSHKDDSPDLPKLKPDPNTLCDEFKADEKKFWGKYLYEIARRHPYFYAPELLYYANKYNGVFQECCQAEDKGACLLPKIETMREKVLASSARQRLRCASIQKFGERALKAWSVARLSQKFPKAEFVEVTKLVTDLTKVHKECCHGDLLECADDRADLAKYICDNQDTISSKLKECCDKPLLEKSHCIAEVEKDAIPENLPPLTADFAEDKDVCKNYQEAKDAFLGSFLYEYSRRHPEYAVSVLLRLAKEYEATLEECCAKDDPHACYSTVFDKLKHLVDEPQNLIKQNCDQFEKLGEYGFQNALIVRYTRKVPQVSTPTLVEVSRSLGKVGTRCCTKPESERMPCTEDYLSLILNRLCVLHEKTPVSEKVTKCCTESLVNRRPCFSALTPDETYVPKAFDEKLFTFHADICTLPDTEKQIKKQTALVELLKHKPKATEEQLKTVMENFVAFVDKCCAADDKEACFAVEGPKLVVSTQTALA Secuencia Parcial PM M+H+ Secuencia Parcial PM M+H+ Secuencia Parcial PM M+H+ Secuencia Parcial PM M+H+ Peptide Mass Fingerprinting (PMF)

Produce una digestión teórica de todas las proteínas presentes en una DB con una enzima específica Compara esas masas teóricas con las masas observadas experimentalmente Asigna una puntuación (score) a los péptidos/proteínas que coinciden en función del grado de coincidencia Peptide Mass Fingerprinting (PMF)

Peptide Mass Fingerprinting (PMF) MAPAS TEÓRICOS MAPA EXPERIMENTAL Cortesía de Bruker Daltonics

Intens. [a.u.] 1479.859 1163.692 5000 927.541 1439.863 4000 3000 1415.681 2000 1639.999 1163.692 1000 1283.739 1823.962 1955.951 830.441 1823.962 1823.962 1823.962 1163.692 0 800 1000 1200 1400 1600 1800 2000 2200 2400 m/z Peptide Mass Fingerprinting (PMF) Mapa MALDI-TOF de un digerido en gel de BSA

MASCOT: http://matrixscience.com ProFound:http://129.85.19.192/profound_bin/WebProFound.exe MS-Fit: http://prospector.ucsf.edu/ucsfhtml4.0/msfit.htm PeptIdent: http://ua.expasy.org/tools/peptident.html Aldente: http://ua.expasy.org/tools/aldente.html Búsqueda en las Bases de Datos En la actualidad hay disponibles en la web varios motores de búsqueda:

Búsqueda en las Bases de Datos

Parámetros de búsqueda: BASES DE DATOS

- DB con bajo nivel de redundancia - Gran nº de anotaciones (función, variantes de secuencia, etc) SwissProt - DB de proteínas no idénticas - Diseñada específicamente para aplicaciones de MS MSDB - DB de ác. nucléicos y proteínas no idénticas - Las entradas han sido compiladas a partir de traducciones de GenBank, PIR, SWISS-PROT, PRF y PDB - Es la mayor y la que más frecuentemente se actualiza NCBInr No utilizadas para PMF: dbEST: DB de “Expressed Sequence Tags” Random: DB de secuencias aleatorias. Utilizada para la verificación estadística de los resultados OWL: DB de proteínas no idénticas. Sin actualizar desde 1999 Parámetros de búsqueda: BASES DE DATOS

Parámetros de búsqueda: TAXONOMÍA

Parámetros de búsqueda: TAXONOMÍA Permite limitar la búsqueda a entradas de un grupo de especies o una especie en particular aumentando la velocidad de la búsqueda Inconveniente:Falta de un sistema riguroso para especificar la taxonomía en las DB ¡! Los principales problemas son: • El texto de una entrada puede no especificar la taxonomía • Hay múltiples nombres para una única especie (homo sapiens, human, man) • Existen nombres con errores (homo sapeins) • Reclasificación continua de especies • En las DBnr, una única entrada puede representar secuencias idénticas pertenecientes a múltiples especies

“None” Para péptidos que no se han originado a partir de una digestión enzimática (ej. MHC) No es una buena elección para PMF “SemiTrypsin” Para péptidos producto de un doble corte inespecífico Parámetros de búsqueda: ENZIMA

Aumenta el tiempo de búsqueda Aumenta el número de asignaciones aleatorias Disminuye la discriminación y la puntuación final Parámetros de búsqueda: MISSED CLEAVAGES ¡! Es conveniente no especificar más de 2 cortes parciales ya que el aumento supone incrementar el número de péptidos a los que se enfrentarán los datos experimentales con lo cual:

Parámetros de búsqueda: MODIFICACIONES

Ej. Carbamidomethyl (C) + 57 Da C 103 Da 160 Da Aumenta el tiempo de búsqueda Aumenta el número de asignaciones aleatorias Disminuye la discriminación y la puntuación final Parámetros de búsqueda: MODIFICACIONES FIJAS • Modificación aplicada universalmente • No produce aumento en el número de péptidos VARIABLES •Modificación que puede o no estar presente •Se buscan todas las posibles combinaciones para encontrar la mejor asignación Ej. Oxidation (M) + 16 Da AIMCTHDMEYWMK AIMCTHDMEYWMK AIMCTHDMEYWMK AIMCTHDMEYWMK AIMCTHDMEYWMK AIMCTHDMEYWMK AIMCTHDMEYWMK AIMCTHDMEYWMK ¡! •Cada modif. variable puede generar varios péptidos adicionales para ser testados:

Plata Coomassie / Sypro Variables Variables Fijas Fijas - - Met oxidada (+16 Da) Met oxidada (+16Da) - - Propionamida (+71 Da) Propionamida (+71 Da) 1-D - C-betamercapto (+76 Da) - C-betamercapto (+76 Da) - C-carbamidometilada (+57 Da) C-carbamidometilada (+ 57 Da) Met oxidada (+16 Da) C-carbamidometilada (+ 57 Da) Met oxidada (+16 Da) 2-D Parámetros de búsqueda: MODIFICACIONES Modificaciones causadas por la preparación de la muestra:

Acetilación N-terminal: +42 Da Induce un incremento en la ionización del péptido produciendo picos muy intensos Fosforilación (S, T, Y): +80 Da Dificulta la ionización. Es más difícil de detectar por PMF Seleccionar la modificación como variable (menos recomendable) Deberá aparecer con un desplazamiento en m/z equivalente a la modificación Buscar el péptido modificado en el mapa Parámetros de búsqueda: MODIFICACIONES Modificaciones Post-traduccionales:  Juegan un papel fundamental en la funcionalidad de las proteínas  Las más comunes son:  Si estamos seguros de que nuestra proteína está modificada podemos:

Parámetros de búsqueda: MW DE LA PROTEÍNA

Si se restringe la búsqueda a un rango muy estrecho en torno al MW Alta probabilidad de que se produzca una asignación errónea MASCOT MW límite superior  Proteínas de mayor MW Extendiendo la secuencia como máximo una longitud igual a MW especificado Parámetros de búsqueda: MW DE LA PROTEÍNA La mayoría de las entradas en las DB corresponden a la forma menos procesada de la proteína ¡! Permite encontrar asignaciones correspondientes a:  Proteínas de menor MW

INS_BOVIN (SwissProt) PRECURSOR (incl. pépt. señal y conectores) MW 11394 Da Procesamiento posterior a la traducción INSULINA (MW 5734 Da) Límite superior de la búsqueda en MASCOT superior al MW de la forma menos procesada de la proteína Alta probabilidad de que la asignación sea correcta Parámetros de búsqueda: MW DE LA PROTEÍNA Ejemplo : 5734 Da x 2 = 11468 Da > 11394 Da

Es el margen de error permitido para las masas experimentales de los péptidos Parámetros de búsqueda: TOLERANCIA DE LOS PÉPTIDOS

% fracción expresada como porcentaje mmu unidades absolutas de mili-masa (ej. unidades de .001 Da) Da unidades absolutas de Da ppm fracción expresada como partes por millón búsqueda de un péptido de 1000.00 Da  100 ppm se busca entre 999.90 Da y 1000.10 Da probabilidad buena asignación exactitud tolerancia Parámetros de búsqueda: TOLERANCIA DE LOS PÉPTIDOS Unidades: La tolerancia permitida dependerá de la exactitud de masa del equipo y de la calibración

Average Modo Lineal Modo Reflector Monoisotópico (mayor resolución) Parámetros de búsqueda: VALORES DE MASAS

Parámetros de búsqueda: DATA FILE OR QUERY Data file: Formato ASCII (texto simple). Si se especifica, MASCOT ignora Query

Principalmente si se trabaja a alta sensibilidad donde la intensidad de los péptidos es semejante a la de los contaminantes (matriz, queratinas, autolisis de tripsina) ¡Inconveniente! Ej. Proteína 20 KDa. Digestión triptica 20-40 péptidos Lista de 100 masas 60-80 péptidos son ruido o contaminantes Probabilidad de asignaciones aleatorias Parámetros de búsqueda: LISTA DE MASAS Para PMF se emplea una lista de masas donde no se tiene en cuenta la intensidad de los picos ¡!

Parámetros de búsqueda: LISTA DE MASAS Método óptimo:  Buen rendimiento de digestión  Correcta manipulación de la muestra  Equipo que permita buena resolución y exactitud de masa  Adecuada calibración  Adquisición del espectro idónea  Conocer las masas de los contaminantes

Número máximo de resultados a mostrar Incluye en los resultados una tabla descriptiva AUTO: muestra sólo las proteínas con puntuación significativa Parámetros de búsqueda: OVERVIEW AND REPORT HITS

Digerido en gel de BSA Ejemplo real

Start Search ...

Zona de incertidumbre Albumin (Bos taurus) RESULTADOS

RESULTADOS Index

RESULTADOS Results List

RESULTADOS Overview Table gi|418694 gi|30794280

Protein View RESULTADOS

Análisis cuidadoso de los resultados Del total de masas experimentales, ¿cuántas “encajan” con la proteína? Las masas asignadas a la proteína, ¿son las más abundantes del espectro? ¿Cuánto se aleja nuestro resultado de la zona de incertidumbre? Coincidencia del resultado empleando distintos motores de búsqueda Coincidencia del resultado haciendo la digestión con distintas proteasas Interpretación de los Resultados He identificado una proteína pero... ¿Es realmente correcta la identificación?

¿El resultado apoya lo que se conoce previamente? Coincidencia de la especie, tejido, compartimento subcelular, etc Coincidencia del MW Precauciones: MW obs. > MW esp. En DB, forma menos procesada MW obs. < MW esp. ¿La prot. es oligomérica y vemos el oligómero? Interpretación de los Resultados ¿MW esp. es de una prot. degradada? . . .

Análisis rápido y con bajo coste Alta sensibilidad Aplicable para un elevado número de muestras La proteína debe estar en la DB o presentar un alto grado de homología con proteínas presentes para poder ser identificada No aplicable para proteínas menores de 15 kDa o proteínas con alto número de modificaciones Dificil identificación de mezclas de proteínas Ventajas y Limitaciones del PMF VENTAJAS LIMITACIONES

Aplicaciones  Identificación de proteínas  Determinación de la localización subcelular  Identificación de sustratos de proteínas quinasas  Determinación de la identidad de una proteína asociada con una determinada actividad observada  Identificación de complejos de interacción

Fundamentos de la Proteómica Clásica MAPAS DE PÉPTIDOS. IDENTIFICACIÓN DE