The CATH Domain Structure Database

The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto

Introducción • Mutaciones dieron lugar a familias de proteínas (DAYHOFF) • Las relaciones usando Algoritmos de programación dinámica. • Datos estructurales< Datos secuencia (Debido a cuestiones técnicas) • Actualmente discrepancias mayores a 2 ordenes de magnitud entre recursos de secuencia y de estructura. • PDB 16000 entradas----------NCBI 12 000 000 entradas • 1er cristal (1970) 1ra Clasificación estructural 1990s (SCOP, DALI y CATH)

2do DDBASE, 3DEE, DaliDD (3D) • Reciente comparación entre SCOP, DALI y CATH (+80% de correspondencia) • Debido a que gran proporción de la estructura del CORE (+50%) esta conservada, el alineamiento estructural es mucho mas exacto que el secuencial. • SCOP y CATH contienen actual/ entre 950 – 1400 superfamilias de proteínas. • Estas superfamilias contienen casi 1/3 de las secuencias no redundantes del Gen Bank.

Desarrollo Histórico: • 1993 con menos de 3 000 estructuras de proteínas • Una década después +/- 13 000 entradas del PDB, comprende 33 000 dominios estructurales • 200 000 dominios extraídos del GenBank • Dominio: Importante unidad evolutiva  Debido a que los métodos de modelamiento por homología son más exitosos cuando se trabaja con dominios.

CATH inicialmente como una base de datos de dominios. • CATH divide en clusters: • Phonetically: Basado en Similaridad estructural • Filogenéticamente: Basado en Aparente relación evolutiva • Ambigüedades automáticas son validadas manualmente y el mayor cuello de botella en la clasificación corresponde a la detección de dominios limítrofes y la verificación de sus homólogos relacionados.

Niveles CATH • Clase: estructura secundaria. • Arquitectura: orientación de estructura secundaria en 3D. • Topología: orientación estructural (folds) • Homología: agrupadas según la evidencia (estructural, secuencia, similaridad funcional).

Sequence identity >= 35%, overlap >= 60% of larger structure equivalent to smaller. • SSAP score >= 80.0, sequence identity >= 20%, 60% of larger structure equivalent to smaller. • SSAP score >= 70.0, 60% of larger structure equivalent to smaller, and domains which have related functions, which is informed by the literature and Pfam protein family database, (Bateman et al., 2004).

Estrategia • Método pairwise • Perfil comparativo de secuencias y estructuras es usado para detectar mayores distancias. • Examinación automática y manual para determinar dominios. • Recomparación de dominios. • Estructuras no clasificadas son manualmente asignadas.

SSAP • Sequential Structure Aligment Program • Adaptación de programación dinámica a 3D. • Comparación de ambiente estructural de residuos entre proteínas. • 2 niveles: • Superior: acumulación sobre pares equivalentes • Inferior: comparación entre ambiente estructural de residuos

GRATH • Compara estructuras secundarias entre proteínas. • Representación vectorial y son asociados con los “nudos” en un gráfico. • Ángulos de inclinación y rotación para detectar motivos estructurales.

CORA • Alineamiento progresivo estructura consenso alineamiento contra cada una. • Se hace un template 3D. • Reconoce homólogos distantes (estructural) • Librería CORA. • Más rápido, sensible y selectivo que el SSAP.

Identificación de Dominios • Algunas proteínas no se pueden clasificar. • No definición cuantitativa de dominio. • Cualitativa: unidad plegada compacta semindependiente. • Protocolo DBS (PUU, DOMAK, DETECTIVE). • Ambigüedades: Manualmente validadas. • 17 % discordancia entre SCOP y CATH

DHS • Datos de: secuencia, estructura y función. • Información sobre relación de pares de bases, E value, identidad de secuencias. • PDB, Swiss prot, PROSITE, Gen ProtEC

GENE 3D Resource

Estadística en Poblaciones • Actualmente existen: • 36  28 Bien definidas8 Irregulares, Complejas, Poco estables. • 6 estructuras características: • α bundles • 2 capas β sandwich • Barriles β • 2 capas de αβ sandwich • 3 capas de αβ sandwich • αβ barriles

Estadística en Poblaciones • Algunos grupos de plegamientos son particularmente “Gregarios”. • Sin embargo 15% de los Folds son distintos • Estructuras que comparten el mismo FOLD pero que descienden de ancestro común: • Análogos

The CATH Domain Structure Database

The CATH Domain Structure Database

Presentation Transcript

Port-A- Cath

Structure database: PDB

Relational Database Structure

Cath Wohlers

Multidimensional Database Structure

domain database

Cath Flin

Cath Sisson

Cath Conference

CATH â€“ a hierarchic classification of protein domain structures

The CATH database

GPF Dev Weblogic Domain Structure

Database 5: protein domain/family

Cath Flin

Protein Structure Database Introduction

the European Macromolecular Structure Database (EMSD).

Cath

Cath-Tech

Database Structure Review

Hungarian plant trait database – the structure

SCOP – Protein structure classification CATH – Protein structure classification