220 likes | 415 Views
Bases de datos en Bioinformática. Contenidos. La bioinformática y las bases de datos Las bases de datos en biología molecular Formato de la información almacenada. Información en la era genómica. El proyecto genoma humano y similares genera un inmenso flujo de información
E N D
Contenidos • La bioinformática y las bases de datos • Las bases de datos en biología molecular • Formato de la información almacenada Introducción a la Bioinformática
Información en la era genómica • El proyecto genoma humano y similares genera un inmenso flujo de información • Para poder utilizar esta información, ha de estar almacenada correctamente • El acceso a la información almacenada ... • Ha de ser rápido • Debe poder hacerse de manera flexible • Esto es posible gracias a la creación de bases de datos y distribución vía Internet. Introducción a la Bioinformática
Para que se utilizan las bases de datos ? • Búsqueda de información. • Por palabra clave, números de acceso, autores... • Búsqueda de homologías • ¿Hay secuencias igual o parecidas a la mía ? • Búsqueda de patrones • ¿Mi secuencia contienen patrones conocidos? • Predicciones • ¿Puedo encontrar proteínas parecidas a la mía, pero con función conocida? Introducción a la Bioinformática
Aspectos a tener en cuenta • Los proveedores de recursos • Centros o organizaciones especializadas en tener y mantener las bases de datos. • Bases de datos • Hay mucha variedad y contiene información diversa • Las herramientas • Para encontrar información en las BD • Para contrastar secuencias contra las BD • Para exportar la información Introducción a la Bioinformática
Principales proveedores de recursos • El National Center for Biotechnology Information (NCBI) centraliza los bancos de datos y aplicacions de EEUU • El European Bioinformatics Institute (EBI) realiza una función similar en Europa • GenomeNet reune bases de datos diversas en Japón Introducción a la Bioinformática
Tipos de bases de datos • Existen cientos de BD en número tan elevado que no es práctico enumerarlas (aunque aquí lo intentan) • Por el tipo de información que contienen distinguimos • Bases de datos bibliográficas • Bases de datos taxonómicas • Bases de datos de nucleótidos • Bases de datos genómicas • Bases de datos de proteinas • Bases de datos de microarrays Introducción a la Bioinformática
Bases de datos bibliográficas • Organización de los artículos publicados en la revistas de ámbito científico. • Pubmed (NCBI) • Medline (EBI) • Biocatalog: organización de los artículos por temáticas concretas de biología molecular. Introducción a la Bioinformática
Bases de datos taxonómicas • Son BD que contienen información sobre la clasificación de los seres vivos • Esta clasificación es básicamente jerárquica y basada en información molecular • Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos • Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Introducción a la Bioinformática
Bases de datos de nucleótidos • Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica • Existen varias BD que intercambian diariamente su contenido • Genbank (NCBI) • EMBL (EBI) • KEGG (Genome net) Introducción a la Bioinformática
Bases de datos de genomas • Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. • Ensembl (EBI) • Genome viewer (NCBI) • Goldenpath (UCSC) • Existen también recursos genómicos especializados • Transfact: sitios de unión a factores de transcripción. • EST: Expressed Sequence Tags • UTRDB: Untranslated regions • SpliceSitesDB: Pares de señales de splicing Introducción a la Bioinformática
Bases de datos de proteínas • Secuencias primarias de aminoácidos • Sin revisión humana • Trembl (EBI) • nr (NCBI) • Con revisión de la anotación • Swisprot (EBI) • Bases de datos de proteomas • Proteome analysis (EBI) Introducción a la Bioinformática
Proteínas (II) • Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. • BLOCKS: Motivos alineados de PROSITE/PRINTS • PROSITE: Expresiones regulares sobre Swiss-prot • PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL • PFAM: Modelos de Markov sobre Swiss-prot • INTERPRO: Integra la información de muchas bases de datos de dominios. Introducción a la Bioinformática
Proteínas (III) • Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. • PDB: Base de datos principal de estructuras tridimensionales • CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales • MMDB: subset de PDB mantenido por NCBI • MSD: subset de PDB mantenido por EBI Introducción a la Bioinformática
Bases de datos de microarrays • Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. • ArrayExpress (EBI) • Riken Expression Array Database • Eisen Laboratory (Lawrence Berkeley National Lab) Introducción a la Bioinformática
4. El formato de la información Introducción a la Bioinformática
Estructura de las BD • La calidad de la información en una base de datos, está muy relacionas con su estructura • Este aspecto también es crucial para su eficiencia y accesibilidad . • En la actualidad no existe ningún formato único y estándar, usualmente cada base de datos impone su propio formato. Introducción a la Bioinformática
Ejemplo entrada Genbank Introducción a la Bioinformática
Ejemplo entrada EMBL Introducción a la Bioinformática
Información sobre los formatos de las bases de datos Introducción a la Bioinformática