D ocenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia

Master FSE 2005 - c3 - 006/732Modulo di Bioinformatica24 ore Docenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel. 0039 049 8276214 Email: stefibo@bio.unipd.it

Bioinformatica - OBIETTIVI Utilizzare Database per recuperare informazioni biomediche Utilizzare specifici programmi per analizzare le informazioni disponibili nei database, per avvantaggiarsi nel disegno e nella programmazione dell’attivita’ sperimentale Utilizzare metodologie e programmi per analizzare dataset complessi per descrivere e comprendere i fenomeni biologici

I LEZIONE • Database primari e Database secondari • Database di sequenze nucleotidiche e proteiche • GenBank • SWISSPROT • ENTREZ

INTRODUZIONE ALL’UTILIZZO DI DATABASE Struttura e organizzazione di database I database sono insiemi di dati memorizzati su un computer con diversi livelli di astrazione al di sopra di essi. Ogni livello di astrazione consente di organizzare i dati contenuti e accedervi piu' facilmente, separando la richiesta dal meccanismo di recupero di specifici dati. Database diversi organizzano i dati in modi differenti database relazionali (RDBMS, RelationalDatabase Management Systems) es. Oracle metodologia orientata agli oggetti (OODBMS) Tutti i sistemi di database impiegano delle interfacce (API, Application Programming Interface) per accedere ai dati ed eventualmente modificarli. La manipolazione dei dati avviene attraverso un linguaggio di interrogazione che permette essenzialmente quattro operazioni principali: acquisizione, memorizzazione, aggiornamento ed eliminazione di dati.

INTRODUZIONE ALL’UTILIZZO DI DATABASE Database flat-file • Il tipo piu' semplice di database e' il database flat-file, formato da files di testo ASCII in formato standard che il programa esamina per cercare informazioni. • Il formato e' di solito costituito da un insieme di campi, contenenti ciascuno una specifica categoria di informazioni, delimitati attraverso caratteri speciali o con lunghezza fissa assegnata. • Il pregio principale dei database flat-file e' la semplicita' di gestione, controbilanciata pero' dalla loro incapacita' di gestire accesso concorrente e dalla mancanza di indicizzazione dei dati, che non consente interrogazioni sequenziali.

DATABASE FLAT-FILE ENTRY AC TT13627 NA The ultimate chocolate cake IN cacao, uova, farina, burro GR 180 °C TM 40 minuti CA 500 OR Vienna RE Dolci Austriaci, Ed.Frankfurter

DATABASE PRIMARI E DATABASE SECONDARI ORGANIZZANO RISPETTIVAMENTE DATI ORIGINALI E CONOSCENZA GENERATA A PARTIRE DA ANALISI DI DATI O INTEGRAZIONE DI DATI DIVERSI LEVELS OF PROTEIN SEQUENCE AND STRUCTURAL ORGANISATION PRIMARY sequence primary database SECONDARY motif secondary database TERTIARY domain module secondary database

DATABASE PRIMARI DATABASE DI SEQUENZE NUCLEOTIDICHE Collezioni di singoli record, ognuno dei quali contiene un tratto di DNA o RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha un codice che lo identifica univocamente (ACCESSION NUMBER). Le tre principali banche dati primarie di sequenze nucleotidiche sono: EMBL nucleotide database, ora gestita dall’EBI (1980) • EMBL = European Molecular Biology Laboratory (Heidelberg) • EBI = European Bioinformatics Institute (Hinxton, UK) GenBank = banca dell NIH gestita dal NCBI (1982) • NIH = National Institutes of Health (Stuttura USA) • NCBI = National Center for Biotechnology Information, Bethesda, Maryland DDBJ = banca DNA giapponese (1986) • DDBJ = DNA DataBase of Japan SCAMBIO DI DATI Nel 1988, i gruppi responsabili dei 3 database (EMBL, DDBJ e GB) si sono organizzati nell’International Collaboration of DNA Sequence Databases per utilizzare un formato comune e scambiarsi giornalmente le sequenze.

DATABASE DI SEQUENZE NUCLEOTIDICHE GenBank SUBMISSION DIRETTALa gran parte delle sequenze finisce in uno dei tre database perché l’autore (il laboratorio dove tale sequenza é stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà solo di quel database, l’unico con il diritto di modificarlo. Il database che riceve la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un database sono presenti anche negli altri due. ANNOTAZIONECi sono poi anche degli “annotatori” che prendono le sequenze dalle riviste scientifiche e le trasferiscono nel database. Problema della ridondanza.

DATABASE DI SEQUENZE NUCLEOTIDICHE GenBank: updatein Nucleic Acids Res. 2004 GenBank is a comprehensive database that contains publicly available DNA sequences for more than 140 000 named organisms, obtained primarily through submissions from individual laboratories and batch submissions from large-scale sequencing projects. Most submissions are made using the BankIt (web) or Sequin program and accession numbers are assigned by GenBank staff upon receipt. Daily data exchange with the EMBL Data Library in the UK and the DNA Data Bank of Japan helps ensure worldwide coverage. GenBank is accessible through NCBI’s retrieval system, Entrez, which integrates data from the major DNA and protein sequence databases along with taxonomy, genome mapping, protein structure and domain information, and the biomedical journal literature via PubMed. BLAST provides sequence similarity searches of GenBank and other sequence databases. Complete bimonthly releases and daily updates of the GenBank database are available by FTP.

DATABASE DI SEQUENZE NUCLEOTIDICHE GenBank contiene diverse sezioni (gruppi tassonomici e strategie di sequenziamento) dbEST database pubblico di "Expressed Sequence Tags" (sequenze espresse contrassegnate), contiene tutte le sequenze ottenute dal sequenziamento parziale o totale di cloni di cDNA, molto utili per: Identificare nuovi geni Studiare la struttura esoni/introni di geni Studiare l’espressione genica dbEST release 032505 Summary by Organism - March 25, 2005 Number of public entries: 26,447,540 Homo sapiens (human) 6,053,997 Mus musculus + domesticus (mouse) 4,334,005 Xenopus tropicalis 887,961 Drosophila melanogaster (fruit fly) 383,407

DATABASE DI SEQUENZE NUCLEOTIDICHE GenBank contiene diverse sezioni (gruppi tassonomici e strategie di sequenziamento) GSSs - genome survey sequences; short, single pass read genomic sequences, exon trapped sequences, cosmid/BAC/YAC ends, others. HTGs - high throughput genome sequences from large scale genome sequencing centers; unfinished (phase 0, 1, 2) and finished (phase 3) sequences. (Note that contigs assembled from draft and finished human HTG sequences are accessible from the Map Viewer, described below.) STSs - sequence tagged sites; short sequences that are operationally unique in the genome, used to generate mapping reagents. WGS - whole genome shotgun sequences.

Come e’ fatta un’entry di GenBank ? http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

DATABASE PRIMARI DATABASE DI SEQUENZE PROTEICHE SWISS-PROT Database di sequenze proteiche annotate, “scarsamente” ridondanti e cross-referenced Contiene TrEMBL, supplemento a SWISS-PROT costituito dalle sequenze annotate al computer, come traduzione di tutte le sequenze codificanti presenti all’EMBL TrEMBL contiene due sezioni: SP-TrEMBL, sequenze da incorporare in SWISSPROT, con AC. REM-TrEMBL, remaining (immunoglobuline, proteine sintetiche, ...), senza AC. TrEMBLnew, generato ogni settimana.

UniProt (Universal Protein Resource) Il piu’ grande catalogo di informazioni sulle proteine. Contiene informazioni sulla sequenza e sulla funzione di proteine ed e’ ottenuto dall’insieme delle informazioni contenute in Swiss-Prot, TrEMBL e PIR. UniProt ha 3 componenti: • UniProt Knowledgebase (UniProt) ther central access point for extensive curated protein information, including function, classification, and cross-reference. • UniProt Non-redundant Reference (UniRef) databases combine closely related sequences into a single record to speed searches. • UniProt Archive (UniParc) is a comprehensive repository, reflecting the history of all protein sequences.

UniProt (Universal Protein Resource) The UniProt Knowledgebase consists of two parts, a section containing fully manually-annotated records resulting from information extracted from literature and curator-evaluated computational analyses, and a section with computationally-analysed records awaiting full manual annotation. For the sake of continuity and name recognition, the two sections are referred to as "UniProtKB/Swiss-Prot" and "UniProtKB/TrEMBL", respectively. http://www.expasy.uniprot.org/index.shtml http://www.expasy.uniprot.org/search/tools.shtml

ENTREZ • E' stato sviluppato all’NCBI (National Center for Biotechnology Information, USA) per permettere l'accesso a dati di biologia molecolare e citazioni bibliografiche. • Sfrutta il concetto di "neighbouring“: possibilita' di collegare tra loro oggetti diversi di database differenti, indipendentemente dal fatto che essi siano direttamente "cross-referenced". • Tipicamente, ENTREZ permette l'accesso a database di sequenze nucleotidiche, di sequenze proteiche, di mappaggio di cromosomi e di genomi, di struttura 3D e bibliografici (PubMed).

DATABASE COMPOSITI E INFORMATION RETRIEVAL ENTREZ Permette di accedere a diversi tipi di database: Nucleotide Dati di sequenza da GenBank, EMBL, and DDBJ Protein Traduzione delle sequenze codificanti in GenBank, EMBL and DDBJ e sequenze di proteine sottomesse a PIR, SWISSPROT, PRF, Protein Data Bank (PDB) (sequenze da strutture risolte) Genome Sequenze di genomi completi di molti organismi; cromosomi completi; mappe di contigui; mappe genetiche/fisiche integrate Structure  Struttura 3D di proteine ovvero dati sperimentali di cristallografia e NMR (Cn3D program) PopSet Sequenze allineate, risultato di studi di genetica di popolazione, filogenesi e mutazione. Sia proteine che nucleotidi ...

Esempi di ricerca in: • Pubmed • Bookshelf • Nucleotide • Protein • Genomes • SNP • CDD • …

D ocenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia