100 likes | 270 Views
FILE DEI DATABASE. FASTA GBFF XML ASN. Formato FASTA. Il formato fasta è forse il più utilizzato dai comuni software di ricerca.
E N D
FILE DEI DATABASE • FASTA • GBFF • XML • ASN
Formato FASTA • Il formato fasta è forse il più utilizzato dai comuni software di ricerca. • Esso consiste in un file di testo (*.txt oppure *.fas) che, nella prima riga, comincia con il segno di maggiore; di seguito viene scritto il codice univoco della sequenza e la sua descrizione. • A capo si scrive la sequenza • la sequenza può avere caratteri maiuscoli o minuscoli Esempio: >gi|28916628|gb|AF527032.1| Cynara scolymus clone CLIB12 microsatellite sequence CTCTTGCTTACGCGTGGACTACTGCAAGAAGAAACAAGATGCCAAATTTCGAAACTTTATTTGCAATCCTTCATGGCACCTGCACTCAAACACCTTCCCACACACAGACACACACACACACATATATATACACTTCCTTGTATCATCATAACTGAAATTTTAACAG
Formato GBFF • IL FORMATO DELLA GenBank Il formato di scambio utilizzato per rappresentare la sequenza è il GBFF • GBFF significa GenBank FlatFile. • Il file GBFF può essere scomposto in tre parti. 1. HEADER 2. DEFINITION 3. FEATURE TABLE
Formato GBFF: HEADER • 1-HEADER • La parte iniziale è la più specifica del file, il primo elemento del file è LOCUS che indica il nome del locus, dal punto di vista storico il nome dovrebbe rappresentare anche il nome del record. Solitamente è un insieme di lettere e numeri (massimo 10) ad esempio HUMBB indica il locus della beta-globulina umana. • Al fine di evitare errori o confusioni viene assegnato anche un numero di accesso indicato come un insieme di caratteri alfanumerici, questo numero è unico e specifico. • La lunghezza della sequenza viene indicata con il numero di coppie (da 1 a 350,000), in pratica si trovano sequenze da 10 bp in su; è sempre più frequente ritrovare sequenze corte circa 20 basi, che spesso figurano come “patented”: è possibile che siano sequenze di primer che amplificano geni che sono stati brevettati. • Il termine DNA indica il tipo di molecola utilizzata nella determinazione della sequenza, i tipi possono essere : DNA, RNA, tRNA, rRNA, mRNA e uRNA. • La data rappresenta il giorno in cui la sequenza è stata resa disponibile.
Formato GBFF: DEFINITION • 2-DEFINITION • Con questo termine si riportano le informazioni di tipo biologico relative al record. In generale esiste un certo accordo tra i diversi data base circa la strutturazione della definizione. • L’ACCESSION, rappresenta la chiave primaria ed univoca di accesso a un determinato record. • Questo numero viene anche citato nella pubblicazione relativa (molte riviste richiedono l’accession number per una pubblicazione. • Anche se la sequenza viene aggiornata il numero non cambia. Le possibilità sono di avere una lettera Maiuscola e 5 numeri, oppure da due lettere e 6 numeri. • Si può ritrovare una versione aggiornata dell’accession ma andra solo a sommarsi • Es: ACCESSION AJ507825 VERSION AJ507825.1 GI:27475615 • Possiamo trovare anche un numero di accesso secondario, che costituisce il retaggio di un vecchio sistema di classificazione.
Formato GBFF: DEFINITION • KEYWORDS • Rappresentano un retaggio storico, attualmente l'uso è scoraggiato in quanto molti autori hanno inserito dei termini non contenuti nel vocabolario del data base; inoltre, l’inserimento delle parole chiave non è stato applicato in modo uniforme all’intero database. • SOURCE • Indica il nome comune o il nome scientifico dell’organismo, in molti casi sono presenti anche informazioni relative alla tassonomia • Se si effettua una ricerca per specie, puo essere molto utile il: • TAXONOMY BROWSER presente in NCBI • Ogni records della GenBank riporta una referenza bibliografica, e un link alla pubblicazione di MEDLINE. • Nella parte finale sono riportati i commenti e le note, nel passato si trovavano anche precise indicazioni sugli autori come ad esempio gli indirizzi di posta elettronica o specifiche URL, attualmente questa tendenza viene scoraggiata, in quanto gli indirizzi elettronici tendono a cambiare con una rapidità maggiore rispetto agli indirizzi postali.
Formato GBFF: DEFINITION • A livello scientifico MEDLINE rappresenta la banca dati bibliografica più importante, ogni articolo viene registrato con un codice di identificazione (MUID), attraverso questo numero è facile risalire all'articolo e alla rivista. • Recentemente la NCBI, con MEDLINE e altri editori ha introdotto un nuovo identificatore chiamato PubMed (PMID) che contiene sia gli articoli pubblicati sia anche articoli non ancora pubblicat
Formato GBFF: FEATURE TABLE 3-FEATURE TABLE Rappresenta il nucleo informativo di maggior interesse del record. SOURCEE’ l’unica rappresentazione comune a tutti i records della GenBank, contiene una serie di qualificatori legali e alcuni qualificatori obbligatori (esempio il tipo di organismo). Il qualificatore dell’organismo può essere descritto come genere e specie, sovente l’organismo viene descritto a livello di subspecie. CDS Le CDS costituiscono una serie di istruzioni per leggere e interpretare la sequenza.
DEPOSITIAMO UNA SEQUENZA • BANKIT GenBank Direct Submission • http://www.ncbi.nlm.nih.gov/BankIt/index.html