460 likes | 749 Views
Dot.ssa Elena Papaleo elena.papaleo@unimib.it Stanza 4065 (U3). Biologia Computazionale. PROGRAMMA DEL CORSO banche dati di sequenze e strutture di proteine allineamenti di sequenza motivi conservati di sequenza e profili predizione di strutture secondarie e terziarie di proteine
E N D
Dot.ssa Elena Papaleo elena.papaleo@unimib.it Stanza 4065 (U3) Biologia Computazionale PROGRAMMA DEL CORSO banche dati di sequenze e strutture di proteine allineamenti di sequenza motivi conservati di sequenza e profili predizione di strutture secondarie e terziarie di proteine analisi di strutture di proteine analisi filogenetiche simulazioni di dinamica molecolare TESTO CONSIGLIATO Pascarella, Paiardini – Bioinformatica - Zanichelli
Dot.ssa Elena Papaleo elena.papaleo@unimib.it Biologia Computazionale Esercitazioni in laboratorio U3-11, primo piano U3 Turno A Lunedì 31 gennaio 8.30-12.30 Lunedì 14 febbraio 8.30-12.30 Lunedì 21 febbraio 8.30-12.30 Turno B Mercoledì 16 febbraio 13.30-17.30 Mercoledì 23 febbraio 13.30-17.30 Lunedì 28 febbraio 8.30-12.30
MATERIALE DEL CORSO http://linux.btbs.unimib.it/teaching/resources/compbio/ http://linux.btbs.unimib.it
Biologia Computazionale approccio multidisciplinare studio di problemi biologici attraverso le metodologie della bioinformatica metodi informatici di applicazione generale che si ispirano a principi della biologia (algoritmi genetici, reti neurali)
“A prerequisitetounderstanding the complete biologyofanorganismis the determinationofitsentiregenomesequence” Fleischmannet al. 1995 Sequenziamento di interi genomi (determinazione della sequenza lineare delle basi che compongono il DNA (A,T,C,G)) Il DNA umano è composto da 3.12 miliardi di paia di basi Genomica e Progetti Genoma La conoscenza di interi genomi → aumento esponenziale sequenze di geni → bioinformatica per archiviazione e organizzazione dati 2000-2001
La sola sequenza, anche se completa, del genoma sarà SUFFICIENTE a comprendere le funzioni (e disfunzioni) biologiche del nostro organismo? Era post-genomica Bioinformatica per analisi razionale di dati genomici
Genomica: è la disciplina che studia genomi completi • Dalla genomica sono derivate per assonanza numerosi termini che indicano lo studio d’insieme di vari aspetti degli esseri viventi: • Trascrittomica • Proteomica • Metabolomica • Glicosilomica • Farmacogenomica • …. • → NECESSITA’ di un SISTEMA di ARCHIVIAZIONE e di ritrovamento dei dati facile ed esaustivo Le -omiche
>gi|8886401|gb|AF162269.1| CCCACTCCTCCATCTCACAAACACTTCTCTATACCCAACAATCCCTTTTACAATCCCTGCTCATTTAGTCAAAATGGTCAAGATTGCTGCTATCATCCTCCTCATGGGCATTCTCGCCAATGCTGCCGCCATCCCTGTCATTTCAACACCCAAATTACAGAGCCAACCGGCGAGGGCGACCGTGGGGACGTGGCCGAC Sequenze di acidi nucleici Gli oggetti della Bioinformatica >P25032 MASSSSATSGDDRPPAAGGGTPAQAHAEWAASMHAYYAAAASAAGHPYAWPLPPQAQQHGLVAAGAGAAYGAGAVPHVPPPPAGTRHAHASMAAGVPYMA Sequenze proteiche Strutture di macromolecole
Gestione dei dati biologici • Mantenimento, organizzazione, distribuzione… Le funzioni della bioinformatica • Analisi dei dati biologici • Inferenze e predizioni sul significato biologico…
Gestione dei dati biologici • Mantenimento, organizzazione, distribuzione… Le funzioni della bioinformatica • Analisi dei dati biologici • Inferenze e predizioni sul significato biologico…
Banche dati di bio-sequenze(ac. nucleici, proteine) • Banche dati genomiche • Banche dati di espressione genica • Banche dati di strutture di biomolecole Le banche dati bioinformatiche
Data una sequenza nucleotidica è possibile tradurla usando tutti e tre i frame di lettura (+1, +2, +3) di entrambi i filamenti (senso e antisenso), allo scopo di individuare una ORF (Open Reading Frame) • ORF: sequenza proteica di lunghezza adatta ad essere una proteina (> 70-100 aa). • con programmi appositi che scansionano in questo modo tutto il genoma, è possibile trovare tantissime proteine PUTATIVE, cioè possibili ma non verificate ORF-Finder
Il codice genetico • degenerato e ridondante • 64 diversi codoni → 20 amminoacidi
Le proteine sono composte solo da alfa-amino acidi, legati tra loro mediante legami PEPTIDICI che si instaurano tra il COOH (gr. Carbossilico) e NH2 (gr. amminico) • Ciò che diversifica i vari amminoacidi è la catena laterale legata al carbonio alfa che può conferire all’ amminoacido caratteristiche chimico-fisiche diverse • 20 diversi amminoacidi noti in natura come componenti delle proteine Amminoacidi
INTERAZIONI DEBOLI • Le proteine sono influenzate dalle caratteristiche chimico-fisiche delle catene laterali dei residui che le compongono e in base a principi di interazioni deboli di tipo IDROFOBICO o ELETTROSTATICO si osservano dei ripiegamenti, fino al raggiungimento della minor energia termodinamica. (FOLDING) • Solo se correttamente strutturate esse assumeranno la loro forma e funzione definitiva • misfoldingdiseases • La struttura assunta dalle proteine dipenderà dalla sequenza dei residui che le compongono oltre che dall’ambiente in cui si strutturano
LEGAME PEPTIDICO e STRUTTURE SECONDARIE • Il legame peptidico ha caratteristiche di doppio legame e costringe i due atomi adiacenti a giacere sullo stesso piano. La rotazione della molecola avviene intorno al carbonio α, ma non tutti gli angoli di rotazione sono permessi a causa di ingombri sterici delle diverse catene laterali e dello scheletro stesso • Il legame peptidico genera una polarità negli scheletri proteici per cui si vengono a formare LEGAMI a IDROGENO tra gli idrogeni dei gruppi ammidici e ossigeni dei carbonili. Queste interazioni deboli portano la struttura primaria della proteina a ripiegarsi in una STRUTTURA SECONDARIA • Alfa-elicastruttura compatta avvolta in cui i legami idrogeno sono • disposti parallelamente allo scheletro. Beta-strandstruttura rilassata in cui i ponti idrogeno si stabiliscono tra catene adiacenti che possono essere parallele o antiparallele, a formare dei foglietti beta.
CONNESSIONI TRA STRUTTURE SECONDARIE • Le varie strutture secondarie si collegano tra loro mediante anse (loop) in cui non ci sono ponti a idrogeno intramolecolari stabili e che non hanno un’organizzazione definita • In realtà alcune connessioni tra strutture secondarie sono conservate: es. per congiungere due beta-strand antiparalleli serve un connettore che permette una curva molto stretta. (HAIRPIN) • Strutture secondarie che si uniscono formano molto spesso delle strutture super-secondarie denominate MOTIVI STRUTTURALI
STRUTTURE TERZIARIE (singola catena polipeptidica) Proteine multi-dominio Un unico dominio strutturale STRUTTURE QUATERNARIE (associazioni di diverse catene polipeptidiche)
INFRASTRUTTURE PRINCIPALI B.DATI NUCLEOTIDICHE EBI (Cambridge, UK) EMBL data-library NCBI (USA) GenBank Circa le stesse informazioni organizzate in modo diverso Banche dati nucleotidiche
L’oggetto principale è la ENTRY in cui sono raccolte le informazioni • La ENTRY è un’unità riconoscibile grazie ad un identificatore univoco (ACCESSION NUMBER), possiede una descrizione organizzata in campi standardizzati riconoscibili grazie ad HEADER univoci nella banca dati • Due versioni delle entry: Flat-file file di testo semplice, non interattivo – HTML (o XML): interattivo, di facile consultazione • cross-references • ridondanza dell’informazione • ANNOTAZIONI • GENE ONTOLOGY Organizzazione di un database biologico
Ogni banca dati ha dei suoi codici di identificazione e definisce le sue entry secondo un rigido standard, imponendo a priori un certo numero di possibili campi contrassegnati da tag specifici. Nell’esempio visto prima: ACCESSION AAC74054 indica il numero di accesso, ORGANISM Escherichia coli K12;Bacteria;Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. indica l’organismo a cui appartiene e la sua tassonomia. Qualsiasi cosa è standardizzata, dai tags agli spazi ed ai segni di punteggiatura. Questo permette ai programmi di RETRIEVAL, cioè di ricerca, di trovare rapidamente ciò che si cerca.
UniProt raccoglie le informazioni dei database Swiss-prot e TrEMBL . Viene curato anche un database NON RIDONDANTE (UniRef). Banche dati di sequenze proteiche Molto curato e dettagliato, con annotazioni circa funzione, struttura, modificazioni e altre informazioni utili E’ la traduzione in silicodi ogni entry codificante del database nucleotidico dell’EMBL, non è accurato, ma è ricchissimo
BANCHE DATI DI SEQUENZE PROTEICHE • Seq proteiche in numero minore delle seq nucleotidiche; • Raramente una seq proteica arriva da sequenziamento; • Generalmente ottenuta per traduzione di seq nucleotidiche; SWISS-PROT • Può contenere seq tradotte ma relative a proteine esistenti e caratterizzate • le seq corrispondono a precursori della proteina Tr-EMBL • traduzione di tutte le CDS presenti in EMBL e non ancora incluse in Swiss-Prot • È automatica
Fast-A FORMAT >tr|P73799 Slr1259 protein - Synechocystis sp. (strain PCC 6803). MLFRQLFDPETSTYTYVIADPKGRSAALVDSVLEQVDRDLNLLKELDLKLTFCLETHVHADHITGAGKLRQLTGCQNLVPQYAEVDCADRHLQDGEIVHVGSIPIQAIATPGHTDSHLAFLVNQTHVLTGDALLIRGCGRTDFQSGDAGTLYDAIHGKLFTLPEDVFVYPGHDYRGHTVSTIGEEKRFNPRLLGRDRQNFIEFMDSLNLPDPKKIMEAVPANQLCGQRTVAV
Server dedicato all’analisi di sequenze e strutture di biomolecole – curato dal SwissInstituteofBioinformatics (SIB) – contiene link a banche dati, programmi e tooldi interesse bioinformatico Funziona in collaborazione con EBI (EuropeanBioinformaticsInstitute) e cura le banche dati di sequenza UniProt/Swiss-Prot e UniProt/TrEMBL www.expasy.org ExPASy (Expert Protein Analysis System)
Il processo scientifico • Ricerca • Comunicazione dei risultati della ricerca
Principio fondamentale della Scienza Pubblicità dei risultati della ricerca Le scoperte fanno parte della conoscenza scientifica nel momento in cui sono riferite alla società, rese pubbliche, COMUNICATE, quindi CONDIVISE
Livelli di comunicazione scientifica Dal tipo di destinatario/utente e dal grado di approfondimento dei temi trattati, 4 livelli di comunicazione scientifica Livello intraspecialistico Livello interspecialistico Livello pedagogico Livello popolare
Livello intraspecialistico È la comunicazione dello scienziato per lo scienziato, che s’instaura cioè all’interno della comunità scientifica per mezzo di riviste specializzate e convegni.
Livello interspecialistico Si rivolge a persone di istruzione medio alta ed è attuata da scienziati o giornalisti scientifici attraverso riviste specializzate.
Letteratura scientifica primaria Ha come medium privilegiato la rivista scientifica ed è basata sull’articolo scientifico la cui pubblicazione è certificata da anonimi colleghi “giudici” (referees o reviewers). L’articolo di qualità, oltre alla validità e importanza del contenuto, è formalizzato attraverso uno stile letterario, un linguaggio specifico ed una precisa organizzazione interna. La letteratura scientifica primaria è: • Frammentaria • Basata su molti lavori precedenti • Sottoposta ai giudici
Letteratura scientifica secondaria È costituita da Review, recensioni, raccolta dati, bibliografie, libri di testo e monografie aggiornate. I libri di testo, chiamati anche manuali, sono scritti un certo tempo dopo scoperte, nuove teorie, nuove tecnologie. Essi hanno uno scopo didattico, vogliono cioè offrire al lettore, in forma economica ed accessibile, le conoscenze possedute dalla comunità scientifica.
LETTERATURA SCIENTIFICA • Pubblicazioni su riviste specializzate • Alla base della comunicazione nella comunità scientifica nazionale • Distinguere tra letteratura “refereed” e libera pubblicazione • IMPORTANZA LETTERATURA “REFEREED” • Le riviste scientifiche sottopongono ogni articolo all’approvazione di esperti del settore • Ognuno è libero di scrivere una pagina WEB (molti corsi on-line e materiale didattico) • DATABASE SPECIFICI PER LA LETTERATURA • Database diversi a seconda del campo (Fisica, biologia, medicina, storia…) • Spesso servizi su abbonamento (ma accessibili da enti di ricerca e università) Banche dati di letteratura
ARTICOLI SCIENTIFICI • Vengono citati secondo una prassi consolidata (nome autori, anno pubblicazione, titolo, rivista, numero del volume, pagine) • Queste voci guidano la ricerca nei database Banche dati di letteratura ABSTRACT (riassunto) accessibile a tutti
Avendo l’abbonamento si ottiene l’intero articolo • (formato pdf) • Consultazione banche dati per cercare • gli articoli Banche dati di letteratura www.pubmed.org PubMed/Medline www.biblio.unimib.it Biblioteca d’Ateneo http://apps.isiknowledge.com/ ISIWeb of Knowledge
Si utilizzano gli attributi usati per la schedatura degli articoli (Autori, Rivista, Titolo, Anno pubblicazione) • Si cercano parole entro le relative istanze (titolo/abstract contenente le parole…) • Per affinare le ricerche si usano più criteri che vengono composti usando gli operatori logici (AND OR NOT) Ricerca (Query) in banche dati
ISI contiene metriche (indicatori) per valutare le riviste scientifiche peer-reviewed • importanza rivista/articolo – numero di citazioni • individuare riviste più accreditate / selezionare rivista su cui pubblicare Analisi bibliometrica JOURNAL CITATION REPORT IMPACT FACTOR: si ottiene dividendo le citazione che la rivista ha ottenuto in un anno diviso per i lavori che la rivista stessa ha pubblicato nei due anni precedenti. Es. IF= A/B A = citazioni nel 2008 di articoli pubblicati nel 2006‐2007 dalla rivista X B = numero totale articoli pubblicati dalla rivista X nel 2006‐2007