230 likes | 456 Views
Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007) Docente: Dr. Nicola Vitulo Dipartimento di Biologia, CRIBI Tel. 0498276165 Email: nicolav@cribi.unipd.it. Calendario Esercitazioni: 1 Marzo 14:00 -18:00 MySql 7 Marzo 14:00 -18:00 HTML
E N D
Universita` di Padova • Laurea Biologia Molecolare • Corso di Bioinformatica III • (A.A. 2006-2007) • Docente: • Dr. Nicola Vitulo • Dipartimento di Biologia, CRIBI • Tel. 0498276165 • Email: nicolav@cribi.unipd.it BIOINFO3 - Lezione 1
Calendario Esercitazioni: 1 Marzo 14:00 -18:00 MySql 7 Marzo 14:00 -18:00 HTML 20 Marzo 14:00 -18:00 PERL 23 Marzo 14:00 -18:00 MySql / PERL 30 Marzo 14:00 -18:00 CGI-BIN Competenze informatiche necessarie per il corso: nessuna Tipologia d`esame:scritto(2h) Libri di testo: appunti di lezione (grup.cribi.unipd.it/~nicolav/bioinfoIII_padova/) BIOINFO3 - Lezione 1
LA BIOINFORMATICA • COS’È LA BIOINFORMATICA? • Esistono diverse definizioni..... • BIOINFORMATICA= • APPLICAZIONE DELL’INFORMATICA • ALLA GESTIONE E • ALL’ANALISI DEI DATI BIOLOGICI BIOINFO3 - Lezione 1
DATI BIOLOGICI • Principalmente i dati di sequenza di acidi nucleici e proteine, prodotti in modo sempre più massiccio dai progetti di sequenziamento sistematico (tecnologie sempre piu` sofisticate). Negli ultimi anni vi è stata poi un’invasione di dati relativi ad esperimenti di microarray Quali sono i dati biologici? BIOINFO3 - Lezione 1
2007 BIOINFO3 - Lezione 1
La bioinformatica e` una branca della biologia in rapida evoluzione, e altamente interdisciplinare in quanto usa tecniche e concetti che derivano dall`informatica, statistica, matematica, chimica , biochimica, fisica. National Center for Biointecnology Information (NCBI) definisce la bioinformatica: la bioinformatica e` la scienza nella quale biologia, informatica e tecnologia dell`informazione si uniscono in un`unica disciplina. Esistono tre importanti sottodiscipline all`interno dell`informatica: BIOINFO3 - Lezione 1
Sviluppo di nuovi algoritmi e statistiche con i quali valutare le relazioni tra i membri di un ampio data set. Analisi ed interpretazione di vari tipi di dati che includono sequenze aminoacidiche e nucleotidiche, domini proteici, e strutture proteiche. Sviluppo ed implementazione di tool, strumenti, che permettato un efficiente accesso e gestione dei differenti tipi di informazione. BIOINFO3 - Lezione 1
National Institute of Health (NIH) Bioinformatica: ricerca, sviluppo o applicazione di strumenti computazionali e di approcci che permettano di espandere e migliorare l`uso di dati biologici inclusi quegli strumenti per l`acquisizione, l`organizzazione, l`archiviazione, l`analisi e la visualizzazione di tali dati. Biologia Computazionale: sviluppo e applicazione di metodi analitici e teoretici, modelli matematici e tecniche di simulazione per lo studio di sistemi biologici. BIOINFO3 - Lezione 1
Applicazioni della bioinformatica Computational biology Genomics: la genomica rappresenta l`analisi o la comparazione dell`intero genoma di una o piu` specie. Proteomics: la proteomica consiste nello studio delle proteine - localizzazione, struttura e funzione. Identificazione, caratterizzazione e quantificazione di tutte le proteine coinvolte un un particolare metabolismo, di un organello, cellula, tessuto, organo o organismo. Pharmacogenomics: applicazione degli approcci genomici e tecnologie mirate all`indentificazione dei target delle droghe. Studia in che modo i geni influenzano la risposta ad una droga, sia a livello di popolazione che a livello molecolare BIOINFO3 - Lezione 1
Pharmacogenetics: studia in che modo variano le azioni e le reazioni alle droghe. Gli individui rispondono in modo differente al trattamento alle droghe; la maggior parte di questa variabilita` ha basi genetiche. Chemical informatics: memorizzazione, recupero, analisi di informazioni chimiche. Chemometrics: applicazione della statistica all`analisi dei dati chimici. Structural bioinformatics: analisi delle strutture delle macromolecole. Comparative genomics: comparazione del genoma di due o piu`differenti orgnismi. Functional genomics: integrando dati provenienti da sequenziameto di genomi, microarray, proteomica, descrive il funzionamento e l`interazione dei geni. BIOINFO3 - Lezione 1
DIMENSIONE “OMICS” • I dati biologici hanno guadagnato da tempo il suffisso “-OME” (Genome, Proteome, Trascriptome, Metabolome, Bibliome, Interactome….) e le discipline che li gestiscono e analizzano sono diventate “-OMICS” (Genomics, Proteomics… analisi su larga scala) • A chi fosse interessato segnalo il sito • http://www.genomicglossaries.com/content/omes.asp • che elenca le • –ome e gli –omics • esistenti BIOINFO3 - Lezione 1
Un po` di storia.. Il primo database di dati biologici fu costruito pochi anni dopo che le prime sequenze proteiche cominciarono a diventare disponibili. La prima sequenza proteica ottenuta , di 51 residui, fu l`insulina bovina nel 1956. Circa 10 anni piu` tardi si ottenne la prima sequenza di acidi nucleici, l` alanine rRNA di lievito. Alla fine degli anni `70, Margareth Dayhoff raccolse tutte le sequenze disponibili per creare il primo database biologico (NBRF, National Biomedical Research Foundation). Agli inizi degli anni `80 in Europa l`EMBL promuoveva la creazione dell` EMBL-database, banca dati di sequenze di DNA e RNA. La prima release fu rilasciata nel 1981 e conteneva 519 entries BIOINFO3 - Lezione 1
Parallelamente negli Stati Uniti veniva prodotto un archivio simile: banca dati da cui si e` originato GenBank, la cui prima release fu resa pubblica nel 1982. Nel 1986 venne realizzata la banca dati giapponese DDBJ. Accordo tra GeneBank, EMBL e DDBJ per lo scambio giornaliero di dati. Seconda meta` degli anni 80 realizzazione delle prime banche dati specializzate come PROSITE -> innesco per la realizzazione di banche dati sempre piu` specializzate. Sistemi di retrieval: SRS (EBI) e ENTREZ (NCBI). BIOINFO3 - Lezione 1
Metodologie bio-computazionali associate alle procedure di confronto di biosequenze per la ricerca di regioni di similarita`. Nel 1970 Needlaman e Wunsch pubblicano l`algoritmo per la ricerca del miglior allineamento globale tra due sequenze. Nel 1971 Gibbs e McIntyre pubblicano un metodo basato sulla matrice basato dot-plot che permetteva la visualizzazione regioni di similarita` piu` o meno stringente , utilizzato poi in numerosi algoritmi di analisi comparative. Nel 1981 Smith e Watermann pubblicano l`algoritmo per il miglior allineameno locale tra due sequenze. Nel 1983 Wilbur e Lipmann pubblicano un algoritmo per la ricerca di similarita` in banca dati e nel 1985 viene pubblicato FASTA, seguito poi nel 1990 da BLAST (Altshul) BIOINFO3 - Lezione 1
In parallelo furono sviluppati numerosi metodi per la ricerca di motivi, per la caratterizzazione di sequenze genomiche di regioni codificanti proteine. Per quello che riguarda gli studi di evoluzione molecolare fondamentale e` stata nel 1965 la pubblicazione da parte di Zuckerkandl e Pauling dell`ipotesi dell` “orologio molecolare” (relazione di proporzionalita` diretta tra tempo di divergenza e numero di sostituzioni tra proteine omologhe). 1966 Dayhoff metodo della Massima Parsimonia per l`analisi delle proteine , esteso nel 1977 da Fitch all`analisi delle sequenze nucleotidiche. Metodo di Zucker per la predizione di strutture di RNA e il metodo di Fasman per strutture secondarie proteiche. BIOINFO3 - Lezione 1
Esigenza di avere i programmi che implementatano i vari algoritmi in per l`analisi dei dati organizzati in un a logica omogenea e interfacciati con i database di dati biologici: GCG (Genetic Computer Group, Oxford) EMBOSS: prodotto dalla comunita` EMBnet, scaricabile gratuitamente dalla rete (http://www.embnet.org, http://emboss.sourceforge.net/download/) Phylip: pacchetto per analisi di evoluzione molecolare. 1987 : Perl (Practical Extraction Report Language) is released by Larry Wall. 1991: Linus Torvalds announces a Unix-Like operating system which later becomes Linux. 1995: The Haemophilus influenzea genome (1.8 Mb) is sequenced. The Mycoplasma genitalium genome is sequenced. BIOINFO3 - Lezione 1
1996: The genome for Saccharomyces cerevisiae (baker's yeast, 12.1 Mb) is sequenced. The Prosite database is reported by Bairoch, et.al. Affymetrix produces the first commercial DNA chips. 1997: The genome for E. coli (4.7 Mbp) is published. 1998: The genomes for Caenorhabditis elegans and baker's yeast are published. The Swiss Institute of Bioinformatics is established as a non-profit foundation. Craig Venter forms Celera in Rockville, Maryland. 2000: The genome for Pseudomonas aeruginosa (6.3 Mbp) is published. The A. thaliana genome (100 Mb) is secquenced. The D. melanogaster genome (180Mb) is secquenced. 2001: The human genome (3,000 Mbp) is published. .... BIOINFO3 - Lezione 1
LA BIOINFORMATICA OGGI • Si tratta di una disciplina in rapida evoluzione: i libri di testo non sono in grado di tenere il passo con le novità e con i moltissimi database e programmi pubblicati di continuo. Per rimanere aggiornati l’unica possibilità è la rete. • Esistono siti specializzati su particolari argomenti (es. Individuazione dei geni, text mining, systems biology..) che cercano (a fatica) di tenere un indice delle pubblicazioni, dei database e dei programmi dedicati a quel particolare ambito ristretto. • Fondamentali sono i siti delle riviste scientifiche che accolgono (dopo un lungo e profondo processo di “peer reviewing”) le pubblicazioni. BIOINFO3 - Lezione 1
I DUE ASPETTI DELLA BIOINFORMATICA • GESTIONE DEI DATI → DATABASE • ANALISI DEI DATI → COMPUTATIONAL BIOLOGY BIOINFO3 - Lezione 1
DATABASE E COMPUTATIONAL BIOLOGY • DATABASE • Memorizzazione accurata, organizzazione, indicizzazione e mantenimento di informazioni biologiche • COMPUTATIONAL BIOLOGY • Qui la lista è lunghissima e sempre in evoluzione. Vi cito solo alcune delle possibili analisi dei dati di cui si occupa la computational biology: • ricerca di similarità tra sequenze (ricerca di omologia funzionale) (dovrebbe essere chiara la differenza tra similarità ed omologia) • ricerca di geni nelle sequenze di DNA • ricerca di motivi funzionali nel DNA (es. siti di binding per fattori di trascrizione) e nelle proteine (domini) • analisi dei genomi • allineamento multiplo di sequenze e analisi filogenetica • analisi di dati strutturali 3D DI PROTEINE • analisi dei risultati di esperimenti con microarray BIOINFO3 - Lezione 1
GLI STRUMENTI CHE VEDREMO NEL CORSO • GESTIONE DATI HTML MySQL Perl ANALISI DATI MySQL: linguaggio per definizione e gestione database HTML: linguaggio per la definizione di pagine web (accesso ai database e ai programmi attraverso Internet) Perl: linguaggio di programmazione BIOINFO3 - Lezione 1
Mysql : http://dev.mysql.com/downloads/mysql/5.0.html Perl: http://www.activestate.com/Products/ActivePerl/ BIOINFO3 - Lezione 1