Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche

Introduzione alla bioinformatica Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Novembre 2003

Banche dati: raccolta dati, ordinamento, correlare quelli che trattano i diversi aspetti di uno stesso tema, renderli fruibili in modo semplice, unificare le banche adti. Ricerca dei geni in un genoma Inferire la funzione delle proteine a partire dalla sequenza del gene, da qui la possibilità di creare nuove proteine con nuove funzioni Prevedere lo splicing dell’mRNA a partire dalla sequenza del pre-mRNA, capire l’effetto delle mutazioni Obiettivi della bioinformatica Descrivere la rete genica di una cellula, chi attiva o reprime chi, da chi si fa attivare o reprimere. Prevedere al computer l’effetto di uno stimolo esogeno… sapere come compensarlo. Sapere che stimolo generare per produrre certi effetti Capire l’evoluzione delle specie Poter prevedere la ricombinazione nel DNA Francesco Piva Ist Biologia e Genetica, Ancona

Risorse umane, formazione, mezzi database Teoria dell’informazione, studio dei linguaggi, ridondanza, entropia, correlazione… Metodi statistici Metodi della bioinformatica Reti neurali Algoritmi matematici: FFT, Wavelet, ICA, PCA, teoria delle reti… Data mining … Francesco Piva Ist Biologia e Genetica, Ancona

mRNA cDNA Cloni di cDNA Il trascrittoma: quanti e quali geni? Cellule o tessuti cromosoma Quanti e quali geni sono contenuti in un genoma? Quali geni sono espressi in un tessuto? E in un tessuto patologico? Sequenziamento …EST Francesco Piva Ist Biologia e Genetica, Ancona

La costruzione del cDNA 5’UTR ESONE 1 ESONE 2 3’UTR AAAAAA mRNA 3’ TTTTTT Le sequenze di cDNA ottenute dall’mRNA sono generalmente tronche TTTTTT GGGGGG TTTTTT Rimozione dell’RNA e attacco di un poly (G) al cDNA Francesco Piva Ist Biologia e Genetica, Ancona

GGGGGG TTTTTT 5’ Produzione del cDNA complementare CCCCCC AAAAAA 3’ CH3 Metilazione dei due cDNA per proteggere i siti di restrizione Aggiunta di siti di restrizione Eco RI GAATTC GGGGGG GAATTC TTTTTT CCCCCC CTTAAG CTTAAG AAAAAA Francesco Piva Ist Biologia e Genetica, Ancona

GAATTC GGGGGG GAATTC TTTTTT CCCCCC CTTAAG CTTAAG AAAAAA Digestione con Eco RI AATTC GGGGGG G TTTTTT CCCCCC CTTAA G AAAAAA vector Ligazione del cDNA nei plasmidi Francesco Piva Ist Biologia e Genetica, Ancona

La potenzialità di una libreria di cDNA è in relazione al numero di inserti di cDNA indipendenti che siamo riusciti a clonare. Supponendo di prelevare un’aliquota di batteri trasformati, il titolo è dato dal numero di colonie per unità di volume di batteri ricombinanti Francesco Piva Ist Biologia e Genetica, Ancona

Come stimare la potenzialità di una libreria di cDNA? Si potrebbe digerire il DNA plasmidico con enzimi di restrizione e analizzare i frammenti tagliati 3kb vettore inserti I cloni 7, 8, 9 e 13 non sono ricombinanti: quindi 4/16 = 25% Esempio di una libreria: Titolo: 100 unità formanti colonia/microlitri % cloni non ricombinanti: 10% Volume totale di batteri trasformati: 1 ml Potenzialità: (100000 cloni totali – 10000 non ricombinanti) = 90000 inserti di cDNA

Calcolo delle probabilità applicato alle librerie di cDNA Che probabilità abbiamo di trovare il clone A2B che ha frequenza dell’ 1% (f=0.01) in una libreria di 100 (N=100) cloni? Dalla formula Ricaviamo P = 63.4% Quanti cloni devo sequenziare (N = ?) per essere abbastanza sicuro (99%  P=0.99) di trovare il clone A2B che ha una frequenza dell’1% (f=0.01)? Dalla stessa formula ricaviamo N = 458 Francesco Piva Ist Biologia e Genetica, Ancona

Un caso reale Quanti cloni devo sequenziare per avere il 99% delle probabilità di trovare un particolare clone di mio interesse? In una cellula ho circa 500000 molecole di mRNA quelli più abbondanti sono rappresentati in 10000 – 15000 copie per cellula f=10000/500000  0.02 quelli mediamente abbondanti in 200 – 500 copie per cellula f=500/500000  0.001 quelli rari in 1 – 15 per cellula f=15/500000  0.000002 per gli abbondanti risulta… N=230 per i mediamente abbondanti… N=4600 per i rari… N=155000 Francesco Piva Ist Biologia e Genetica, Ancona

Metodo di arricchimento Anziché mettersi a sequenziare in modo furioso, si può cercare di operare sulla libreria in modo di aumentare la probabilità di trovare il cDNA di interesse. Questo lo si può fare in vari metodi: Frazionamento in gel Clonazione per sottrazione Francesco Piva Ist Biologia e Genetica, Ancona

Metodo di arricchimento • Per arricchire la libreria del cDNA di interesse si può • selezionare in partenza le cellule o i tessuti più ricchi del trascritto • rimuovere dalla libreria le sequenze che non interessano • indurre o aumentare la trascrizione del particolare gene con stimoli specifici Francesco Piva Ist Biologia e Genetica, Ancona

Frazionamento in gel Se si sa la lunghezza del cDNA che stiamo cercando, si possono selezionare su gel prima di legarli al vettore Francesco Piva Ist Biologia e Genetica, Ancona

Clonazione per sottrazione Linea cellulare + Linea cellulare - Sintesi del cDNA dall’mRNA mRNA Eliminazione dell’mRNA Ibridazione mRNA non appaiati cDNA non appaiati Recupero del cDNA non appaiato tramite colonnine di idrossiapatite. Ottengo solo quello non comune alle due linee Francesco Piva Ist Biologia e Genetica, Ancona

Normalizzazione delle librerie di cDNA Al fine di trovare con la stessa probabilità sia le sequenze abbondanti che quelle rare si attua una normalizzazione delle librerie di cDNA. Per far questo si sfrutta il fatto che i cDNA più abbondanti, si appaiano o ibridizzano più rapidamente e possono essere rimossi dall’insieme di cDNA di partenza. In questo modo l’insieme rimanente si svuota delle sequenze più abbondanti ovvero si arricchisce di quelle più rare. N° di copie N° di copie Tipo di cDNA Tipo di cDNA Supponendo di avere il cDNA di 8 geni espressi con intensità diversa, mostriamo il grafico dell’abbondanza di copie di cDNA prima e dopo la normalizzazione della libreria Si perdono le informazioni sul livello di espressione dei geni Francesco Piva Ist Biologia e Genetica, Ancona

5’ EST 3’ EST cDNA clone sequencing primers Generazione delle sequenze EST: etichette di sequenza espressa AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA Francesco Piva Ist Biologia e Genetica, Ancona

Scarsa qualità delle sequenze: errori dovuti ad un sequenziamento automatizzato, senza la supervisione di un operatore, sequenza a passaggio singolo. Quello che importa è determinare la presenza di un trascritto non la sua sequenza. In questo modo si perdono le informazioni sulle mutazioni. >T27784 g609882 | T27784 CLONE_LIB: Human Endothelial cells. LEN: 337 b.p. FILE gbest3.seq 5-PRIME DEFN: EST16067 Homo sapiens cDNA 5' end AAGACCCCCGTCTCTTTAAAAATATATATATTTTAAATATACTTAAATATATATTTCTAATATCTTTAAATATATATATATATTTNAAAGACCAATTTATGGGAGANTTGCACACAGATGTGAAATGAATGTAATCTAATAGANGCCTAATCAGCCCACCATGTTCTCCACTGAAAAATCCTCTTTCTTTGGGGTTTTTCTTTCTTTCTTTTTTGATTTTGCACTGGACGGTGACGTCAGCCATGTACAGGATCCACAGGGGTGGTGTCAAATGCTATTGAAATTNTGTTGAATTGTATACTTTTTCACTTTTTGATAATTAACCATGTAAAAAATG Francesco Piva Ist Biologia e Genetica, Ancona

Problemi con gli EST • Le sequenze provenienti dallo stesso trascritto vanno raggruppate ‘clustering’ • Questa operazione non è banale perchè bisogna tener conto dei seguenti problemi: • presenza di polimorfismi, le mie EST potrebbero non allineare con la sequenza genomica poiché le EST sono del mio organismo, il genomico è di un organismo diverso da quello che sto studiando • un gene può avere anche centinaia di varianti di splicing • i geni paraloghi (fisicamente in posizioni cromosomiche diverse ma con trascritti quasi identici) • presenza negli EST di pezzi di vettore plasmidico • presenza di sequenze genomiche batteriche • presenza di sequenze ripetute come le Alu • artefatti dovuti al fatto che due inserti di cDNA entrano in tandem in un vettore plasmidico e io li leggo come un unico trascritto • In generale questi problemi sono completamente superabili solo quando si conosce la sequenza genomica della specie che sto studiando Francesco Piva Ist Biologia e Genetica, Ancona

cDNA, EST e banche dati dbEST (pronuncia ‘the best’) Divisione di GenBank che contiene tutte le sequenze EST, classificate per specie, tessuto, patologia… Francesco Piva Ist Biologia e Genetica, Ancona

dbEST release 103103 Summary by Organism - October 31, 2003 Number of public entries: 18,971,362 Homo sapiens (human) 5,427,521 Mus musculus + domesticus (mouse) 3,915,334 Rattus sp. (rat) 538,251 Triticum aestivum (wheat) 500,902 Ciona intestinalis 492,488 Gallus gallus (chicken) 451,565 Zea mays (maize) 383,759 Danio rerio (zebrafish) 362,445 Hordeum vulgare + subsp. vulgare (barley) 348,233 Xenopus laevis (African clawed frog) 344,747 Glycine max (soybean) 341,578 Bos taurus (cattle) 329,387 Drosophila melanogaster (fruit fly) 261,414 Oryza sativa (rice) 260,890 Saccharum officinarum 246,301 Caenorhabditis elegans (nematode) 215,200 Silurana tropicalis 209,240 Arabidopsis thaliana (thale cress) 190,732 Medicago truncatula (barrel medic) 187,763 Sus scrofa (pig) 171,920 Francesco Piva Ist Biologia e Genetica, Ancona

1: BM055437 . ie94h04.y1 Melton...[gi:16813328] IDENTIFIERS dbEST Id: 10156577 EST name: ie94h04.y1 GenBank Acc: BM055437 GenBank gi: 16813328 CLONE INFO Clone Id: IMAGE:5674615 (5') Source: University of Pennsylvania & Harvard University (HHMI) & Washington University (GSC) Other ESTs on clone:ie94h04.x1 DNA type: cDNA PRIMERS PolyA Tail: Unknown SEQUENCE GCCTCTTGGGAAGAACTGGATCAGGGAAGAGTACTTTGTTATCAGCTTTTTTGAGACTACTGAACACTGAAGGAGAAATCCAGATCGATGGTGTGTCTTGGGATTCAATA ACTTTGCAACAGTGGAGGAAAGCCTTTGGAGTGATACCACAGAAAGTATTTATTTTTTCTGGAACATTTAGAAAAAACTTGGATCCCTATGAACAGTGGAGTGATCAAGAA ATATGGAAAGTTGCAGATGAGGTTGGGCTCAGATCTGTGATAGAACAGTTTCCTGGGAAGCTTGACTTTGTCCTTGTGGATGGGGGCTGTGTCCTAAGCCATGGCCACA AGCAGTTGATGTGCTTGGCTAGATCTGTTCCAGTAAGGCGAAGATCTTGCTGCTTGATGAACCCAGTGCTCATTTGGATCCAGTAACATACCAAATAATTAGAAGAACTCT AAAACAAGCATTTGCTGATTGCACAGTAATTCTCTGTGAACACAGGATAGAAGCAATGCTGGAATGCCAACAATTTTTGGTCATAGAAGAGAACAAAGTGCGGCAGTACG ATTCC Quality: High quality sequence stops at base: 429 Entry Created: Nov 8 2001 Last Updated: Mar 12 2002 COMMENTS Library was constructed by Dr. Douglas Melton DNA sequencing by: Washington University Genome Sequencing Center For information on obtaining a clone please contact: Juliana Brown (brown@fas.harvard.edu) This sequence now available from the IMAGE consortium, for clone orders contact: info@image.llnl.gov PUTATIVE ID Assigned by submitter SW:CFTR_HUMAN P13569 CYSTIC FIBROSIS TRANSMEMBRANE CONDUCTANCE REGULATOR ; LIBRARY Lib Name: Melton Normalized Human Islet 4 N4 - HIS 1 Organism: Homo sapiens Sex: Both Organ: Pancreas Tissue type: Islets of Langerhans Develop. stage: Adult Lab host: DH10B R. Site 1: Not 1 R. Site 2: Sal 1 Inserendo ‘homo sapiens’ e ‘CFTR’ Francesco Piva Ist Biologia e Genetica, Ancona

Integrated Molecular Analysis of Genomes and their Expressions Francesco Piva Ist Biologia e Genetica, Ancona

Attenzione: la ricerca è ‘case sensitive’ quindi se digitate ‘cftr’ non trova nulla, si deve digitare ‘CFTR’ maiuscolo. Francesco Piva Ist Biologia e Genetica, Ancona

In IMAGE si trovano due tipi di cluster di geni a seconda che corrispondano a geni già noti Geni non noti in NCBI Reference Sequence Geni noti in NCBI Reference Sequence Full: Cluster i cui cloni allineano pienamente con un gene noto Singletons: Singolo clone che non si può raggruppare con altri già noti e contiene almeno 50 nucleotidi in cui non ci sono sequenze ripetute Predicted full: Cluster che contengono una ORF completa ma il cui gene è stato solo predetto sperimentalmente Multi-member: Cluster contenente più cloni e il cui gene non è ne noto ne predetto Unknown: Cloni di cui non si sa se rappresentano l’intera ORF (perché è stato determinato un solo EST del clone) Empties: Cluster già noto ma di cui in questa libreria non ci sono cloni Partial: Cloni che non rappresentano l’intera ORF (gli EST al 5’ e al 3’ non coprono l’intera regione del clone) Francesco Piva Ist Biologia e Genetica, Ancona

Numero di cloni che coprono interamente la sequenza codificante, se ne esiste almeno uno allora abbiamo un ‘full cluster’ Identificativo del cluster, attenzione perché può cambiare descrizione del gene

E’ possibile vedere gli allineamenti dei cloni che compongono il cluster o quello delle singole sequenze EST Francesco Piva Ist Biologia e Genetica, Ancona

In questa schermata troviamo i dati sui cloni e sugli EST Il bottone restituisce la descrizione del gene Francesco Piva Ist Biologia e Genetica, Ancona

Provenienza del clone Classificazione di un clone: predicted full, unknown, partial… clone EST Mammalian Gene Collection Bento Soares Columbia University Lavora alla creazione di librerie di EST normalizzate bento-soares@uiowa.edu Lunghezza del clone: dimensione determinata, se si conosce un solo EST si indica la lunghezza minima A volte è ambiguo stabilire a quale cluster appartiene un certo clone, il numero a fianco indica a quanti altri cluster (oltre a questo) appartiene questo clone chi ha verificato il clone Francesco Piva Ist Biologia e Genetica, Ancona

http://merops.sanger.ac.uk/ Francesco Piva Ist Biologia e Genetica, Ancona

Si possono fare ricerche per identificativo dell librera, tassuto, stadio di sviluppo… Francesco Piva Ist Biologia e Genetica, Ancona

o per patologia… Francesco Piva Ist Biologia e Genetica, Ancona

Identificato un gene, mostra la descrizione della proteina

gli allineamenti… Francesco Piva Ist Biologia e Genetica, Ancona

Gli omologhi Francesco Piva Ist Biologia e Genetica, Ancona

UniGene Sviluppato da NCBI, contiene i cluster corrispondenti ai geni Gli EST sono stati filtrati, verificati con MegaBlast, tutti i cluster sono confrontati con i nuovi EST e verificati settimanalmente Nota: non fare riferimento agli ID (identificativi) dei cluster poiché possono cambiare settimanalmente Francesco Piva Ist Biologia e Genetica, Ancona

Francesco Piva Ist Biologia e Genetica, Ancona

Dalla schermata precedente c’è un collegamento a questo sito Vengono fornite le sequenze di 10 basi (etichette) in ordine di occorrenza decrescente nel cluster per il gene di interesse

STACK Sviluppato dal South African National Bioinformatics Institute, contiene i dati sui cluster, il criterio di allineamento è un po diverso da quello di UniGene perché inizialmente si verifica se due EST sono parzialmente sovrapposti controllando se hanno parti in comune Francesco Piva Ist Biologia e Genetica, Ancona

TIGR In generale i dati di clustering differiscono da una banca dati all’altra a causa dei diversi criteri adottati Francesco Piva Ist Biologia e Genetica, Ancona

ORF nelle tre fasi, nel filamento diretto e inverso Zona e direzione in cui allineano gli EST Per ciscun EST e possibile avere informazioni dal sito TIGR, da GenBank Nucleoride e da IMAGE Francesco Piva Ist Biologia e Genetica, Ancona

Noi possiamo allineare i trascritti sul DNA genomico tramite programmi disponibili su siti internet • Questi programmi tengono conto che • il trascritto deve essere completamente contenuto nel DNA genomico • l’appaiamento potrebbe non essere perfetto • l’appaiamento può essere interrotto da introni Francesco Piva Ist Biologia e Genetica, Ancona

Predizione teorica dei geni in un genoma metodi Analisi discriminante lineare e quadratica Alberi di decisione Modelli di Markov a variabili nascoste Reti neurali artificiali Metodo del perceptron Decomposizione secondo le direzioni di massima dipendenza Stima degli esameri codificanti Metodo della matrice di pesi e del vettore di pesi Francesco Piva Ist Biologia e Genetica, Ancona

Analisi discriminante lineare e quadratica L’obiettivo di questo metodo è: Identificare le variabili e le relazioni tra di esse che permettono di differenziare due o più gruppi di dati Classificare nuovi casi nei gruppi ricavati (predittività) lineare quadratico Concentrazione di B Concentrazione di B Concentrazione di A Concentrazione di A Es: distinguere gli individui sani e malati in base alla misura della concentrazione di due enzimi. Con il metodo dei minimi quadrati si minimizza l’errore di classificazione e si ottiene una relazione lineare tra le due variabili Nel caso del riconoscimento degli esoni in una sequenza di pre-mRNA, come variabili si sceglie la frequenza di certe triplette nei siti di splicing in 5’ e in 3’. Francesco Piva Ist Biologia e Genetica, Ancona

Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche