490 likes | 637 Views
Sequenziamento e analisi di genomi. 1995 genoma batterico 1996 genoma lievito. Shotgun. Programmi di assemblaggio contig. Sequenze ripetute. Radiation Hybrids. Sequenziamento automatico. Assemblaggio (Arachne). Finishing. Leggere il Genoma. Riconoscimento di ORF
E N D
Leggere il Genoma • Riconoscimento di ORF • Pattern distintivi (HMM) • Metodi comparativi
Siti Genomici NCBI Genomes EBI Genomes TIGR jump
Il Genoma Umano Il Genoma Umano all’NCBI GDB Ensembl
Organismi Modello Drosophyla --> FlyBASE Topo --> MGD Lievito --> SGD Caenorhabditis --> WormBase jump
Banche dati Specializzatedi Geni COGs EuGENES LocusLink
Analisi linguistica Gene finding servers: tecniche di analisi linguistica per la predizione di geni e di elementi regolatori
Gene finding servers • Applicare tecniche di analisi linguistica per la predizione di geni e di elementi regolatori
Analisi linguistica: • localizzazione del sito promotore : TATAbox, CAATbox • ricerca di CpG islands • analisi del contesto del codone d’inizio AUG • ricerca di siti di splicing • ricerca di regioni codificanti proteine • ricerca di domini strutturali • ricerca di sequenze ripetute :Alu, LINE, SINE • analisi di complessità…. • …..ricerca di ogni segnale nucleotidico e proteico associato ad un ruolo funzionale nel complesso processo del ciclo vitale degli organismi
Pattern recognition Individuare in una sequenza anonima o in un set di sequenze isofunzionali stringhe con frequenze statisticamente significative e associabili a funzionalità biologiche definite.
Pattern (motivo) insieme di caratteri nucleotidici o aminoacidici anche non contigui che con alta frequenza ricorrono associati ad una specifica funzione e/o struttura sito promotore sito di legame al DNA sito di splicing
I motivi possono essere codificati mediante • multiallineamenti • consensus • profili • weight matrix • espressioni regolari • Hidden Markov Models • Ricercare un motivo implica ricercare stringhe che nei limiti della significatività statistica somiglino a motivi già annotati secondo una delle codifiche su citate
Codifica dei Motivi Consensus La sequenza consensus riporta in ogni posizione la base più rappresentata in un multi-allineamento di sequenze che sicuramente codificano la funzione. Il contenuto informativo di un consensus non è sufficiente a identificare in modo univoco tutte e sole le sequenze che possiedono la funzione ad esse associata. Il metodo WordUP è una valida alternativa alla ricerca di un consensus.
Codifica dei Motivi Weight Matrices Un segnale s costituito da L nucleotidi viene solitamente rappresentato da una matrice Ws costituita da 4 righe, corrispondenti ai quattro nucleotidi A, C, G, T e da L colonne.
Un motivoTATA Box regione di controllo a monte del sito di inizio della trascrizione di geni eucariotici alla TATA Box si legano i fattori di inizio della trascrizione che guidano la RNApolII eucariotica nella localizzazione del sito di inizio
Consensus e Weight Matrix della TATABox determinate analizzando 60 geni di vertebrati
Weight Matrix posizione -4 -3 -2 -1 +1 +2 +3 +4 +5 A 42 56 89 12 0 0 86 94 12 T 28 10 18 17 0 139 9 16 7 C 42 60 16 8 0 0 3 13 3 G 27 13 16 102 139 0 41 16 117 sito donatore degli introni
Codifica dei Motivi Espressioni regolari Le espressioni regolari sono formule che si possono usare per definire pattern testuali utilizzando le lettere dell’alfabeto e meta-caratteri <$+*[{( )?. ecc. ai quali è associata una determinata funzione [A,G]X(4)GK[S,T] e’ un espressione regolare descrittiva del p-loop della proteina umana Ras : tale motivo è costituito da A o G, seguito da 4 amminoacidi qualsiasi, seguiti da G, da K e quindi da S o T