1 / 49

Sequenziamento e analisi di genomi

Sequenziamento e analisi di genomi. 1995 genoma batterico 1996 genoma lievito. Shotgun. Programmi di assemblaggio  contig. Sequenze ripetute. Radiation Hybrids. Sequenziamento automatico. Assemblaggio (Arachne). Finishing. Leggere il Genoma. Riconoscimento di ORF

Download Presentation

Sequenziamento e analisi di genomi

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sequenziamento e analisi di genomi

  2. 1995 genoma batterico1996 genoma lievito

  3. Shotgun

  4. Programmi di assemblaggio  contig

  5. Sequenze ripetute

  6. Radiation Hybrids

  7. Sequenziamento automatico

  8. Assemblaggio (Arachne)

  9. Finishing

  10. Leggere il Genoma • Riconoscimento di ORF • Pattern distintivi (HMM) • Metodi comparativi

  11. Open Reading Frames

  12. GeneMark – HMM

  13. Approccio comparativo – COG

  14. Metodi statistici combinati – Orpheus

  15. Genome Browser

  16. Allineamento

  17. Siti Genomici NCBI Genomes EBI Genomes TIGR jump

  18. Il Genoma Umano Il Genoma Umano all’NCBI GDB Ensembl

  19. Organismi Modello Drosophyla --> FlyBASE Topo --> MGD Lievito --> SGD Caenorhabditis --> WormBase jump

  20. Banche dati Specializzatedi Geni COGs EuGENES LocusLink

  21. Analisi linguistica Gene finding servers: tecniche di analisi linguistica per la predizione di geni e di elementi regolatori

  22. Gene finding servers • Applicare tecniche di analisi linguistica per la predizione di geni e di elementi regolatori

  23. Analisi linguistica: • localizzazione del sito promotore : TATAbox, CAATbox • ricerca di CpG islands • analisi del contesto del codone d’inizio AUG • ricerca di siti di splicing • ricerca di regioni codificanti proteine • ricerca di domini strutturali • ricerca di sequenze ripetute :Alu, LINE, SINE • analisi di complessità…. • …..ricerca di ogni segnale nucleotidico e proteico associato ad un ruolo funzionale nel complesso processo del ciclo vitale degli organismi

  24. Pattern recognition Individuare in una sequenza anonima o in un set di sequenze isofunzionali stringhe con frequenze statisticamente significative e associabili a funzionalità biologiche definite.

  25. Pattern (motivo) insieme di caratteri nucleotidici o aminoacidici anche non contigui che con alta frequenza ricorrono associati ad una specifica funzione e/o struttura sito promotore sito di legame al DNA sito di splicing

  26. I motivi possono essere codificati mediante • multiallineamenti • consensus • profili • weight matrix • espressioni regolari • Hidden Markov Models • Ricercare un motivo implica ricercare stringhe che nei limiti della significatività statistica somiglino a motivi già annotati secondo una delle codifiche su citate

  27. Codifica dei Motivi Consensus La sequenza consensus riporta in ogni posizione la base più rappresentata in un multi-allineamento di sequenze che sicuramente codificano la funzione. Il contenuto informativo di un consensus non è sufficiente a identificare in modo univoco tutte e sole le sequenze che possiedono la funzione ad esse associata. Il metodo WordUP è una valida alternativa alla ricerca di un consensus.

  28. Codifica dei Motivi Weight Matrices Un segnale s costituito da L nucleotidi viene solitamente rappresentato da una matrice Ws costituita da 4 righe, corrispondenti ai quattro nucleotidi A, C, G, T e da L colonne.

  29. Un motivoTATA Box regione di controllo a monte del sito di inizio della trascrizione di geni eucariotici alla TATA Box si legano i fattori di inizio della trascrizione che guidano la RNApolII eucariotica nella localizzazione del sito di inizio

  30. Consensus e Weight Matrix della TATABox determinate analizzando 60 geni di vertebrati

  31. Weight Matrix posizione -4 -3 -2 -1 +1 +2 +3 +4 +5 A 42 56 89 12 0 0 86 94 12 T 28 10 18 17 0 139 9 16 7 C 42 60 16 8 0 0 3 13 3 G 27 13 16 102 139 0 41 16 117 sito donatore degli introni

  32. Codifica dei Motivi Espressioni regolari Le espressioni regolari sono formule che si possono usare per definire pattern testuali utilizzando le lettere dell’alfabeto e meta-caratteri <$+*[{( )?. ecc. ai quali è associata una determinata funzione [A,G]X(4)GK[S,T] e’ un espressione regolare descrittiva del p-loop della proteina umana Ras : tale motivo è costituito da A o G, seguito da 4 amminoacidi qualsiasi, seguiti da G, da K e quindi da S o T

More Related