1 / 27

The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy

The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy. Corso di Laboratorio di Linguaggi (2006/07) Prof. Nicoletta Cocco Bordignon Claudio Gaglio Elia. L’area di ricerca della Bioinformatica:.

tausiq
Download Presentation

The languages of RNA: a formal grammar that includes pseudoknots Elena Rivas and Sean R. Eddy

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. The languages of RNA: a formal grammar that includes pseudoknotsElena Rivas and Sean R. Eddy Corso di Laboratorio di Linguaggi (2006/07) Prof. Nicoletta Cocco Bordignon Claudio Gaglio Elia Bordignon - Gaglio

  2. L’area di ricerca della Bioinformatica: • Si basa sul trattamento e l’analisi di dati biologici con metodi informatici • Grande sviluppo negli ultimi decenni, grazie allo sviluppo di Internet • Gli obiettivi della Bioinformatica: - Gestione di dati (costruzione di banche dati di informazioni biologiche) - Formulazione di modelli biologici (es. modelli statistici per individuare leggi numeriche e tendenze) - Analisi di sequenze di acidi nucleici (DNA, RNA) Bordignon - Gaglio

  3. La composizione dell’RNA: • RNA: acido ribonucleico, molto simile al DNA. • Catena polinucleotidica a singolo filamento contenente 4 nucleotidi differenti: Gruppo fosfato, legato da 2 molecole di ribosio Ribosio, lo zucchero dell’RNA Basi azotate,le molecole che trasmettono l’informazione genetica Bordignon - Gaglio

  4. Le caratteristiche dell’RNA (2): • L’informazione genetica risiede nel DNA. • Il flusso dell’informazione genetica è rappresentata dal “dogma centrale”: Duplicazione: formazione di copie di molecole di DNA e trasferimento di materiale genetico Trascrizione: trasferimento dell’informazione dal DNA alla molecola di RNA Traduzione: processo attraverso il quale di passa dall’RNA alla sintesi delle proteine Bordignon - Gaglio

  5. Le strutture secondarie dell’RNA: • L’RNA non è solo un intermediario tra il DNA e la sintesi proteica… • Vi sono molti RNA non codificanti che svolgono varie funzioni grazie all’acquisizione di strutture precise: Bordignon - Gaglio

  6. Tipologie di correlazioni tra coppie di basi: • Normalmente gli accoppiamenti di basi sono tra loro annidati (nested) AGUG U C G G C U CACU • Esistono anche accoppiamenti di basi non annidati (unnested o crossed) • Sono definiti come “pseudonodi” e sono funzionalmente molto importanti AGUG U CACU U CACU G G AUGU Bordignon - Gaglio

  7. Linguaggi formali per la predizione di strutture: • Linguaggi formali per modellare stringhe di simboli correlati Idea: L’RNA è dominato da coppie di correlazioni annidate descrivibili da grammatiche context-free (tipo 2) Predizione di strutture secondarie Sviluppo di grammatiche context free stocastiche MFOLD (si basa sull’utilizzo di parametri termodinamici) Bordignon - Gaglio

  8. Rna’s prediction: MFOLD (1): • MFOLD = “multiple web server” • Predizione di strutture secondarie sfruttando il calcolo dell’energia libera Bordignon - Gaglio

  9. Rna’s prediction: MFOLD (2): • La stabilità di una molecola ripiegata di RNA può essere misurato in termini di variazioni di energia libera (ΔG) tra la molecola a singolo filamento e quella ripiegata in una struttura secondaria • Struttura ottimale = struttura a minima energia • Possibilità di ottenere strutture alternative, attraverso l’ “Energy Plot”: Bordignon - Gaglio

  10. Rna’s prediction: Rivas & Eddy Algorithm (1): • Problema: la tecnica precedente non tratta gli pseudonodi… • Soluzione: Algoritmo di Rivas & Eddy • Algoritmo di programmazione dinamica • Permette la predizione di strutture secondarie sfruttando parametri termodinamici, cercando strutture ad energia minima (folding ottimale) • Funziona correttamente anche per strutture pseudo-knotted • Complessità (caso peggiore): tempo: O(n6) spazio: O(n4) Bordignon - Gaglio

  11. Rna’s prediction: Rivas & Eddy Algorithm (2): • wx e vx: matrici che riportano i punteggi del miglior folding tra le posizioni i e j • Per determinare i pesi corretti per le matrici wx e vx si sfruttano delle relazioni ricorsive (sintetizzate dalla rappresentazione grafica) Bordignon - Gaglio

  12. Rna’s prediction: Rivas & Eddy Algorithm (3): paired dangles single stranded bifurcations Bordignon - Gaglio

  13. Rna’s prediction: Rivas & Eddy Algorithm (4): multiloop hairpin internal loop • Necessità di troncare l’espansione interna per avere una grammatica trattabile in quanto la complessità rende intrattabile l’algoritmo  ad esempio, O(IS2) Bordignon - Gaglio

  14. Rna’s prediction: Rivas & Eddy Algorithm (5): • Per poter gestire gli pseudonodi è necessario estendere le matrici introdotte (adottando nuove matrici, dette matrici gap): Bordignon - Gaglio

  15. Rna’s prediction: Rivas & Eddy Algorithm (6): • Le ricorsioni portano all’introduzione di una nuova rappresentazione: Bordignon - Gaglio

  16. Grammatica “Crossed-interaction”: • Una grammatica G che include pseudonodi (crossed interaction) è la seguente: G = { V, T, S, I, P, R } dove: V= insieme (finito) dei simboli non terminali T= insieme (finito) dei simboli terminali (alfabeto). T* è l’insieme di tutte le stringhe costruite da T, inclusa ε e la stringa Λ S= non terminale iniziale I= insieme (finito) dei simboli extra non terminali P= insieme (finito) delle produzioni R= insieme (finito) delle regole di riarrangiamento Bordignon - Gaglio

  17. Linguaggio “Crossed-interaction” (1): Un esempio di linguaggio che include le crossing interactions è il cosiddetto “linguaggio copia”. • Ad esempio, per ottenere pattern duplicati correlati (ab, aba, abaaba, ecc.): T = { a, b } L = { ε, W Λ W | W Є (a,b)* } S = { W } I = { (, ), x } • Le produzioni associate sono: Bordignon - Gaglio

  18. Linguaggio “Crossed-interaction” (2): • Ad esempio, la sequenza: • può essere analizzata con la seguente grammatica: • Sfruttando le parentesi possiamo costruire annidamenti complessi: Bordignon - Gaglio

  19. “Crossed-interaction” – definizioni formali: • Indichiamo con: l’insieme di tutte le stringhe generabile dall’alfabeto: • L’insieme delle produzioni P ha la forma generale: • La struttura delle produzioni è simile a quelle delle grammatiche context-free (tipo 2), ad eccezione della presenza dei simboli extra I, che permettono dei riarrangiamenti la cui forma generale è: • La grammatica genera perciò il seguente linguaggio: Bordignon - Gaglio

  20. “Crossed-interaction” – accorgimenti per il parsing: • Il parsing per tale grammatica può essere complesso (in alcuni casi NP-Completo). Un possibile accorgimento è troncare la seguente somma infinita (ad esempio per n=2): • Infatti, se n=0 abbiamo una grammatica context-free se n>0 non abbiamo più una grammatica context-free, ma limitando n rendo il parsing un problema trattabile. Bordignon - Gaglio

  21. RNA pseudoknot grammar (1): • La grammatica per definire le strutture di pseudonodi è una specializzazione della G definita precedentemente. I simboli non-terminali sono: • L’alfabeto T rispecchia la struttura dell’RNA: • I simboli extra sono: non gapped gapped creano i loop Bordignon - Gaglio

  22. RNA pseudoknot grammar (2): • Le regole di produzione per W sono le seguenti (siЄ T è il nucleotide in posizione i-esima): • Vab è il non terminale iniziale trovato dopo l’appaiamento di una coppia a,b. Le regole di produzione sono le seguenti: Bordignon - Gaglio

  23. RNA pseudoknot grammar (3): • WH è il non terminale che introduce uno pseudonodo e le regole di produzione sono le seguenti: Bordignon - Gaglio

  24. RNA pseudoknot grammar (4): • VHabcd è il non terminale che si ha dopo la formazione di uno pseudonodo. Le regole di produzione sono le seguenti: • Infine i non terminali che creano le “strutture loop” sono così composti: Hairpin loops Stems, bulge, internal loops Bordignon - Gaglio

  25. RNA pseudoknot grammar (5): • Le regole di riarrangiamento sono applicabili dopo le diverse produzioni e permettono un riordinamento della stringa. Esse sono: Bordignon - Gaglio

  26. RNA pseudoknot grammar – esempio pratico: e d a b c f W  Wh x Wh  (Wh WbΛ ) x Wh  ((SaVhSaSeSbSd Se  SbΛ Sd)  WbΛ) x (Sc VhScSfSdSeSf  SdΛ Se)  ((SaΛ Se  SbΛ Sd)  SbVSbScSc Λ) x (ScΛ Sf  SdΛ Se)  ((SaΛ Se  SbΛ Sd)  SbScΛ) x (ScΛ Sf  SdΛ Se) R ((Sa SbΛ Sd Se) SbSc Λ) x (Sc SdΛ Se Sf) R ((Sa Sb Sb ScΛ Sd Se)) x (Sc SdΛ Se Sf) R Sa Sb Sb Sc Sc SdΛ Sd Se Se Sf Bordignon - Gaglio

  27. Bibliografia: • [1] The languages of RNA: a formal grammar that includes pseudoknotes – Rivas & Eddy, Department of Genetics - Washington University August 1999. • [2]A dynamic programming algorithm for RNA structure prediction including pseudoknots – Rivas & Eddy, Department of Genetics - Washington University July 1998. • [3]Introduzione alla Bioinformatica – Valle, Citterich, Attimonelli, Pesole – Zanichelli. • [4] MFOLD web server for nucleic acid folding and hybridization prediction – Zuker, Department of Science Troy USA, April 2003. Bordignon - Gaglio

More Related