320 likes | 475 Views
Argomenti trattati. Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software. Introduzione biologica. DNA Doppia catena polinucleotidica definita sull’alfabeto: A, C, G, T Gene Regione di DNA che codifica proteine.
E N D
Argomenti trattati • Struttura di un gene e alternative splicing (AS) • Definizione del problema AS e algoritmo per risolverlo • ASPic software
Introduzione biologica DNA Doppia catena polinucleotidica definita sull’alfabeto: A, C, G, T Gene Regione di DNA che codifica proteine
Numero geni e genomi in eucarioti Genoma in procarioti (> 9 Mb) Number of genes in prokaryotes (up to 8000)
5’ 3’ 3’ 5’ TRASCRIZIONE 5’ pre-mRNA 3’ exon 1 exon 2 exon 3 SPLICING mRNA prodotto dello splicing exon 1 exon 2 exon 3 EST Expressed Sequence Tag (cDNA) exon 1 exon 3 exon 2 Espressione di un gene DNA
ATTGCGTTAACTGGACTGA mRNA EST cDNA TAACGCAATTGACCTGACT AATTGACC Trascritti e sequenze EST • Un trascritto è l’elenco delle basi (A, T, C, G) che compongono un mRNA maturo • Un EST è un frammento di cDNA (copia complementare di un mRNA, prodotta in vitro )
GC AT AG AC Pattern di un introne Introni canonici: 99.24 % GTAG Introni non canonici: 0.69 % 0.05 % 0.02 % ALTRO Burset et al., Nucleic Acids Res. 2000, 28:4363-4375
Espressione di un gene Ma le cose funzionano davvero così? Numero Geni corpo umano : 40000 circa Numero Proteine : centinaia di migliaia La corrispondenza 1 a 1 non è rispettata. Perché? SPLICING ALTERNATIVO
A A A I1 I1 I1 B B B A I1 B B C A A B B C D D mRNA1 A A I1 B C D C D mRNA2 B A’ C D A C D B’ Tipi di Alternative Splicing Mutually exclusive exons Splice/don’t splice Competing 5’ Exon skipping Competing 3’ A I1 D A’ A I1 B B’ B C GENOMICA B C
Perché AS è importante? • AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002) • AS genera numerosi trascritti a partire da un singolo gene • AS is specifico del tessuto in cui si trova la cellula (Graveley, 2001) • AS è correlato alle malattie
Si ha la necessità di software tools per Problema di AS • predire le forme di splicing alternativo di un gene • analizzare il meccanismo di splicing tramite la rappresentazione delle possibili isoforme AS è ancora un problema aperto
Ma la predizione della struttura in esoni e introni di un gene è complicata da Cosa c’è a disposizione? • errori di sequenziamento nell’EST (inserzioni, delezioni e mismatch) => criteri di ottimizzazione • sequenze duplicate sulla genomica => analisi combinata di un cluster di sequenze EST Programmi veloci che producono l’allineamento di una singola sequenza EST contro la genomica: Spidey (Wheelan et al., 2001) Squall (Ogasawara & Morishita, 2002)
Definizioni formali • Def1 • Sequenza genomica, G = I1 f1 I2 f2 I3 f3 … In fn In+1, con Ii (i=1, 2, …, n+1) introni e fi (i=1, 2, …, n) esoni • Def2 • Fattorizzazione in esoni di G, GE = f1 f2 f3 … fn • Def3 • Fattorizzazione di un EST Scompatibile con GE S=s1 s2 … sk t.c. per 1 i1 < i2 < … < ik n si abbia: • st= fit per t=2, 3, …, k-1 • s1 è un suffisso di fi1 e sk è un prefisso di fik • Def1 • Sequenza genomica, G = I1 f1 I2 f2 I3 f3 … In fn In+1, con Ii (i=1, 2, …, n+1) introni e fi (i=1, 2, …, n) esoni • Def2 • Fattorizzazione in esoni di G, GE = f1 f2 f3 … fn • Def3 • Fattorizzazione di un EST Scompatibile con GE S=s1 s2 … sk t.c. per 1 i1 < i2 < … < ik n si abbia: • edit (st, fit) errore per t=2, 3, …, k-1 • edit(s1, suff(fi1)) errore e edit(sk, pref(fik)) errore st= suff (fit) ost= pref (fit) variante di splicing
Il problema Input - Una sequenza genomica G - Un cluster di sequenze EST S = {S1, S2, …, Sn} Output Una fattorizzazione GE di G (GE = f1, f2, …, fn) e un set di fattorizzazioni degli EST compatibili con GE Obiettivo: minimizzare n
A2 A1A2 B D1 D1 C1 7 exons 4 esoni S1 A2 D1 C1 S2 A1A2 B D1 S3 A2 D1D2 C1C2 Esempio Sequenza genomica G A2 A2 A2 A2 A1A2 A1A2 A1A2 B B B D1 D1 D1 C1 C1 D1D2 D1D2 D1D2 D1D2 C1C2 C1C2 C1C2 C1C2 EST set S = {S1, S2, S3}
Risultati • Il problema è MAX-SNP-hard (riduzione lineare da NODE-COVER) • Euristica: Processo iterativo per fattorizzare ogni EST backtracking per ricomputare fattorizazzioni precedenti se si giunge ad una fattorizzazione non compatibile con GE
em L’algoritmo Passo j-esimo: Fattorizzazione parziale dell’EST Si (fattore sij) si-1 1 si-1 j-1 si-1 j si-1 n Si-1 si1 si j-1 sij Si e1 e2 em G After placing all the factors sij for the set S, place the external factors; if (Compatible(em, exon_list)) then add em to exon_list; otherwise try to place sij elsewhere; If not possible then backtrack;
ag gt L’algoritmo (dettagli) Calcolo del fattore sij G esone c2 si1 si j-1 si jy si j Si c1 c1 c1 c1 c2 c2 c3 c4 c5 sij Find the rightmost gt pattern such that the edit distance between sijy and the genomic substring from ag to gt is bounded Find the canonical ag pattern on the left Then the algorithm searches a perfect match of c2 on G Then the entire factor sij can be placed on G The algorithm searches a perfect match of c1 on G Sij can be divided into n components ck (k=1,2,…,n) At least one of these components for k from 1 to (n-1) is error-free and can be placed on G Suppose that c2 has a perfect match on G Suppose that c1 has no perfect match on G
ASPic software (Alternative Splicing PredICtion) Input - La lunghezza minima prevista per un esone - La lunghezza della componente di matching perfetto - L’errore di riduzione degli introni - L’errore di sequenziamento di un EST - La sequenza genomica - Il cluster di EST Output - Un file di testo per tutti gli allineamenti EST-genomica - Un file HTML degli allineamenti in prossimità dei siti di splicing predetti
ASPic web site ASPic è un web-based tool disponibile all’indirizzo http://aspic.algo.disco.unimib.it/aspic-devel che permette di predire i siti di splicing per un gene in input
ASPIC web site http://www.caspur.it/ASPIC/ OUTPUT: • Information about the input • A graphical view of the predicted gene structure • A table of the predicted introns • A graphical view of the transcript-genome alignments • A graphical view of the predicted full-length isoforms • A table of the predicted full-length isoforms