190 likes | 549 Views
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA. Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 3 Mappe genetiche. Alfabeti, parole, linguaggi. Alfabeto = insieme finito S di elementi detti lettere, caratteri o simboli Esempi
E N D
UNIVERSITA’ DI MILANO-BICOCCALAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 3 Mappe genetiche
Alfabeti, parole, linguaggi Alfabeto = insieme finito S di elementi detti lettere, caratteri o simboli Esempi S = {0,1} Alfabeto binario S = {a, b, c, ... , v, z} Alfabeto italiano S = {A, C, G, T} Alfabeto del DNA S= {GLY, ALA, VAL, LEU, …} Alfabeto delle proteine
Alfabeti, parole, linguaggi Parola, stringa o sequenza su S = lista ordinata di simboli di S scritti consecutivamente da sinistra a destra Formalmente: Una stringa w = a1a2…an è una funzione w: {1,2,…,n} Scon: • w(i) = aicarattere i-esimo di w • n lunghezza di w (denotata anche con |w|) ESEMPIO: w = AATGCA |w| = 6 Parola vuota e |e| = 0 L’insieme delle parole su S viene indicato con S* (chiusura di S)
Alfabeti, parole, linguaggi Sottosequenza di w = sequenza ottenuta per cancellazione di uno o più caratteri di w Esempio w = AATGCATTCGCT Supersequenza di w’ w’= ATGATCGT Sottosequenza di w
Alfabeti, parole, linguaggi Sottostringa di w = stringa formata da caratteri consecutivi di w Esempio w = AATGCATTCGCT Superstringa di w’ w’= TGCATTC Sottostringa di w Una sottostringa di w è anche sottosequenza di w (ma non vale il viceversa)
Alfabeti, parole, linguaggi Concatenazione di w e v, wv = stringa formata dai caratteri di w, seguiti da quelli di v Esempio v = AATGC w = ATTCGCT vw = AATGCATTCGCT
Alfabeti, parole, linguaggi Prefisso di w = stringa v tale che w = vt per qualche t S* Esempio w = A A T G C A T T C G C T Suffisso di w = stringa t tale che w = vt per qualche vS* Esempio w = A A T G C A T T C G C T
Gene hunting Ricerca del gene responsabile di un particolare evento (in genere malattia) Esempio • Malattia: fibrosi cistica (frequenza 1/2500) • Causa: gene alterato presente con frequenza 1/25 (se ereditato da ambedue i genitori causa la malattia) • Scoperte: • primi anni ‘80: inizia la ricerca del gene responsabile della FC (per diagnosi prenatale e cura) • 1985: viene individuato il cromosoma 7 su cui risiede il gene • 1989: il gene viene localizzato sul cromosoma 7 (la proteina corrispondente comprende 1480 aminoacidi)
Mappaggio genetico Posizionamento approssimato di un gene su un particolare cromosoma (prima fase del genehunting) Idea generale: analizzare la frequenza di diverse combinazioni di fenotipi nella discendenza per determinare l’ordine dei geni Prima mappa genetica: sei geni della DrosophilaMelanogaster (Sturtevant, 1913)
Mappaggio genetico: un esempio Organismo modello semplice (unico cromosoma) • Numero di geni: 3 (colore di occhi, pelle, capelli) • Ogni gene può essere nello stato • R: fenotipo rosso • V: fenotipo verde • Dati un individuo madre (m1, m2, m3) e un individuo padre (p1, p2, p3), con mi e pi stati dei geni, un figlio è un individuo con insieme degli stati fornito da una particolare posizione di ricombinazione i compresa tra 0 e 3 (ad esempio (m1, p2, p3) per i=1) NB: per la stessa posizione di ricombinazione, l’insieme degli stati poteva anche essere (p1, m2, m3) • Ogni coppia di individui può dare luogo a 8 ricombinazioni diverse • La probabilità di ricombinazione alla posizione i è pari a 1/4
Mappaggio genetico: un esempio Gen1 abc Gen2 def abc def aef dbc abf dec abc def Dati i fenotipi di un grande numero di figli di un genitore tutto rosso e uno tutto verde, si vuol trovare l’ordine dei geni
Mappaggio genetico: un esempio Le diverse possibilità di ricombinazione tra un individuo (R, R, R) e uno (V, V, V) sono: • per i=0: (V, V, V) o (R, R, R) • per i=1: (R,V, V) o (V,R, R) • per i=2: (R, R,V) o (V, V,R) • per i=3: (R, R, R) o (V, V, Mappe genetiche) NB: - Probabilità di avere caratteri diversi per i geni in posizione 1 e 2: 1/4 - Probabilità di avere caratteri diversi per i geni in posizione 2 e 3: 1/4 - Probabilità di avere caratteri diversi per i geni in posizione 1 e 3: 1/2
Mappaggio genetico: un esempio Generalizzando si ottiene • Numero di geni: n • Ogni gene può essere nello stato • R: fenotipo rosso • V: fenotipo verde • Dati un individuo madre (m1, m2, …, mn) e un individuo padre (p1, p2, …, pn), con mi e pi stati dei geni, un figlio è un individuo con insieme degli stati fornito da una particolare posizione di ricombinazione i compresa tra 0 e n ((m1, …, mi, pi+1, …, pn) o (p1, …, pi, mi+1, …, mn)) • Ogni coppia di individui può dare luogo a 2(n+1) ricombinazioni diverse • La probabilità di ricombinazione alla posizione i (probabilità di avere diversi i caratteri per i geni nelle posizioni i e i+1) è pari a 1/(n+1) • La probabilità di avere diversi i caratteri per i geni non consecutivi è pari a d/(n+1) con d distanza tra i caratteri
Mappaggio genetico: un esempio INPUT: un elevato numero di figli di un individuo tutto rosso (R, R, …, R) e di uno tutto verde (V, V, …, V) OUTPUT: ordine (g1, g2, …, gn) dei geni nell’organismo modello Misurando la frequenza dei caratteri diversi nella popolazione dei figli, si risale alla stima delle distanze tra i geni gi e quindi al loro ordine sul cromosoma
Mappaggio fisico del DNA • Mappa fisica := localizzazione di marcatori lungo la sequenza del DNA • Tecnica: RFLP (Restriction Fragments Length Polymorphism) • Esempio: Siti di restrizione • 1970: Hamilton Smithscopre che HindII taglia il DNA in corrispondenza di GTGCAC o GTTAAC • Il DNA umano è tagliato in circa un milione di frammenti • Mutazioni interne al sito di restrizione impediscono il taglio • 1973: Danna et al. costruiscono la prima mappa di restrizione per il DNA del Simian Virus 40
Mappaggio fisico del DNA Il mappaggio fisico del DNA consiste nel • creare alcune copie del DNA da mappare • frammentare con enzimi di restrizione • confrontare i frammenti e le loro sovrapposizioni • Generazione di fingerprints per • analisi dei siti di restrizione • Misura della lunghezza dei frammenti • ibridazione • Ricerca di piccole sequenze che legano i frammenti
3 8 6 10 3 1 5 2 6 3 7 5 4 11 7 Analisi dei siti di restrizione Enzima A Enzima B Enzima A+B
Problema della doppia digestione (DDP) INPUT: tre multinsiemi di numeri interi: A = {a1, a2, …, an} B = {b1, b2, …, bm} O = {o1, o2, …, ok} OUTPUT: due permutazioni di A e B, pA e pB, tali che, riportando su una retta gli elementi di A in segmenti consecutivi e ordinati secondo pA e gli elementi di B in segmenti consecutivi e ordinati secondo pB, si ottenga una suddivisione in segmenti corrispondenti agli elementi di O Il problema DDP è NP-completo (Goldstein e Waterman, 87)
3 8 6 10 pA 3 11 17 27 4 5 11 7 pB 4 9 20 27 3 1 5 2 6 3 7 pA UpB Problema della doppia digestione (DDP) Esempio INPUT: A = {3, 6, 8, 10} B = {4, 5, 7, 11} O = {1, 2, 3, 3, 5, 6, 7} OUTPUT: