250 likes | 407 Views
UNIVERSITATEA POLITEHNICA TIMIŞOARA. MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății. www.medinfo.umft.ro/dim / bioinformatica.htm. BIOINFORMATICA. Prof Dr George I Mihala ş UMF Victor Babeş. CURSUL 8. COMPARAREA A DOUĂ SECVENŢE (III).
E N D
UNIVERSITATEAPOLITEHNICA TIMIŞOARA MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății
BIOINFORMATICA Prof Dr George I Mihalaş UMF Victor Babeş
Potriviri repetate (Repeatedmatches) [i] • Aplicaţii • Găseşte copii (nesuprapuse) ale unei secţiuni care se repetă(există domenii numite “motive”)
Potriviri repetate [ii] • Aspecte teoretice • Se ia un prag T (threshold) • Se reţin doar secvenţele pentru care se ajunge la scoruri > T • Prima linie F(i,0) = max [F(i-1,0), F(i-1,j)-T, pt. j=1,…,m] • La F(i,j), în loc de 0 punem F(i,0) • Comentarii • T mare – poate exclude potriviri • T mic – divizează secvenţele ca să găsească şi potriviri slabe
Potriviri suprapuse (Overlapmatches) [i] • Aplicaţii • Când ne aşteptăm ca o secvenţă să o conţină pe cealaltă, sau să se suprapună parţial • La compararea fragmentelor genomice de ADN • La compararea unor secvenţe cromozomale mari
Potriviri suprapuse [ii] • Aspecte teoretice • Nu se penalizează gap-urile de la margini • Marginile se iniţializează cu 0 şi se aplică algoritmul N-W • Se setează maximul Fmax la valoarea maximă de pe linia de jos sau coloana din dreapta • “traceback” începe de la Fmax până la marginea de sus sau stânga • Există versiune cu “repeat”: F(i,0) = max [F(i-1,0), F(i-1,m)-T]
Potriviri hibride (Hybrid matchconditions) • Aplicaţii • Fiecare variantă are avantaje şi dezavantaje • Exemple ce necesită abordări specifice: • O secvenţă repetitivă tinde să fie găsită în copii tandem neseparate • Căutăm secvenţe ce încep la startul ambelor secvenţe dar se pot termina în orice punct • Avem probabilitate mare ca o secvenţă să fie regăsită integral în alta, dar şi o probabilitate de a găsi numai un segment (căutări în familii) • Este bine să ştim ce potriviri căutăm • Aspecte teoretice • Cazurile standard sunt limitate, dar putem găsi ceva apropiat • Se pot face “postprocesări”
Programare dinamică – modele complexe • Aplicaţii • Gap-urile sunt adesea “în lanţ” • Aspecte teoretice • Tipuri de penalizare gap: • Liniară γ(g) = - g d (g = nr.gap-uri, d = penalizare 1 gap) • Gap-uri afine: γ(g) = - d – (g-1) e (e = penalizare gap în lanţ; e << d) • Modificarea relaţiilor de recurenţă • “Automate cu stări finite”, modele complexe • Scoruri diferite la substituţie în diverse regiuni (transmembranar, intracelular, extracelular) • Metode euristice - BLAST
Matrici de substituţie pentruproteine [i] A. Matrici PAM – PercentAcceptedMutations • Ipoteză – fiecare schimbare a unui AA este independentă de alte schimbări anterioare • Calculul matricilor PAM (Margaret Dayhoff, 1978) • Au fost evaluate 1572 schimbări în 71 grupe de secvenţe proteice cu similaritate cel puţin 85% • PAM1 – se acceptă 1 mutaţie la 100 AA • PAM10 – 10 mutaţii, etc • PAM-N = PAM1 x PAM1 x … de N ori • Folosire în funcţie de procent de similaritate • PAM250 pt 20%, PAM120 / 80 / 60 pt 40%, 50%, 60%
Exprimare cu “log odds” • Fiecare celulă = log OR (scor aditiv) OR = p(AA1mAA2) / fr(AA1) = frecv.rel.a schimbării
B. Matrici BLOSUM • Blocks (Amino Acid)Substitution Matrices • Stephen şi Georgia Henikoff (1992) • Pe baza a 2000 patternuri de AA organizaţi în blocuri • (blocuri – semnăturile unor familii de proteine) • BLOSUM50,60,80 – secvenţe 50% (60%, 80%) similare, etc s(a,b) = (1/λ) log [p(a,b) / fafb]
Matrici de substituţiepentruAciziNucleici[ii] • Matrici pentru Acizi nucleici • bazate pe modele de evoluţie / substituţie a nucleotidelor A) Modelul Jukes-Cantor • rate uniforme la mutaţii B) Modelul Kimura • rate diferite la mutaţii
ModelulKimura- tranziţii (conservă purină/pirimidină), - rata α- transversii – rate mai mici β < α
Testarea semnificaţiei alinierii Distribuţia Poisson (Gumbel) E = K m n e- λS E = nr alinieri cu scor min. S m, n = lungimile secvenţelor K, λ = parametrii statistici ai S S = 10 log x
Semnificaţia alinierii - Normalizare • Nr bits (log2) de informaţie în scor • Nr nats (ln) • Conversia la biţi: S’ = (λ S – ln K) / ln 2 E = m n 2- S’ • Valori P – probabilitatea de a obţine S la întâmplare P = 1 – e –E~ e –E • Determinarea rapidă a semnificaţiei • Uzual K = 0.1, λ este precalculat în PAM şi BLOSUM • Ex: matricea log odds în biţi: λ = ln 2 şi prag = ln (mn)