520 likes | 738 Views
Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi Dažādas salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi . Lekciju saraksts . Aminoskābju nomaiņas . Dažādu aminoskābju nomaiņas notiek ar dažādu varbūtību. Tam ir divējādi iemesli:
E N D
Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi Dažādas salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi
Lekciju saraksts Mikrobioloģijas un biotehnoloģijas katedra
Aminoskābju nomaiņas • Dažādu aminoskābju nomaiņas notiek ar dažādu varbūtību. Tam ir divējādi iemesli: 1. aminoskābēm ir dažādas fizikāli – ķīmiskās īpašības, kas ietekmē to funkciju (piemēram, Ala -> Val nomaiņa ir varbūtīgāka nekā Ala -> Asp) 2. Kodona nomaiņai par citu aminoskābi kodējošu kodonu var būt nepieciešams atšķirīgs mutāciju skaits Leu TTA TTG CTT CTC CTA CTG Ile ATT ATC ATA His CAT CAC Mikrobioloģijas un biotehnoloģijas katedra
Aminoskābju nomaiņu matricas • Marija Deihofa sastādīja pirmo aminoskābju nomaiņas matricu, kas bija balstīta un eksperimentāli noteiktu proteīnu grupu salīdzinājumu • Dayhoff, M. O., Schwartz, R. M., and Orcutt, B. C. (1979)In: Atlas of Protein Sequence and Structure, Dayhoff, M. O. Ed, pp. 345-352 Mikrobioloģijas un biotehnoloģijas katedra
Daihofas matrica Mikrobioloģijas un biotehnoloģijas katedra
Sekvenču atšķirības mērvienības • PAM – PercentAcceptedMutation • Piemēram, 1 PAM nozīmē, ka starp divām sekvencēm pastāv 1% atšķirību • 1 PAM matrica tiek veidota no sekvencēm, kas ir 99% identiskas • Atšķirīgākām sekvencēm veido citas, atbilstošākas matricas, jo pastāv iespēja, ka katrā pozīcijā notikušas vairākas nomaiņas • PAM250 matrica ir domāta ļoti atšķirīgām sekvencēm (~20% identitāte) Mikrobioloģijas un biotehnoloģijas katedra
BLOSUM matricas • S. Henikovs izveidoja BLOSUM matricas, kas bija balstītas uz daudz lielāku daudzumu proteīnu sekvenču • BLOSUM62 matrica derīga sekvencēm, kas ir vismaz par 62% identiskas • Vairumā gadījumu sekvenču salīdzināšanas programmu standarta (default) parametri ir adekvāti • BLOSUM62 ir standarta matrica BLASTP meklēšanā Mikrobioloģijas un biotehnoloģijas katedra
Divu sekvenču salīdzinājums • Kad izveidota salīdzinājumu novērtēšanas sistēma, iespējams meklēt optimālu salīdzinājumu – tādu, kas dod vislielāko punktu skaitu • Ir situācijas, kad pastāv vairāki optimālie salīdzinājumi • Globāls salīdzinājums – tiek salīdzinātas divas pilna garuma sekvences • Lokāls salīdzinājums – salīdzina vienas sekvences segmentu ar otras sekvences segmentu • Globāls salīdzinājums var būt ārkārtīgi laikietilpīgs (ja sekvenču garums ir n un m, tad matricas izmērs ir n x m) Mikrobioloģijas un biotehnoloģijas katedra
Nīdlmana – Vunša algoritms • N-W algoritms veic divu sekvenču globālu salīdzinājumu • NeedlmanandWunsch(1970) A generalmethodapplicable to thesearchforsimilaritiesintheaminoacidsequenceoftwoproteins. Journal of Molecular Biology 48: 443 – 453 Mikrobioloģijas un biotehnoloģijas katedra
Nīdlmana – Vunša algoritms • Izmanto gadījumos, kad jāsalīdzina divas līdzīga garuma sekvences, kas ir savstarpēji pietiekami līdzīgas visā to garumā • Salīdzinājuma rezultātā atrod labāko (optimālo) salīdzinājumu visā sekvenču garumā Mikrobioloģijas un biotehnoloģijas katedra
Smita – Vatermana algoritms • S-W algoritms veic divu sekvenču lokālu salīdzinājumu • Smith TF, Waterman MS (1981)Identification of Common Molecular Subsequences. Journal of Molecular Biology 147: 195-197 Mikrobioloģijas un biotehnoloģijas katedra
Smita – Vatermana algoritms • Izmanto atšķirīgu sekvenču salīdzinājumam, kuras varētu saturēt līdzīgus rajonus, vai līdzīgus sekvences motīvus kopējā sekvences kontekstā • Atrod lokālus sekvenču rajonus, kas līdzīgi viens otram un veido optimālu salīdzinājumu konservatīvajiem domēniem Mikrobioloģijas un biotehnoloģijas katedra
Algoritmu salīdzinājums (demonstrējums) • HomosapiensPAX6 un Drosophilaeyelesssalīdzinājums (P26367 un O18381) • Homosapiensdistrofīnaizoformusalīdzinājums (NP_004013 un NP_004014) Mikrobioloģijas un biotehnoloģijas katedra
BLAST • BasicLocalAlignmentSearchTool • Līdzīgi kā globālajā sekvenču salīdzinājumā tiek izmantots dotplots, taču salīdzināšana notiek nevis ar pilna garuma sekvenci, bet gan tās noteikta garuma fragmentiem • Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) Basic local alignment search tool. J. Mol. Biol. 215:403-410 • Altschul, S.F., Madden, T.L., Schäffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25:3389-3402 Mikrobioloģijas un biotehnoloģijas katedra
BLAST • BLAST sadala querysekvenci noteikta garuma vārdos ar garumu k, un tadatrod visas precīzās sakritības datu bāzē • Katras sakritības gadījumā tā tiek pagarināta uz abām pusēm • Paplašinātās sakritības (salīdzinājumi) tiek savienoti pieļaujot nesakritības un pārtraukumus, bet tikai noteiktā dotplota diagonāles diapazonā Mikrobioloģijas un biotehnoloģijas katedra
BLAST mehānisms • Visam pamatā – dotplots • BLAST sadala meklēšanā izmantoto sekvenci noteikta garuma vārdos (piemēram, k = 4), tad atrod visas sekvences datu bāzē, kuras satur precīzi tādus vārdus • BLAST cenšas pagarināt katru no sakrītošajiem vārdiem uz abām pusēm, nepieļaujot atšķirības un pārtraukumus (mismatch, gap) • Pēc tam pagarinātie rajoni tiek apvienoti, pieļaujot atšķirības un pārtraukumus Mikrobioloģijas un biotehnoloģijas katedra
NCBI BLAST http://www.ncbi.nlm.nih.gov/BLAST/Blast.cgi Mikrobioloģijas un biotehnoloģijas katedra
BLASTN • BLASTN – nukleotīdu secība pret nukleotīdu datu bāzi Vairāki BLASTN algoritmi: BLASTN – tradicionālais algoritms nukleotīdu secībām. Lēns Megablast – ļoti līdzīgām nukleotīdu secībām (>95% identitātes). Ļoti ātrs Pārtrauktais megablast – līdzīgām nukleotīdu secībām Mikrobioloģijas un biotehnoloģijas katedra
BLASTP • BLASTP – aminoskābju secība pret proteīnu datu bāzi Vairāki BLASTP algoritmi: BLASTP – tradicionālais algoritms aminoskābju secībām PSI-BLAST (positionspecificiterated) – BLASTP variants, kurā pirmajā meklēšanā tiek izveidots daudzkārtējs sekvenču salīdzinājums, ko tālāk atkārtoti izmanto, lai meklētu datu bāzē PHI-BLAST – (patternhitinitiated) – BLASTP variants, kas meklē proteīnu motīvus proteīnu datu bāzē Mikrobioloģijas un biotehnoloģijas katedra
BLASTX • BLASTX – translēta nukleotīdu secība pret proteīnu datu bāzi • Tiek plaši pielietots genomu anotācijā, ja pastāv hipotēze, ka dotais DNS rajons kodē proteīnu, bet nav zināms nolasīšanas rāmis un kodējošā rajona robežas • Ļoti noderīga programma EST sekvenču analīze, kas satur daudz kļūdu, piemēram, nolasīšanas rāmi nobīdošas insercijas vai delēcijas Mikrobioloģijas un biotehnoloģijas katedra
TBLASTN • TBLASTN – aminoskābju secība pret translētu nukleotīdu datu bāzi • Izmanto, lai nukleotīdu datu bāzē meklētu sekvences, kas potenciāli varētu kodēt aminoskābju sekvences, kas homologas kādam proteīnam • Nukleotīdu datu bāzē ir liels daudzums neanotētu secību, galvenokārt EST un GSS Mikrobioloģijas un biotehnoloģijas katedra
TBLASTX • TBLASTX – translēta nukleotīdu secība pret translētu nukleotīdu datu bāzi • Ļoti laikietilpīga metode. Īpaši piemērota jaunu gēnu meklēšanai, jo salīdzina translētas nukleotīdu secības Mikrobioloģijas un biotehnoloģijas katedra
BLAST rezultātu interpretācija Mikrobioloģijas un biotehnoloģijas katedra
BLAST rezultātu nozīmība – Score • Punktu skaitu (score) iegūst novērtējot cik nukleotīdu vai aminoskābju salīdzinājumā sakrīt un piešķirot tiem papildus svaru balstoties uz (BLOSUM62) matricu Papildus jānovērtē arī cik punktu varētu iegūt nejaušības dēļ – izmanto visu meklēšanas rezultātu kopumu, no kuriem vairums ir pret nejaušām secībām Ja oriģinālā sekvence iegūst tikpat punktus, cik nejaušās secības, tad sekvenču līdzība ir nejauša http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html Mikrobioloģijas un biotehnoloģijas katedra
BLAST rezultātu nozīmība – E-value • E vērtība (E value) ir varbūtība, ka novērotā homoloģija meklējot konkrētajā datu bāzē varētu parādīties nejaušības dēļ E > 1 novērotā homoloģija nejaušības dēļ E < 0.02 iespējams, ka sekvences ir homologas • Punktu skaits un E vērtība ir matemātiski saistīti Mikrobioloģijas un biotehnoloģijas katedra
Sekvenču salīdzinājumu parametri • BLAST meklēšanas rezultāts – divu sekvenču salīdzinājums ar standarta parametriem inserciju/delēciju gadījumā nesanāk tāds kā gribētos • Var mēģināt koriģēt Gapopening un Gapextensionsoda punktus Mikrobioloģijas un biotehnoloģijas katedra
Specializētie BLAST veidi • PSI – BLAST – proteīnu homoloģijas meklēšana • Konservatīvo domēnu meklēšana (CDS) • Konservatīvas domēnu arhitektūras meklēšana (CDART) • Vektoru sekvenču meklēšana (VECSCREEN) • Divu sekvenču salīdzināšana izmantojot BLAST (BL2SEQ) Mikrobioloģijas un biotehnoloģijas katedra
PSI-BLAST • BLASTP meklēšana ir samērā ātra un labi darbojas, ja proteīnu homoloģija ir augsta (radniecīgu sugu, dzimtu vai pat kārtu organismu proteīni) • Ko darīt, ja nepieciešams atrast radniecīgas sekvences ļoti attālās taksonomiskās vienībās, piemēram, proteīnus, kuru aminoskābju secības atšķiras par vairāk nekā 70%? Mikrobioloģijas un biotehnoloģijas katedra
Cisteīnaproteāžu salīdzinājums Papaīns, aktinidīns, himopapaīns Papaīns, aktinidīns, himopapaīns + Cysproteāze no Entamoebahistolitica, katepsīns 1 no Aedesegypti un katepsīns S no H. sapiens Tas pats, kas otrajā salīdzinājumā + Cysproteināze no Giardialambliaun katepsīns b no Aedesegypti Mikrobioloģijas un biotehnoloģijas katedra
PSI – BLAST un daudzkārtēja sekvenču salīdzināšana • Position-SensitiveIterated BLAST • Vairāku aminoskābju secību salīdzinājums parāda sekvenču motīvus, kas saglabājušies evolūcijas gaitā • PSI – BLAST sāk ar BLASTP, identificējot visas sekvences, kas homologas izejas sekvencei • Izveido daudzkārtēju sekvenču salīdzinājumu un no tā iegūst profilu • Atkārto meklēšanu proteīnu datu bāzē izmantojot profilu • Atkārto meklēšanu, kamēr vairs netiek iegūti jauni rezultāti Mikrobioloģijas un biotehnoloģijas katedra
PSI – BLAST un daudzkārtēja sekvenču salīdzināšana Mikrobioloģijas un biotehnoloģijas katedra
PSI – BLAST pirmais solis Mikrobioloģijas un biotehnoloģijas katedra
PSI – BLAST 2 - 4 solis Mikrobioloģijas un biotehnoloģijas katedra
Konservatīvo domēnu meklēšana • Conserveddomainsearch - tiek veikts automātiski BLASTP meklēšanas laikā Mikrobioloģijas un biotehnoloģijas katedra
CD meklēšana ir saistīta ar citām datu bāzēm Mikrobioloģijas un biotehnoloģijas katedra
Konservatīvas domēnu arhitektūras meklēšana • Conserveddomainarchitechture – vairums proteīnu sastāv no domēniem Domēns – kompakta struktūrvienība, nereti veic speciālu molekulāru funkciju • Proteīnu evolūcija notiek domēnu līmenī • CDART atļauj meklēt proteīnus, kuriem ir līdzīga domēnu arhitektūra Mikrobioloģijas un biotehnoloģijas katedra
Konservatīvas domēnu arhitektūras meklēšana Mikrobioloģijas un biotehnoloģijas katedra
VECSCREEN • DNS sekvenēšana tradicionāli pamatojās uz genoma fragmenta klonēšanu plazmīdu vektorā un inserta sekvenēšanu izmantojot vektora praimerusaitus • Rezultātā iegūtā sekvence satur nelielu vektora gabaliņu • Pirms iesniegt savas sekvences GenBank, jāatbrīvojas no vektora sekvencēm un VECSCREEN ir BLAST veids, kas identificē varbūtējos vektora fragmentus Mikrobioloģijas un biotehnoloģijas katedra
Vektora sekvences EST datu bāzē Mikrobioloģijas un biotehnoloģijas katedra
BL2SEQ • BL2SEQ salīdzina divas secības (nukleotīdu vai aminoskābju) izmantojot BLAST algoritmu • Ļauj noteikt intronu – eksonu sturktūru, vai identificēt insercijas/delēcijas (piemēram, alternatīvo splaisingu) Mikrobioloģijas un biotehnoloģijas katedra
BL2SEQ piemērs Miežu gēna RPG1cDNS (horizontāli) un genomiskās DNS salīdzinājums Eksoni parādās, kā homoloģijas bloki ar 100% identitāti. Atkārtojums gēna struktūrā parādās kā homoloģijas rajons ar 82% identitāti Mikrobioloģijas un biotehnoloģijas katedra
Tīkla BLAST no lokāla datora Mikrobioloģijas un biotehnoloģijas katedra
Tīkla BLAST • Mūsdienās vairs nav tik plaši lietots, jo arī standarta WWW BLAST interfeiss atļauj vienlaicīgi meklēt homologus vairākām nukleotīdu un aminoskābju secībām • ftp://ftp.ncbi.nih.gov/blast/executables/release/LATEST/ • netblast-2.2.25-ia32-win32.exe vai • netblast-2.2.25-x64-win64.exe Mikrobioloģijas un biotehnoloģijas katedra
Lokālais BLAST un lokālās datubāzes • NCBI BLAST servera iespējas nav neierobežotas – reizumis meklēšana var ieilgt vai vispār nedot rezultātus. Veikt BLAST homoloģijas meklējumu ar vairākiem simtiem DNS/aminoskābju secību ir ļoti laikietilpīgi, ja to mēģina darīt NCBI mājas lapā • Ja grib salīdzināt vairākas sekvences vienu ar otru, kuras nav GenBank datu bāzē, var izmantot BL2SEQ, bet tas ļauj veikt tikai 2 sekvenču salīdzinājumu vienlaicīgi • Iespējams uzstādīt BLAST uz lokālā datora un veidot pašam savas datu bāzes Mikrobioloģijas un biotehnoloģijas katedra
Lokālais BLAST • Instalē Windows BLAST programmu • Izveido savas lokālās datu bāzes ar formatdb komandu • Veic BLAST meklēšanu uz sava datora • ftp://ftp.ncbi.nih.gov/blast/executables/release/LATEST • blast-2.2.25-ia32-win32.exevai • blast-2.2.25-x64-win64.exe Mikrobioloģijas un biotehnoloģijas katedra
FASTA – alternatīva BLAST • BLAST nav vienīgā sekvenču homoloģijas meklēšanas programma • FASTA (FAST-All) ir nukleotīdu un aminoskābju sekvenču homoloģijas meklēšanas programma, kas tika radīta vēl pirms BLAST • Pearson WR, Lipman DJ (1988) Improved tools for biological sequence comparison. PNAS, 85: 2444 – 2448 • http://www.ebi.ac.uk/Tools/sss/fasta/ Mikrobioloģijas un biotehnoloģijas katedra
Vēlreiz vispārīgi par sekvenču salīdzināšanu • Sekvenču līdzība vēl nenozīmē homoloģiju, t.i., izcelsmi no kopīga senča • Homoloģija nenozīmē līdzīgu funkciju • Piemēri, mioglobīns un augu hemoglobīns – <25% identiski aminoskābju atlikumi, bet līdzīga proteīnu struktūra, funkcija un izcelsme • Cilvēka malāta un laktātadehidrogenāzes ir homoloģiskas, bet veic atšķirīgu funkciju • Baktēriju subtilizīns un dzīvnieku himotripsīns nav homologi, bet tiem ir līdzīgi proteāzes aktīvie saiti (Asp, His un Ser) – konverģentās evolūcijas piemērs Mikrobioloģijas un biotehnoloģijas katedra