1 / 52

Lekciju saraksts

Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi Dažādas salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi . Lekciju saraksts . Aminoskābju nomaiņas . Dažādu aminoskābju nomaiņas notiek ar dažādu varbūtību. Tam ir divējādi iemesli:

phil
Download Presentation

Lekciju saraksts

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi Dažādas salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi

  2. Lekciju saraksts Mikrobioloģijas un biotehnoloģijas katedra

  3. Aminoskābju nomaiņas • Dažādu aminoskābju nomaiņas notiek ar dažādu varbūtību. Tam ir divējādi iemesli: 1. aminoskābēm ir dažādas fizikāli – ķīmiskās īpašības, kas ietekmē to funkciju (piemēram, Ala -> Val nomaiņa ir varbūtīgāka nekā Ala -> Asp) 2. Kodona nomaiņai par citu aminoskābi kodējošu kodonu var būt nepieciešams atšķirīgs mutāciju skaits Leu TTA TTG CTT CTC CTA CTG Ile ATT ATC ATA His CAT CAC Mikrobioloģijas un biotehnoloģijas katedra

  4. Aminoskābju nomaiņu matricas • Marija Deihofa sastādīja pirmo aminoskābju nomaiņas matricu, kas bija balstīta un eksperimentāli noteiktu proteīnu grupu salīdzinājumu • Dayhoff, M. O., Schwartz, R. M., and Orcutt, B. C. (1979)In: Atlas of Protein Sequence and Structure, Dayhoff, M. O. Ed, pp. 345-352 Mikrobioloģijas un biotehnoloģijas katedra

  5. Daihofas matrica Mikrobioloģijas un biotehnoloģijas katedra

  6. Sekvenču atšķirības mērvienības • PAM – PercentAcceptedMutation • Piemēram, 1 PAM nozīmē, ka starp divām sekvencēm pastāv 1% atšķirību • 1 PAM matrica tiek veidota no sekvencēm, kas ir 99% identiskas • Atšķirīgākām sekvencēm veido citas, atbilstošākas matricas, jo pastāv iespēja, ka katrā pozīcijā notikušas vairākas nomaiņas • PAM250 matrica ir domāta ļoti atšķirīgām sekvencēm (~20% identitāte) Mikrobioloģijas un biotehnoloģijas katedra

  7. BLOSUM matricas • S. Henikovs izveidoja BLOSUM matricas, kas bija balstītas uz daudz lielāku daudzumu proteīnu sekvenču • BLOSUM62 matrica derīga sekvencēm, kas ir vismaz par 62% identiskas • Vairumā gadījumu sekvenču salīdzināšanas programmu standarta (default) parametri ir adekvāti • BLOSUM62 ir standarta matrica BLASTP meklēšanā Mikrobioloģijas un biotehnoloģijas katedra

  8. Divu sekvenču salīdzinājums • Kad izveidota salīdzinājumu novērtēšanas sistēma, iespējams meklēt optimālu salīdzinājumu – tādu, kas dod vislielāko punktu skaitu • Ir situācijas, kad pastāv vairāki optimālie salīdzinājumi • Globāls salīdzinājums – tiek salīdzinātas divas pilna garuma sekvences • Lokāls salīdzinājums – salīdzina vienas sekvences segmentu ar otras sekvences segmentu • Globāls salīdzinājums var būt ārkārtīgi laikietilpīgs (ja sekvenču garums ir n un m, tad matricas izmērs ir n x m) Mikrobioloģijas un biotehnoloģijas katedra

  9. Nīdlmana – Vunša algoritms • N-W algoritms veic divu sekvenču globālu salīdzinājumu • NeedlmanandWunsch(1970) A generalmethodapplicable to thesearchforsimilaritiesintheaminoacidsequenceoftwoproteins. Journal of Molecular Biology 48: 443 – 453 Mikrobioloģijas un biotehnoloģijas katedra

  10. Nīdlmana – Vunša algoritms • Izmanto gadījumos, kad jāsalīdzina divas līdzīga garuma sekvences, kas ir savstarpēji pietiekami līdzīgas visā to garumā • Salīdzinājuma rezultātā atrod labāko (optimālo) salīdzinājumu visā sekvenču garumā Mikrobioloģijas un biotehnoloģijas katedra

  11. Smita – Vatermana algoritms • S-W algoritms veic divu sekvenču lokālu salīdzinājumu • Smith TF, Waterman MS (1981)Identification of Common Molecular Subsequences. Journal of Molecular Biology 147: 195-197 Mikrobioloģijas un biotehnoloģijas katedra

  12. Smita – Vatermana algoritms • Izmanto atšķirīgu sekvenču salīdzinājumam, kuras varētu saturēt līdzīgus rajonus, vai līdzīgus sekvences motīvus kopējā sekvences kontekstā • Atrod lokālus sekvenču rajonus, kas līdzīgi viens otram un veido optimālu salīdzinājumu konservatīvajiem domēniem Mikrobioloģijas un biotehnoloģijas katedra

  13. Algoritmu salīdzinājums (demonstrējums) • HomosapiensPAX6 un Drosophilaeyelesssalīdzinājums (P26367 un O18381) • Homosapiensdistrofīnaizoformusalīdzinājums (NP_004013 un NP_004014) Mikrobioloģijas un biotehnoloģijas katedra

  14. Mikrobioloģijas un biotehnoloģijas katedra

  15. BLAST • BasicLocalAlignmentSearchTool • Līdzīgi kā globālajā sekvenču salīdzinājumā tiek izmantots dotplots, taču salīdzināšana notiek nevis ar pilna garuma sekvenci, bet gan tās noteikta garuma fragmentiem • Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) Basic local alignment search tool. J. Mol. Biol. 215:403-410 • Altschul, S.F., Madden, T.L., Schäffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25:3389-3402 Mikrobioloģijas un biotehnoloģijas katedra

  16. BLAST • BLAST sadala querysekvenci noteikta garuma vārdos ar garumu k, un tadatrod visas precīzās sakritības datu bāzē • Katras sakritības gadījumā tā tiek pagarināta uz abām pusēm • Paplašinātās sakritības (salīdzinājumi) tiek savienoti pieļaujot nesakritības un pārtraukumus, bet tikai noteiktā dotplota diagonāles diapazonā Mikrobioloģijas un biotehnoloģijas katedra

  17. Mikrobioloģijas un biotehnoloģijas katedra

  18. BLAST mehānisms • Visam pamatā – dotplots • BLAST sadala meklēšanā izmantoto sekvenci noteikta garuma vārdos (piemēram, k = 4), tad atrod visas sekvences datu bāzē, kuras satur precīzi tādus vārdus • BLAST cenšas pagarināt katru no sakrītošajiem vārdiem uz abām pusēm, nepieļaujot atšķirības un pārtraukumus (mismatch, gap) • Pēc tam pagarinātie rajoni tiek apvienoti, pieļaujot atšķirības un pārtraukumus Mikrobioloģijas un biotehnoloģijas katedra

  19. NCBI BLAST http://www.ncbi.nlm.nih.gov/BLAST/Blast.cgi Mikrobioloģijas un biotehnoloģijas katedra

  20. BLASTN • BLASTN – nukleotīdu secība pret nukleotīdu datu bāzi Vairāki BLASTN algoritmi: BLASTN – tradicionālais algoritms nukleotīdu secībām. Lēns Megablast – ļoti līdzīgām nukleotīdu secībām (>95% identitātes). Ļoti ātrs Pārtrauktais megablast – līdzīgām nukleotīdu secībām Mikrobioloģijas un biotehnoloģijas katedra

  21. BLASTP • BLASTP – aminoskābju secība pret proteīnu datu bāzi Vairāki BLASTP algoritmi: BLASTP – tradicionālais algoritms aminoskābju secībām PSI-BLAST (positionspecificiterated) – BLASTP variants, kurā pirmajā meklēšanā tiek izveidots daudzkārtējs sekvenču salīdzinājums, ko tālāk atkārtoti izmanto, lai meklētu datu bāzē PHI-BLAST – (patternhitinitiated) – BLASTP variants, kas meklē proteīnu motīvus proteīnu datu bāzē Mikrobioloģijas un biotehnoloģijas katedra

  22. BLASTX • BLASTX – translēta nukleotīdu secība pret proteīnu datu bāzi • Tiek plaši pielietots genomu anotācijā, ja pastāv hipotēze, ka dotais DNS rajons kodē proteīnu, bet nav zināms nolasīšanas rāmis un kodējošā rajona robežas • Ļoti noderīga programma EST sekvenču analīze, kas satur daudz kļūdu, piemēram, nolasīšanas rāmi nobīdošas insercijas vai delēcijas Mikrobioloģijas un biotehnoloģijas katedra

  23. TBLASTN • TBLASTN – aminoskābju secība pret translētu nukleotīdu datu bāzi • Izmanto, lai nukleotīdu datu bāzē meklētu sekvences, kas potenciāli varētu kodēt aminoskābju sekvences, kas homologas kādam proteīnam • Nukleotīdu datu bāzē ir liels daudzums neanotētu secību, galvenokārt EST un GSS Mikrobioloģijas un biotehnoloģijas katedra

  24. TBLASTX • TBLASTX – translēta nukleotīdu secība pret translētu nukleotīdu datu bāzi • Ļoti laikietilpīga metode. Īpaši piemērota jaunu gēnu meklēšanai, jo salīdzina translētas nukleotīdu secības Mikrobioloģijas un biotehnoloģijas katedra

  25. BLAST rezultātu interpretācija Mikrobioloģijas un biotehnoloģijas katedra

  26. BLAST rezultātu nozīmība – Score • Punktu skaitu (score) iegūst novērtējot cik nukleotīdu vai aminoskābju salīdzinājumā sakrīt un piešķirot tiem papildus svaru balstoties uz (BLOSUM62) matricu Papildus jānovērtē arī cik punktu varētu iegūt nejaušības dēļ – izmanto visu meklēšanas rezultātu kopumu, no kuriem vairums ir pret nejaušām secībām Ja oriģinālā sekvence iegūst tikpat punktus, cik nejaušās secības, tad sekvenču līdzība ir nejauša http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html Mikrobioloģijas un biotehnoloģijas katedra

  27. BLAST rezultātu nozīmība – E-value • E vērtība (E value) ir varbūtība, ka novērotā homoloģija meklējot konkrētajā datu bāzē varētu parādīties nejaušības dēļ E > 1 novērotā homoloģija nejaušības dēļ E < 0.02 iespējams, ka sekvences ir homologas • Punktu skaits un E vērtība ir matemātiski saistīti Mikrobioloģijas un biotehnoloģijas katedra

  28. Sekvenču salīdzinājumu parametri • BLAST meklēšanas rezultāts – divu sekvenču salīdzinājums ar standarta parametriem inserciju/delēciju gadījumā nesanāk tāds kā gribētos • Var mēģināt koriģēt Gapopening un Gapextensionsoda punktus Mikrobioloģijas un biotehnoloģijas katedra

  29. Specializētie BLAST veidi • PSI – BLAST – proteīnu homoloģijas meklēšana • Konservatīvo domēnu meklēšana (CDS) • Konservatīvas domēnu arhitektūras meklēšana (CDART) • Vektoru sekvenču meklēšana (VECSCREEN) • Divu sekvenču salīdzināšana izmantojot BLAST (BL2SEQ) Mikrobioloģijas un biotehnoloģijas katedra

  30. PSI-BLAST • BLASTP meklēšana ir samērā ātra un labi darbojas, ja proteīnu homoloģija ir augsta (radniecīgu sugu, dzimtu vai pat kārtu organismu proteīni) • Ko darīt, ja nepieciešams atrast radniecīgas sekvences ļoti attālās taksonomiskās vienībās, piemēram, proteīnus, kuru aminoskābju secības atšķiras par vairāk nekā 70%? Mikrobioloģijas un biotehnoloģijas katedra

  31. Cisteīnaproteāžu salīdzinājums Papaīns, aktinidīns, himopapaīns Papaīns, aktinidīns, himopapaīns + Cysproteāze no Entamoebahistolitica, katepsīns 1 no Aedesegypti un katepsīns S no H. sapiens Tas pats, kas otrajā salīdzinājumā + Cysproteināze no Giardialambliaun katepsīns b no Aedesegypti Mikrobioloģijas un biotehnoloģijas katedra

  32. PSI – BLAST un daudzkārtēja sekvenču salīdzināšana • Position-SensitiveIterated BLAST • Vairāku aminoskābju secību salīdzinājums parāda sekvenču motīvus, kas saglabājušies evolūcijas gaitā • PSI – BLAST sāk ar BLASTP, identificējot visas sekvences, kas homologas izejas sekvencei • Izveido daudzkārtēju sekvenču salīdzinājumu un no tā iegūst profilu • Atkārto meklēšanu proteīnu datu bāzē izmantojot profilu • Atkārto meklēšanu, kamēr vairs netiek iegūti jauni rezultāti Mikrobioloģijas un biotehnoloģijas katedra

  33. PSI – BLAST un daudzkārtēja sekvenču salīdzināšana Mikrobioloģijas un biotehnoloģijas katedra

  34. PSI – BLAST pirmais solis Mikrobioloģijas un biotehnoloģijas katedra

  35. PSI – BLAST 2 - 4 solis Mikrobioloģijas un biotehnoloģijas katedra

  36. Konservatīvo domēnu meklēšana • Conserveddomainsearch - tiek veikts automātiski BLASTP meklēšanas laikā Mikrobioloģijas un biotehnoloģijas katedra

  37. CD meklēšana ir saistīta ar citām datu bāzēm Mikrobioloģijas un biotehnoloģijas katedra

  38. Konservatīvas domēnu arhitektūras meklēšana • Conserveddomainarchitechture – vairums proteīnu sastāv no domēniem Domēns – kompakta struktūrvienība, nereti veic speciālu molekulāru funkciju • Proteīnu evolūcija notiek domēnu līmenī • CDART atļauj meklēt proteīnus, kuriem ir līdzīga domēnu arhitektūra Mikrobioloģijas un biotehnoloģijas katedra

  39. Konservatīvas domēnu arhitektūras meklēšana Mikrobioloģijas un biotehnoloģijas katedra

  40. VECSCREEN • DNS sekvenēšana tradicionāli pamatojās uz genoma fragmenta klonēšanu plazmīdu vektorā un inserta sekvenēšanu izmantojot vektora praimerusaitus • Rezultātā iegūtā sekvence satur nelielu vektora gabaliņu • Pirms iesniegt savas sekvences GenBank, jāatbrīvojas no vektora sekvencēm un VECSCREEN ir BLAST veids, kas identificē varbūtējos vektora fragmentus Mikrobioloģijas un biotehnoloģijas katedra

  41. Vektora sekvences EST datu bāzē Mikrobioloģijas un biotehnoloģijas katedra

  42. BL2SEQ • BL2SEQ salīdzina divas secības (nukleotīdu vai aminoskābju) izmantojot BLAST algoritmu • Ļauj noteikt intronu – eksonu sturktūru, vai identificēt insercijas/delēcijas (piemēram, alternatīvo splaisingu) Mikrobioloģijas un biotehnoloģijas katedra

  43. BL2SEQ piemērs Miežu gēna RPG1cDNS (horizontāli) un genomiskās DNS salīdzinājums Eksoni parādās, kā homoloģijas bloki ar 100% identitāti. Atkārtojums gēna struktūrā parādās kā homoloģijas rajons ar 82% identitāti Mikrobioloģijas un biotehnoloģijas katedra

  44. Tīkla BLAST no lokāla datora Mikrobioloģijas un biotehnoloģijas katedra

  45. Tīkla BLAST • Mūsdienās vairs nav tik plaši lietots, jo arī standarta WWW BLAST interfeiss atļauj vienlaicīgi meklēt homologus vairākām nukleotīdu un aminoskābju secībām • ftp://ftp.ncbi.nih.gov/blast/executables/release/LATEST/ • netblast-2.2.25-ia32-win32.exe vai • netblast-2.2.25-x64-win64.exe Mikrobioloģijas un biotehnoloģijas katedra

  46. Lokālais BLAST un lokālās datubāzes • NCBI BLAST servera iespējas nav neierobežotas – reizumis meklēšana var ieilgt vai vispār nedot rezultātus. Veikt BLAST homoloģijas meklējumu ar vairākiem simtiem DNS/aminoskābju secību ir ļoti laikietilpīgi, ja to mēģina darīt NCBI mājas lapā • Ja grib salīdzināt vairākas sekvences vienu ar otru, kuras nav GenBank datu bāzē, var izmantot BL2SEQ, bet tas ļauj veikt tikai 2 sekvenču salīdzinājumu vienlaicīgi • Iespējams uzstādīt BLAST uz lokālā datora un veidot pašam savas datu bāzes Mikrobioloģijas un biotehnoloģijas katedra

  47. Lokālais BLAST • Instalē Windows BLAST programmu • Izveido savas lokālās datu bāzes ar formatdb komandu • Veic BLAST meklēšanu uz sava datora • ftp://ftp.ncbi.nih.gov/blast/executables/release/LATEST • blast-2.2.25-ia32-win32.exevai • blast-2.2.25-x64-win64.exe Mikrobioloģijas un biotehnoloģijas katedra

  48. FASTA – alternatīva BLAST • BLAST nav vienīgā sekvenču homoloģijas meklēšanas programma • FASTA (FAST-All) ir nukleotīdu un aminoskābju sekvenču homoloģijas meklēšanas programma, kas tika radīta vēl pirms BLAST • Pearson WR, Lipman DJ (1988) Improved tools for biological sequence comparison. PNAS, 85: 2444 – 2448 • http://www.ebi.ac.uk/Tools/sss/fasta/ Mikrobioloģijas un biotehnoloģijas katedra

  49. Vēlreiz vispārīgi par sekvenču salīdzināšanu • Sekvenču līdzība vēl nenozīmē homoloģiju, t.i., izcelsmi no kopīga senča • Homoloģija nenozīmē līdzīgu funkciju • Piemēri, mioglobīns un augu hemoglobīns – <25% identiski aminoskābju atlikumi, bet līdzīga proteīnu struktūra, funkcija un izcelsme • Cilvēka malāta un laktātadehidrogenāzes ir homoloģiskas, bet veic atšķirīgu funkciju • Baktēriju subtilizīns un dzīvnieku himotripsīns nav homologi, bet tiem ir līdzīgi proteāzes aktīvie saiti (Asp, His un Ser) – konverģentās evolūcijas piemērs Mikrobioloģijas un biotehnoloģijas katedra

  50. Mikrobioloģijas un biotehnoloģijas katedra

More Related