1 / 108

Bestfit Output

Bestfit Output. sp1_human x egr1_human October 10, 2001 10:50 .. . . . . . 526 RGSGDPGKKKQ HICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575 | | | .: : | :: | : : :. | |:| |||::|| | |

brinda
Download Presentation

Bestfit Output

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bestfit Output sp1_human x egr1_human October 10, 2001 10:50 .. . . . . . 526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575 | | | .: : | :: | : : :. | |:| |||::|| | | 327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQC..RICM 374 . . . . . 576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTH...QNK 622 : |.||| | | ||||||| ||| | ::| ||| :| | | ..| 375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424 . . . 623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657 | | | | | | |. || . |. 425 KADKSVVASSATSSLSSYPSP..VATSYPSPVTTS 457

  2. SP1 at swissprot

  3. EGR1 at swissprot

  4. Вывод • Оба белка имеют «общей» только небольшую зону похожих последовательностей. Поэтому использование bestfit больше подходит для построения локального выравнивания. • Мы нашли такое локальное выравнивание, которое соответствует возможному структурному выравниванию. • Структурная «похожесть» может свидетельствовать о domain/function similarity.

  5. Bl2Seq at NCBI

  6. Bl2seq results

  7. Bl2seq оценка • Bits score – оценка выравнивания в соответствии с количеством совпадений, «похожести» и т.д. • Expected-score (E) – Вероятность случайности выравнивания. Чем ближе к 0, тем больше вероятность, что наше выравнивание верно.

  8. Оптимизация времени вычислений при парном выравнивании Нахождение оптимального выравнивания требует значительных затрат времени Алгоритм FASTA k – длина диагоналей b – фактор отступа от диагонали

  9. Алгоритм BLAST • Basic Local Alignment Search Tool • Чувствителен также, как FastA, но намного быстрее. • Также, как FASTA, требует параметр k (длина слова). • Белки k= 3 letter words • ДНК k= 11 letter words.

  10. Алгоритм BLAST (шаг 1) 1. Поиск идентичных\похожих участков 2. Попытка «удлинить» эти участки насколько возможно (т.е. пока score растёт) В результате: High-scoring Segment Pairs (HSPs) THEFIRSTLINIHAVEADREAMESIRPATRICKREAD INVIEIAMDEADMEATTNAMHEWASNINETEEN

  11. Алгоритм BLAST (шаг 2) Попытка соединить соседние HSPs путем выравнивания последовательностей между ними: THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

  12. Blast • Blast – это семейство программ:BlastN, BlastP,BlastX, tBlastN • BlastN - ДНК vs ДНК • BlastP – белок vs белок • BlastX - translated ДНК vs белок • tBlastN - белок vs translated ДНК Query: ДНКБелок Database: ДНКБелок

  13. Поиск гомологов По ДНК или по белку? Какой поиск предпочтительней?

  14. ДНК или белок? Какая последовательность более постоянна в эволюционном плане? UCAUAC Or Serine -Tyrosine

  15. ДНК

  16. Фосфатная группа O O=P-O O 5 CH2 O N Азотистое основание (A, G, C, or T) C1 C4 Сахар (дезоксирибоза) C3 C2 ДНК

  17. ДНК • ДНК состоит из двух цепей нуклеотидов, соединённых попарно: • ADENINE – THYMINE • CYTOSINE - GUANINE • Правило комплементарности

  18. 5 O 3 3 O P P 5 5 C O G 1 3 2 4 4 2 1 3 5 O P P T A 3 5 O O 5 P P 3 Двойная спираль

  19. ДНК, дальнейшая упаковка.

  20. ДНК Функции ДНК — наследственность и изменчивость.

  21. Репликация ДНК Репликация ДНК

  22. Поиск гомологов • Генетический код избыточен – почти все аминокислоты кодируются более, чем 1 кодоном (тройка нуклеотидов) • Последовательность ДНК может меняться, в то время, как последовательность белка остается постоянной. Ser-Tyr…. UCUUAC UCGUAC U…… UCAUAC

  23. Поиск гомологов • Нуклеотиды – 4-х буквенный алфавит. • Аминокислоты – 20-и буквенный алфавит Две случайные последовательности ДНК будут идентичны ~ 25%. Две случайные белковые последовательности будут идентичны ~5%.

  24. Поиск гомологов Матрицы для сравнения белков более чувствительны, чем матрицы для ДНК. Базы данных ДНК намного больше белковых → будут случайные совпадения.

  25. Поиск гомологов Использование белковых последовательностей более предпочтительно при поиске гомологов

  26. Множественное выравнивание последовательностей (MSA)

  27. VTISCTGSSSNIGAG-NHVKWYQQLPG VTISCTGTSSNIGS--ITVNWYQQLPG LRLSCSSSGFIFSS--YAMYWVRQAPG LSLTCTVSGTSFDD--YYSTWVRQPPG PEVTCVVVDVSHEDPQVKFNWYVDG-- ATLVCLISDFYPGA--VTVAWKADS-- AALGCLVKDYFPEP--VTVSWNSG--- VSLTCLVKGFYPSD--IAVEWWSNG--

  28. Основные предположения • Гены фиксированы, сохранены у очень широкого круга биологических видов, у совершенно различных представителей «древа жизни». • Фиксированный генетический код для белков вероятно несёт похожие, зачастую идентичные функции.

  29. Например: • Гистоны: небольшие белки, присутствуют у всех эукариот. Демонстрируют выраженное постоянство последовательности в MSA Постоянство структуры и функции (упаковка DNA)

  30. Почему множественное выравнивание? Позволяет дать характеристику семействам белков, найти общие участки, гомологов. Например: семейство Serine protease: семейство, отвечающее за катализ, гидролиз пептидных связей. • Одинаковые активные центры ? • Общие участка последовательности?

  31. MSA – это первый, предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев. • База для филогенеза – данные молекулярной биологии или морфологические данные

  32. Подходы в MSA 2 разных подхода: • 1D sequence based – сравнение последовательностей. • 2D-3D based – выравнивание, базирующееся на структуре

  33. MSA algorithm • Попарное выравнивание всех последовательностей (pairwise alignment). • Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree). • Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree; сначала выравнивают наиболее похожие пары, затем добавляют остальные и т.д.

  34. Multiple Alignment - алгоритм (1) Парное выравнивание (подготовка guide tree) 6 pairwise alignments then cluster analysis (2) Множественное выравнивание, следуя древу из п. 1. successivealignments

  35. Комментарии • Парное выравнивание -оптимальныйалгоритм. • Множественное выравниваниене является оптимальнымалгоритмом. Вполне могутсуществовать и лучшие выравнивания! • Редакторы выравниваний могут быть полезны для корректировки

  36. GCG Pileup: глобальный MSA. pileup @[list of sequence names] pileup @hemoglobin_list • The @ sign means that the file contains a list of names. • The list can include names from the user’s directory or code names (accession numbers) from the GCG databases.

  37. GCG Пример входного файла .. sw:hbb_human sw:hbb_rat sw:hbb_mouse Hemoglobin_Alpha Hemoglobin_Gamma Hemogolibin_Delta Syntax: the file starts with “..” Sequences from the databases Sequences from the user’s directory

  38. GCG PileUp creates a multiple sequence alignment from a group of related sequences using progressive, pairwise alignments. It can also plot a tree showing the clustering relationships used to create the alignment. 1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa What is the gap creation penalty (* 8 *) ? What is the gap extension penalty (* 2 *) ? This program can display the clustering relationships graphically. Do you want to: A) Plot to a FIGURE file called "pileup.figure" B) Plot graphics on HP7550 attached to /dev/tty15 C) Suppress the plot Please choose one (* A *): c What should I call the output file name (* ipns.msf *) ? Determining pairwise similarity scores... 1 x 2 4.43 1 x 3 3.12 1 x 4 4.12 2 x 3 2.94 2 x 4 4.05 3 x 4 3.09 Aligning... Total sequences: 4 Alignment length: 338 CPU time: 00.21 Output file:/data/users/racheli/others/racheli/ipns.msf Regular GCG syntax: Default parameters, output file, etc

  39. GCG !!AA_MULTIPLE_ALIGNMENT 1.0 PileUp of: @ipns.fil Symbol comparison table: GenRunData:blosum62.cmp CompCheck: 1102 GapWeight: 8 GapLengthWeight: 2 ipns.msf MSF: 338 Type: P March 14, 2002 09:29 Check: 7631 .. Name: IPNS_STRJU Len: 338 Check: 6344 Weight: 1.00 Name: IPNS_STRCL Len: 338 Check: 4249 Weight: 1.00 Name: IPNS_NOCLA Len: 338 Check: 7020 Weight: 1.00 Name: IPNS_CEPAC Len: 338 Check: 18 Weight: 1.00 // 1 50 IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHG IPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHG IPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHG IPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG 51 100 IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDN.PHVRN GYYKAIKGKK IPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDN.PHVRN GYYKAVPGRK IPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNN.SHVRN GYYMAIEGKK IPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK Output file:msf format

  40. GCG Prettybox: генерирует графический файл из файла MSA prettybox [MSA file]{*} prettybox hemoglobins.msf{*} • The “{*}” is a syntax sign meaning all the sequences in the MSA file. • Can also calculate the consensus sequence.

  41. GCG

  42. ClustalW • Очень известная и широко распространённая программа: UNIX, Internet, Windows. • Выполняет MSA; может строить филогенетические деревья. • Входной файл – формат multi-fasta.

  43. ClustalW Making the file in unix • tofasta@list >IPNS_STRJU P18286 MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA AGTVKNPTTSYGEYLQHGLRALIVKNGQT >IPNS_STRCL P10621 MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA SEEVRNEALSYGDYLQHGLRALIVKNGQT input file: Multi-fasta

  44. ClustalW CLUSTAL W (1.7) multiple sequence alignment IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVV IPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVV IPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFT IPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKT IPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET *.** **:* * *.: . * :* *: *.* :***** :**:*: *. . IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIK IPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIR IPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIK IPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQ IPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK .:* :: :** :***.*** : : * *** .: *** **:*****.*. **. *: Выходной файл: aln format форматы http://www.ebi.ac.uk/help/formats.html

  45. ClustalW на EMBL

  46. ClustalW на EMBL - результат

  47. ClustalW at EMBL - Jalview Conservation

  48. Ещё пара терминов…… Consensus Sequence Мы можем вывести consensus sequenceиз результатов MSA. The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания.

  49. Профиль (Profile) Также возможно вывести статистическую модель, описывающую MSA. Профиль содержит информацию о символах в каждом столбце выравнивания.

  50. Profile vs. Consensus Consensus: каждая позиция отражает наиболее часто встречающийся символ. Profile: каждая позиция отражает частоту символа в данной позиции.

More Related