1.08k likes | 1.22k Views
Bestfit Output. sp1_human x egr1_human October 10, 2001 10:50 .. . . . . . 526 RGSGDPGKKKQ HICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575 | | | .: : | :: | : : :. | |:| |||::|| | |
E N D
Bestfit Output sp1_human x egr1_human October 10, 2001 10:50 .. . . . . . 526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575 | | | .: : | :: | : : :. | |:| |||::|| | | 327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQC..RICM 374 . . . . . 576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTH...QNK 622 : |.||| | | ||||||| ||| | ::| ||| :| | | ..| 375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424 . . . 623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657 | | | | | | |. || . |. 425 KADKSVVASSATSSLSSYPSP..VATSYPSPVTTS 457
Вывод • Оба белка имеют «общей» только небольшую зону похожих последовательностей. Поэтому использование bestfit больше подходит для построения локального выравнивания. • Мы нашли такое локальное выравнивание, которое соответствует возможному структурному выравниванию. • Структурная «похожесть» может свидетельствовать о domain/function similarity.
Bl2seq оценка • Bits score – оценка выравнивания в соответствии с количеством совпадений, «похожести» и т.д. • Expected-score (E) – Вероятность случайности выравнивания. Чем ближе к 0, тем больше вероятность, что наше выравнивание верно.
Оптимизация времени вычислений при парном выравнивании Нахождение оптимального выравнивания требует значительных затрат времени Алгоритм FASTA k – длина диагоналей b – фактор отступа от диагонали
Алгоритм BLAST • Basic Local Alignment Search Tool • Чувствителен также, как FastA, но намного быстрее. • Также, как FASTA, требует параметр k (длина слова). • Белки k= 3 letter words • ДНК k= 11 letter words.
Алгоритм BLAST (шаг 1) 1. Поиск идентичных\похожих участков 2. Попытка «удлинить» эти участки насколько возможно (т.е. пока score растёт) В результате: High-scoring Segment Pairs (HSPs) THEFIRSTLINIHAVEADREAMESIRPATRICKREAD INVIEIAMDEADMEATTNAMHEWASNINETEEN
Алгоритм BLAST (шаг 2) Попытка соединить соседние HSPs путем выравнивания последовательностей между ними: THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Blast • Blast – это семейство программ:BlastN, BlastP,BlastX, tBlastN • BlastN - ДНК vs ДНК • BlastP – белок vs белок • BlastX - translated ДНК vs белок • tBlastN - белок vs translated ДНК Query: ДНКБелок Database: ДНКБелок
Поиск гомологов По ДНК или по белку? Какой поиск предпочтительней?
ДНК или белок? Какая последовательность более постоянна в эволюционном плане? UCAUAC Or Serine -Tyrosine
Фосфатная группа O O=P-O O 5 CH2 O N Азотистое основание (A, G, C, or T) C1 C4 Сахар (дезоксирибоза) C3 C2 ДНК
ДНК • ДНК состоит из двух цепей нуклеотидов, соединённых попарно: • ADENINE – THYMINE • CYTOSINE - GUANINE • Правило комплементарности
5 O 3 3 O P P 5 5 C O G 1 3 2 4 4 2 1 3 5 O P P T A 3 5 O O 5 P P 3 Двойная спираль
ДНК Функции ДНК — наследственность и изменчивость.
Репликация ДНК Репликация ДНК
Поиск гомологов • Генетический код избыточен – почти все аминокислоты кодируются более, чем 1 кодоном (тройка нуклеотидов) • Последовательность ДНК может меняться, в то время, как последовательность белка остается постоянной. Ser-Tyr…. UCUUAC UCGUAC U…… UCAUAC
Поиск гомологов • Нуклеотиды – 4-х буквенный алфавит. • Аминокислоты – 20-и буквенный алфавит Две случайные последовательности ДНК будут идентичны ~ 25%. Две случайные белковые последовательности будут идентичны ~5%.
Поиск гомологов Матрицы для сравнения белков более чувствительны, чем матрицы для ДНК. Базы данных ДНК намного больше белковых → будут случайные совпадения.
Поиск гомологов Использование белковых последовательностей более предпочтительно при поиске гомологов
Множественное выравнивание последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPG VTISCTGTSSNIGS--ITVNWYQQLPG LRLSCSSSGFIFSS--YAMYWVRQAPG LSLTCTVSGTSFDD--YYSTWVRQPPG PEVTCVVVDVSHEDPQVKFNWYVDG-- ATLVCLISDFYPGA--VTVAWKADS-- AALGCLVKDYFPEP--VTVSWNSG--- VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения • Гены фиксированы, сохранены у очень широкого круга биологических видов, у совершенно различных представителей «древа жизни». • Фиксированный генетический код для белков вероятно несёт похожие, зачастую идентичные функции.
Например: • Гистоны: небольшие белки, присутствуют у всех эукариот. Демонстрируют выраженное постоянство последовательности в MSA Постоянство структуры и функции (упаковка DNA)
Почему множественное выравнивание? Позволяет дать характеристику семействам белков, найти общие участки, гомологов. Например: семейство Serine protease: семейство, отвечающее за катализ, гидролиз пептидных связей. • Одинаковые активные центры ? • Общие участка последовательности?
MSA – это первый, предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев. • База для филогенеза – данные молекулярной биологии или морфологические данные
Подходы в MSA 2 разных подхода: • 1D sequence based – сравнение последовательностей. • 2D-3D based – выравнивание, базирующееся на структуре
MSA algorithm • Попарное выравнивание всех последовательностей (pairwise alignment). • Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree). • Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree; сначала выравнивают наиболее похожие пары, затем добавляют остальные и т.д.
Multiple Alignment - алгоритм (1) Парное выравнивание (подготовка guide tree) 6 pairwise alignments then cluster analysis (2) Множественное выравнивание, следуя древу из п. 1. successivealignments
Комментарии • Парное выравнивание -оптимальныйалгоритм. • Множественное выравниваниене является оптимальнымалгоритмом. Вполне могутсуществовать и лучшие выравнивания! • Редакторы выравниваний могут быть полезны для корректировки
GCG Pileup: глобальный MSA. pileup @[list of sequence names] pileup @hemoglobin_list • The @ sign means that the file contains a list of names. • The list can include names from the user’s directory or code names (accession numbers) from the GCG databases.
GCG Пример входного файла .. sw:hbb_human sw:hbb_rat sw:hbb_mouse Hemoglobin_Alpha Hemoglobin_Gamma Hemogolibin_Delta Syntax: the file starts with “..” Sequences from the databases Sequences from the user’s directory
GCG PileUp creates a multiple sequence alignment from a group of related sequences using progressive, pairwise alignments. It can also plot a tree showing the clustering relationships used to create the alignment. 1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa What is the gap creation penalty (* 8 *) ? What is the gap extension penalty (* 2 *) ? This program can display the clustering relationships graphically. Do you want to: A) Plot to a FIGURE file called "pileup.figure" B) Plot graphics on HP7550 attached to /dev/tty15 C) Suppress the plot Please choose one (* A *): c What should I call the output file name (* ipns.msf *) ? Determining pairwise similarity scores... 1 x 2 4.43 1 x 3 3.12 1 x 4 4.12 2 x 3 2.94 2 x 4 4.05 3 x 4 3.09 Aligning... Total sequences: 4 Alignment length: 338 CPU time: 00.21 Output file:/data/users/racheli/others/racheli/ipns.msf Regular GCG syntax: Default parameters, output file, etc
GCG !!AA_MULTIPLE_ALIGNMENT 1.0 PileUp of: @ipns.fil Symbol comparison table: GenRunData:blosum62.cmp CompCheck: 1102 GapWeight: 8 GapLengthWeight: 2 ipns.msf MSF: 338 Type: P March 14, 2002 09:29 Check: 7631 .. Name: IPNS_STRJU Len: 338 Check: 6344 Weight: 1.00 Name: IPNS_STRCL Len: 338 Check: 4249 Weight: 1.00 Name: IPNS_NOCLA Len: 338 Check: 7020 Weight: 1.00 Name: IPNS_CEPAC Len: 338 Check: 18 Weight: 1.00 // 1 50 IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHG IPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHG IPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHG IPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG 51 100 IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDN.PHVRN GYYKAIKGKK IPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDN.PHVRN GYYKAVPGRK IPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNN.SHVRN GYYMAIEGKK IPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK Output file:msf format
GCG Prettybox: генерирует графический файл из файла MSA prettybox [MSA file]{*} prettybox hemoglobins.msf{*} • The “{*}” is a syntax sign meaning all the sequences in the MSA file. • Can also calculate the consensus sequence.
ClustalW • Очень известная и широко распространённая программа: UNIX, Internet, Windows. • Выполняет MSA; может строить филогенетические деревья. • Входной файл – формат multi-fasta.
ClustalW Making the file in unix • tofasta@list >IPNS_STRJU P18286 MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA AGTVKNPTTSYGEYLQHGLRALIVKNGQT >IPNS_STRCL P10621 MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA SEEVRNEALSYGDYLQHGLRALIVKNGQT input file: Multi-fasta
ClustalW CLUSTAL W (1.7) multiple sequence alignment IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVV IPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVV IPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFT IPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKT IPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET *.** **:* * *.: . * :* *: *.* :***** :**:*: *. . IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIK IPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIR IPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIK IPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQ IPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK .:* :: :** :***.*** : : * *** .: *** **:*****.*. **. *: Выходной файл: aln format форматы http://www.ebi.ac.uk/help/formats.html
ClustalW at EMBL - Jalview Conservation
Ещё пара терминов…… Consensus Sequence Мы можем вывести consensus sequenceиз результатов MSA. The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания.
Профиль (Profile) Также возможно вывести статистическую модель, описывающую MSA. Профиль содержит информацию о символах в каждом столбце выравнивания.
Profile vs. Consensus Consensus: каждая позиция отражает наиболее часто встречающийся символ. Profile: каждая позиция отражает частоту символа в данной позиции.