340 likes | 901 Views
МОТИВЫ ДНК. ЧТО ЭТО ТАКОЕ?. Шкурат Татьяна Павловна.
E N D
МОТИВЫ ДНК. ЧТО ЭТО ТАКОЕ? Шкурат Татьяна Павловна
Работа выполняется в рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» теме«Создание биоинформационной технологии поиска взаимосвязанных сценариев организации в геномах животных и человека некодирующей ДНК и кодирующей белок ДНК» государственный контракт от 01 сентября 2010 г. № 14.740.11.0006
Гены — это участки ДНК, несущие какую-либо целостную информацию — о строении одной молекулыбелка или одной молекулы РНК.
Свойства генов (или кодирующих участков ДНК) • дискретность — несмешиваемость генов; • стабильность — способность сохранять структуру; • лабильность — способность многократно мутировать; • множественный аллелизм — многие гены существуют в популяции во множестве молекулярных форм; • аллельность — в генотипе диплоидных организмов только две формы гена; • специфичность — каждый ген кодирует свой признак; • плейотропия — множественный эффект гена; • экспрессивность — степень выраженности гена в признаке; • пенетрантность — частота проявления гена в фенотипе; • амплификация — увеличение количества копий гена.
Усредненные данные о структуре белок–кодирующих генов генома человека • В реальности размеры разных генов, а также их экзонов и интро–нов сильно отличаются. И основной вклад в эту вариабельность вносят интроны. • Максимальный по размерам ген дистрофиназанимает в геноме человека 2,4 млн. п. н. • Подавляющая часть занята именно интронами (их редний размер составляет несколько десятков тысяч п. н.). • Наибольшую кодирующую последовательность в геноме человека имеет ген по имени титин. Его размер равен около 81 000 п. н. Этот ген – чемпион и по числу интронов (178 штук!), и по длине единичного экзона (17106 п. н.). • Важно отметить, что разбивка генов на отдельные экзоны неслучайна. • Индивидуальный экзон часто кодирует не просто какую- то часть белковой молекулы, а определенный фрагмент белка, выполняющий в целом белке отдельную функцию. Такой отдельный структурно–функциональный фрагмент, входящий в состав целого белка, называют доменом.
Genes and Gene Structures • Presently estimated Gene Number: 24.000 (reference: ) • Average Gene Size: 27 kb • The largest gene: Dystrophin 2.4 Mb- 0.6% coding – 16 hours to transcribe. • The shortest gene: tRNATYR100% coding • Largest exon: ApoBexon 26 is 7.6 kb Smallest: <10bp • Average exon number: 9 • Largest exon number: Titin 363 Smallest: 1 • Largest intron: WWOX intron 8 is 800 kb Smallest: 10s of bp • Largest polypeptide: Titin 38.138 smallest: tens – small hormones. • Intronless Genes: mitochondrial genes, many RNA genes, Interferons, Histones,.. Jobling, Hurles & Tyler-Smith (2004) HEG p 29 + HMG chapt. 9
Гены не равномерно распределены между разными хромосомами У человека около 10 генов на 1,0 млн. п.н. у червя C. elegans 200 на 1,0 млн. п. н. у дрожжей около 450 генов на 1,0 млн. п. н. в геноме бактерий содержится свыше 1000 генов на 1,0 млн. п. н. Следовательно, плотность расположения генов на единицу длины генома заметно падает по мере эволюционного усложнения организмов.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Х У средняя плотность один ген на 100 т. п. н. генома их содержание в хромосоме 19 составляет около 2 на 100 т.п.н., а в хромосомах 2, 13 и Y – хромосоме – от 0,15 до 0,7. Если сравнить плотность генов с плотностью расселения людей, то Y – хромосома напоминает нашу Сибирь, а хромосома 19 – Европейскую часть России. 1 хромосома - 8% of the human genome, 3,141 gene structures and 991 pseudogenes6 хромосома - 6 % от общего генома и 1,557 genes and 633 pseudogenes20 хромосома 633 gene structures and 296 pseudogenesХ хромосома -1098 genes in the sequence, of which 99 encode proteins expressed in testis and in various tumour typeswww.sanger.ac.uk
Расшифрован ли геном? Перехватить зашифрованное сообщение — еще не значит его понять Расшифрован ли геном? Перехватить зашифрованное сообщение — еще не значит его понять
Ген интерферона выделен курсивом. Подчеркнут участок, кодирующий белок, состоящий из 188 аминокислот. • Жирным шрифтом выделены знаки пунктуации в этом гене, обеспечивающие его правильную транскрипцию с образованием мРНК и последующую правильную трансляцию этой мРНК • Фермент, называемый РНК–полимеразой, узнает эти сигналы и осуществляет синтез «правильных» молекул мРНК (со строго запрограммированными в геноме концами). • Одним из таких знаков препинания в ДНКовом тексте, отмечающим начало процесса транскрипции, служит короткая последовательность нуклеотидов: ТАТА • Место, с которого начинается кодирование белка, – старт–сигнал – триплет АУТ. Далее следуют триплеты, которые кодируют аминокислоты в белке. А в конце текста имеется специальный стоп–сигнал (триплет УГА).
Начала генов Bacillus subtilis ATG - это начало гена, первый кодон, сам ген будет дальше, а перед этим есть последовательность, которая опознается рибосомой
. Участок связывания рибосом Последовательность Шайна-Дальгарно AGGAGGУчасток связывания рибосоммРНКпрокариот, обычно на расстоянии около 10 нуклеотидов до стартового кодона AUG Комплементарная последовательность CCUCCU, называемая последовательностью анти-Шайна-Дальгарно, располагается на 3'-конце молекулы 16S рибосомной РНК
Два сайта связывания для РНК-полимеразы • ТАТААТ • АТАТТА (ТАТА бокс Блок Прибнова) (нуклеотидная последовательность у прокариот, расположенная за 10 нуклеотидов от точки инициации транскрипции и обычно состоящая из 6 (иногда до 9) оснований, каноническая последовательность Б. П. - ТАТААТ; • а другой — • TTGAC • AACTG Расположена за 35 (область —35) нуклеотидов до сайта инициации транскрипции (нуклеотид +1)
Бокс Хогнесса ТАТА(АТ)А(АТ) Специфическая последовательность нуклеотидов, присутствующая в промоторных областях генов эукариот (часто в положении -25); обобщенная структура Б.Х. - ТАТА(АТ)А(АТ); выполняет регуляторную функцию - участвует в инициации транскрипции, обеспечивая ориентацию РНК-полимеразы относительно промотора, функционально эквивалентен боксу Прибнова у прокариот.
Консервативная последовательность перед генами рибофлавинового пути из очень разных бактерий Консервативные последовательности перед генами рибофлавинового пути из очень разных бактерий • Последовательности транспортеры легко идентифицировать. • Во-первых, они образуют большие семейства схожих белков, и иногда их можно просто опознать по сходству с уже известными транспортерами. • Во-вторых, даже если это что-то новое, белок, который проходит несколько раз через мембрану, точнее, его трансмембранные участки, имеют довольно характерный аминокислотный состав, и поэтому их легко опознавать. красное — это абсолютно консервативные позиции, и их много. А бактерии самые разные
Консервативная вторичная структура RFN-элемента
ФУНКЦИОНАЛЬНАЯ КЛАССИФИКАЦИЯ НЕКОДИРУЮЩИХ БЕЛОК РНК РНК домашнего хозяйства tРНК Трансляция генетической информации rРНК Компонент рибосом; snРНК Пре-мРНК сплайсинг; компонент слайсеосомы snoРНК Модификация РНК, включая 2'-O- метилирование и псевдоуридилинирование РНКаза Р РНК Созревание 5' концов пре-tРНК Теломеразная РНК Синтез теломерной ДНК; компонент теломеразы 7 SL РНК Экспорт белков у эукариот tm РНК Транс-трансляция Y РНК Компонент Ro рибонуклеопротеина; функция неизвестна РНКаза МРП Процессинг митохондриальной РНК
НЕКОДИРУЮЩАЯ БЕЛОК ДНК, ДНК кодирующая функциональные РНК • Noncoding functional RNA • ribosomal RNA, transfer RNA, Piwi-interacting RNA and microRNA. • MicroRNAs are predicted to control the translational activity of approximately 30% of all protein-coding genes in mammals and may be vital components in the progression or treatment of various diseases including cancer, cardiovascular disease, and the immune system response to infection.[6] • Cis-regulatory elements • Cis-regulatory elements are sequences that control the transcription of a gene. Cis-elements may be located in 5' or 3'untranslated regions or within introns • Promoters facilitate the transcription of a particular gene and are typically upstream of the coding region. • Enhancer sequences may exert very distant effects on the transcription levels of genes.[7]
Introns Interns are non-coding sections of a gene, transcribed into the precursor mRNA sequence, but ultimately removed by RNA splicing during the processing to mature messenger RNA. Many introns appear to be mobile genetic elements. Studies of group I introns from Tetrahymena indicate that some introns appear to be selfish genetic elements, neutral to the host because they remove themselves from flanking exons during RNA processing and do not produce an expression bias between alleles with and without the intron. Some introns do appear to have significant biological function, possibly through ribozyme functionality that may regulate tRNA and rRNA activity as well as protein-coding gene expression, evident in hosts that have become dependent on such introns over long periods of time; for example, the trnL-intron is found in all green plants and appears to have been vertically inherited for several billions of years, including more than a billion years within chloroplasts and an additional 2–3 billion years prior in the cyanobacterial ancestors of chloroplasts
Перевод: английский > русский Стажеры некодирующих участках гена, транскрибируется в РНК последовательности предшественника, но в конечном счете удалены сплайсинг РНК во время обработки для зрелой РНК.Многие интроны по всей видимости, мобильных генетических элементов.Исследования группы я интроны из Tetrahymena показывают, что некоторые интроны по всей видимости, эгоистичных генетических элементов, нейтральные к принимающей потому что они снимают себя от флангового экзонов при обработке РНК и не производят выражение смещения между аллелями с и без интронов.Некоторые интроны делать по всей видимости, имеют значительные биологические функции, возможно, через рибозим функциональность, которая может регулировать тРНК и рРНК деятельности, а также белок-кодирующих генов, очевидно в хосты, которые попали в зависимость от таких интронов в течение длительного периода времени, например, trnL-интрон содержится во всех зеленых растений и, кажется, были унаследованы вертикально в течение нескольких миллиардов лет, в том числе более миллиарда лет в хлоропластах и дополнительные 2-3 миллиарда лет до в цианобактерий предков хлоропластов
Pseudogenes Pseudogenes are DNA sequences, related to known genes, that have lost their protein-coding ability or are otherwise no longer expressed in the cell. Pseudogenes arise from retrotransposition or genomic duplication of functional genes, and become "genomic fossils" that are nonfuctional due to mutations that prevent the transcription of the gene, such as within the gene promoter region, or fatally alter the translation of the gene, such as premature stop codons or frameshifts. Pseudogenes resulting from the retrotransposition of an RNA intermediate are known as processed pseudogenes; pseudogenes that arise from the genomic remains of duplicated genes or residues of inactivated are nonprocessed pseudogenes. While Dollo's Law suggests that the loss of function in pseudogenes is likely permanent, silenced genes may actually retain function for several million years and can be "reactivated" into protein-coding sequencesand a substantial number of pseudogenes are actively transcribed.Because pseudogenes are presumed to evolve without evolutionary constraint, they can serve as a useful model of the type and frequencies various spontaneous genetic mutatio
Транспозоны и ретротранспозонов мобильные генетические элементы. Ретротранспозона повторяющихся последовательностей, которые включают в себя длинный перемежаются ядерных элементов (линии) и краткое перемежаются ядерных элементов (SINEs), составляют значительную часть геномных последовательностей у многих видов. Alu последовательностей, классифицируются как краткое перемежаются ядерного элемента, являются самыми распространенными в мобильных элементов генома человека. Некоторые примеры были найдены синусов оказывают транскрипционным контролем некоторых белков-генов. [12] [13] [14]Эндогенного ретровируса последовательности произведение обратной транскрипции ретровирусов геномов в геномах половых клеток. Мутации в этих ретро-расшифрованы последовательности могут инактивировать вирусного генома.Более 8% генома человека состоит из (в основном распались) эндогенный ретровирус последовательности, как часть более 42% долей, что является производным узнаваемо ретротранспозонов, а еще 3% могут быть идентифицированы быть остатки ДНК транспозонов. Большая часть оставшейся половины генома, которая в настоящее время не объяснил происхождение, как ожидается, нашли свое начало в мобильных элементов, которые были активны так давно (> 200 млн. лет), что случайные мутации сделали их неузнаваемыми. [15] размер генома изменения, по крайней мере два вида растений в основном результатом ретротранспозона последовательностей [16].
Repeat sequences, transposons and viral elements • Transposons and retrotransposons are mobile genetic elements. Retrotransposon repeated sequences, which include long interspersed nuclear elements (LINEs) and short interspersed nuclear elements (SINEs), account for a large proportion of the genomic sequences in many species. Alu sequences, classified as a short interspersed nuclear element, are the most abundant mobile elements in the human genome. Some examples have been found of SINEs exerting transcriptional control of some protein-encoding genes.[12][13][14] • Endogenous retrovirus sequences are the product of reverse transcription of retrovirus genomes into the genomes of germ cells. Mutation within these retro-transcribed sequences can inactivate the viral genome. • Over 8% of the human genome is made up of (mostly decayed) endogenous retrovirus sequences, as part of the over 42% fraction that is recognizably derived of retrotransposons, while another 3% can be identified to be the remains of DNA transposons. Much of the remaining half of the genome that is currently without an explained origin is expected to have found its origin in transposable elements that were active so long ago (> 200 million years) that random mutations have rendered them unrecognizable.[15] Genome size variation in at least two kinds of plants is mostly the result of retrotransposon sequences.[16]
Telomeres • Telomeres are regions of repetitive DNA at the end of a chromosome, which provide protection from chromosomal deterioration during DNA replication.
Гены построены из «кусков»имеют прерывистую структуру
Темп замен в некодирующих участках ДНК http://humbio.ru/humbio
Chimpanzee-human divergence 6-8 million years Hominids or hominins Humans Chimpanzees
Поиски последовательностей (мотивов) гомологичных участкам интронов и экзонов в некодирующей белок ДНК расположенной с левого (-) и правого края (+-) от кодирующей белок ДНК
Регуляторные элементы сплайсинга в пре-мРНК и полиморфизмы, нарушающие процесс Y –пиримидины (С/Т); ESE – экзонные энхансеры сплайсинга; ESS – экзонные сайленсеры сплайсинга; ISE - интронные энхансеры сплайсинга; ISS - интронные сайленсеры сплайсинга; GV – геномный вариант; U1 и U2 – малые ядерные рибонуклеопротеиновые частицы; SR – серин/аргинин богатые белки; hpRNP – гетерогенные ядерные рибонуклеопротеиновые частицы.
СПЛАЙСИНГ Образование молекул мРНК на РНК–предшественнике в результате сплайсинга. Из РНК–предшественника вырезаются фрагменты, синтезированные с интронных последовательностей гена, а участки, синтезированные на экзонах, соединяются друг с другом, что в конечном итоге приводит к формированию зрелой функционально активной мРНК
Схематическое изображение альтернативного сплайсинга. Прямоугольниками разного оттенка обозначены экзоны, черными линиями – интроны. Показаны лишь две из множества возможных мРНК, образующихся на одном гене НА ПОЛЕ ОН КОСИЛ ТРАВУ ПОЛЯ КИПЕЛИ СОЛОВЬЯМИ НАПОЛЕОН КОСИЛ ТРАВУ ПОЛЯКИ ПЕЛИ СОЛОВЬЯМИ.