850 likes | 1.05k Views
Poznanie genomu człowieka (wg. artykułów z Science i Nature). Jerzy Tiuryn Instytut Informatyki Uniwersytet Warszawski. Dwa artykuły. „Initial sequencing and analysis of the human genome”, International Human Genome Sequencing Consortium, Nature , 15.02, 2001 (860-921).
E N D
Poznanie genomu człowieka(wg. artykułów z Science i Nature) Jerzy Tiuryn Instytut Informatyki Uniwersytet Warszawski
Dwa artykuły • „Initial sequencing and analysis of the human genome”, International Human Genome Sequencing Consortium, Nature, 15.02, 2001 (860-921). • „The sequence of the human genome”, J.C. Venter, et.al., Science, 16.02. 2001 (1304-1351).
Plan wykładu • Historia poznania genomu człowieka. • Metoda konsorcjum (hierarchiczne sekwencjonowanie metodą ‘shotgun’). • Metoda Ventera ‘whole-genome shotgunapproach’. • Co wiadomo o liczbie genów w genomie człowieka? • Porównanie obu metod.
Historia poznania genomu człowieka • 1953, James Watson, Francis Crick, : struktura DNA.
1977, F. Sanger (metoda dideoxy), 500-750bp. • 1977, F. Sanger: zsekewncjonowanie pierwszego ludzkiego genu. • 1977-82, genomy bakteryjnych wirusów (φX174, Lambda), genom wirusa zwierzęcego SV40, ludzkie mitochondrium. • 1985, K. Mullis: technika PCR. • 1987, D. Burke, M. Olson, G. Carle: YAC. • 1989, Olson, Hood, Botstein, Cantor: strategia mapowania przy użyciu STS.
1995, J.C. Venter (Heamophilus influenzae) 1.8 Mb, metoda ‘whole-genome shotgun sequencing’. • 1996, Międzynarodowe konsorcjum (Saccharomyces cerevisiae) 13.5 Mb. • 1997, Blattner, Plunkett (Escherichia coli) 5 Mb. • 1998, Venter: założenie firmy Celera Genomics (deklaracja: sekwencja genomu człowieka w 3 lata, za 300 M$).
1998, Sulston, Waterson (Caenorhabditis elegans) 100 Mb. • 1999, GB, Japonia, USA: chromosom nr.22, 35 Mb. • 2000, Venter (Drosophila melanogaster) 120 Mb, testowanie metody WGSS dla niezbyt dużego genomu. • 2000, Niemcy, Japonia: chromosom nr. 21, 34 Mb. • 2000, Międzynarodowe Konsorcjum (Arabidopsisthaliana), 100 Mb. • 2001,HGP i Celera publikują draft genomu człowieka, 3.3Gb.
Główne trudności w sekwencjonowaniu genomu człowieka • Rozmiar genomu (~3Gb). • Duża część genomu zawiera repetytywne fragmenty. Przykładowo część genomu zawierająca repetytywne fragmenty dla różnych organizmów: • Bakterie: ~1.5% • Muszka owocowa: ~3% • Człowiek: >50%
Metoda Konsorcjummap-based, BAC-based, clone-by-clone • Pozyskiwanie materiału genetycznego. • Budowa mapy fizycznej genomu w oparciu o klony. • Trawienie poszczególnych klonów enzymami restrykcyjnymi – ‘odcisk palca’. • Budowa kontigów i przypisanie ich do miejsc na chromosomach (STS). • Wybór klonów z kontigów do sekwencjonowania. • Sekwencjonowanie metodą ‘shotgun’ wybranych klonów. • Składanie genomu.
Pozyskiwanie materiału genetycznego • Ochotnicy (różne środowiska etniczne), ‘kto pierwszy ten lepszy’. • Samplig laboratory: usunięcie identyfikatorów, nadanie losowych oznaczeń, przesłanie do processing lab. • Processing laboratory: usuwa wszystkie oznaczenia i zmienia je na inne, niszczy dokumentację oznaczeń, wybiera losowo 5-10 próbek do dalszej analizy.
Linia produkcyjna do przygotowywania próbek Whitehead Institute, Center for Genome Research
Klony • Plazmidy (~ 4Kb). • Kosmidy (~ 40Kb). • YeastArtificialChromosome,YAC(do 500Kb). • BacterialArtificialChromosome,BAC(100-300Kb).
Mapa fizyczna • Biblioteki klonów zbudowane z materiału genetycznego. (1.400.000 klonów BAC lub PAC, 65-krotne pokrycie genomu). Każdy klon rozmiaru 100-200Kb. • Wybrano ~ 350.000 klonów do budowy mapy fizycznej. (20 krotne pokrycie genomu). • Każdy klon poddano trawieniu enzymem restrykcyjnym i zmierzono rozmiary fragmentów przy pomocy elektroforezy na żelu z agarozy. Tak powstaje linia papilarna (fingerprint) klonu. • Linie papilarne są użyte do identyfikacji klonów i do szacowania wielkości nałożenia jednego klonu na drugi.
Mapa fizyczna, c.d. • Linie papilarne klonów zostały użyte do budowy tzw.kontigów(nakładające się na siebie spójne fragmenty utworzone z klonów). • Kontigi zostały przyporządkowane miejscom na chromosomach przy pomocy znaczników STS(STS =SequenceTaggedSite~ 500bp,jednoznaczna sekwencja na chromosomie, dla której są znane primery PCR).
Faza sekwencjonowania • Wybór klonów z kontigów, tak aby uzyskać pokrycie genomu (aby przyspieszyć proces, zrezygnowano z poszukiwania minimalnego pokrycia). Wybrano ~ 30.000 klonów.
Faza sekwencjonowania: każdy klon metodą ‘shotgun’ • Klon powiela się w wielu kopiach. • Wszystkie kopie tnie się na małe kawałki (enzymy restrykcyjne) ‘losowo’. Porządek i orientacja kawałków są tracone. • Wybiera się losowo dostatecznie dużo kawałków (5-10 krotne pokrycie, zgodnie z formułą Landera/Watermana) i dla każdego kawałka sekwencjonuje się prefiks o długości ~ 500bp. Powstają tzw.czyste odczyty.
Uwagi na temat metody ‘shotgun’ • W praktyce wybór fragmentów nie jest jednorodny (powody molekularno-biologiczne, a nie probabilistyczne). To powoduje powstawaniedziurw odczytywanej sekwencji. • Są dwa stopnie jakości metody ‘shotgun’: • ‘half-shotgun’ 4-5 krotne pokrycie, w wyniku mamy draft genomu. • ‘full-shotgun’ 8-10 krotne pokrycie, w wyniku mamy podstawę do dokładnego opisu genomu.
Uzyskano 23Gb danych w czystych odczytach. • Niektóre centra osiągnęły wydajność 100.000 reakcji sekwencjonowania na 12 godzin. • Wydajność wszystkich centrów osiągnięta w czerwcu 2000: 1 pokrycie genomu na 6 tygodni (1Kb/sek. przez 24h/dobę, cały czas). • Każdy nukleotyd był odczytany średnio 4.5 raza.
7.10.00 w postaci finalnej było 835Mb sekwencji genomu (wliczając chromosomy 21 i 22). Na koniec roku 2000 było ~ 1Gb sekwencji w finalnej postaci (finalna postać = prawdopodobieństwo błędu odczytu nukleotydu < 1/10.000, żadnych dziur)
Składanie sekwencji (1) • Analiza nałożeń(overlap detection): dane dwa słowa W,V, znajdź sufiks w W oraz prefiks w V o maksymalnym podobieństwie (w sensie uliniowienia; mogą być wstawiane spacje). Jest to problem natury algorytmicznej. Dane o nałożeniach przechowujemy.
Składanie sekwencji (2) • Ułożenie podsłów(substring layout). Zachłanny algorytm: znajdź parę słów o maksymalnym podobieństwie sufiks/prefiks. Później następną parę. Albo powstają dwa kontigi, albo jeden o trzech słowach. Podobne do wielokrotnego uliniowienia. Dodawanie nowych par powoduje wstawianie spacji (rozsuwanie). W ten sposób powstają kontigi nakrywające większość odtwarzanej sekwencji.
Składanie sekwencji (3) • Decydowanie konsensusu: uzgodnienie jaka litera ma stać na danej pozycji w kontigu. Stosowane są różne podejścia, często metoda większościowa (tu są subtelne problemy). • W projekcie średnie pokrycie klonu kontigami wynosiło 96%, a średnie przerwy pomiędzy kontigami miały ~ 500bp.
Dwa rodzaje kontigów • Kontigi pochodzące z jednego klonu. • Mega-kontigi pochodzące z analizy linii papilarnych poszczególnych klonów.
Logistyka składania genomu • Składanie pojedynczych klonów. • Związanie zsekwencjonowanych klonów z pozycjami na fizycznej mapie genomu. • Poprawianie niezgodności.
Kroki w procesie składania genomu z kontigów pochodzących z klonów A i B.
Jakość draftu genomu zsekwencjonowanego przez konsorcjum • Użyto oprogramowanie PHRAP (program przypisuje każdemu nukleotydowi prawdopodobieństwo błędu). • 91% sekwencji ma błąd < 1/10.000. • 96% sekwencji ma błąd < 1/1.000 • Są przerwy w sekwencji.
Przerwy w sekwencji (3 rodzaje) • Pomiędzy kontigami w poszczególnych klonach: łącznie 2-4% genomu jest zawarte w takich przerwach (~80Mb). Tych przerw jest ~145.000. • Pomiędzy klonami w mega-kontigach: 5% genomu (~150Mb). Jest ich ~4.000. • Pomiędzy mega-kontigami (szacowanie na podstawie chr. 21 i 22) ~4% genomu.
Co wiadomo na temat liczby genów? • W małych genomach geny są ściśle związane z ORFami (ORF=OpenReading Frame). • U człowieka średnia długość eksonu ~145bp, natomiast introny są długie (średnio ~3300bp, ale zdarzają się introny długości > 10Kb). Przykładowo: introny (średnio) • u robaka (267bp), • u muchy (487bp).
Geny RNA (nie-kodujące) • Takie jak tRNA, rRNA, itd. • Nie mają ORFów. • Są małe i nie zawierają ogonów poly(A). • Trudne do odróżnienia od pseudogenów. • Łącznie znaleziono w drafcie ~700 genów RNA.
Przykład • Klasyczne (podręcznikowe) oszacowanie liczby genów tRNA u człowieka to 1310, ale ... okazało się, że jest ich w drafcie genomu tylko 497.
Geny kodujące białka • Znanych jest obecnie nieco ponad 10.000 sekwencji mRNA w bazie RefSeq (część bazy GenBank). Zrobiono uliniowienie z draftem genomu. Nieco ponad 9.000 dało się (przynajmniej częściowo) uliniowić. 16% sekwencji mRNA wykazało podobieństwo do więcej niż jednego wystąpienia w drafcie genomu (paralogi, pseudogeny).
Geny kodujące białka (rozmiary) • Duży rozrzut w rozmiarach genów (eksony i introny) człowieka. Wiele jest dłuższych niż 100Kb (rekordzista: gen dystrofiny (DMD) ma 2.4Mb. • Długość kodującej sekwencji też podlega dużym wahaniom. Np. gen titiny (najdłuższa obecnie znana długość kodującej sekwencji) ma 80.780bp, liczba eksonów 178, najdłuższy ekson 17.106bp.
Trudności w znajdowaniu genów w genomie człowieka • Mały iloraz sygnał/szum w genach człowieka w związku z krótkimi eksonami i bardzo długimi intronami. Ponadto kodujące sekwencje stanowią bardzo małą część genomu. Tak nie jest w drożdżach, robaku i muszce. • Znając nawet dokładnie genom (tak jak to jest dla chr. 21 i 22) nadal będzie bardzo trudno odkrywać geny ‘ab initio’ .
Przewidywanie liczby genów (1) • W latach 80-tych Gilbert zasugerował, że może być ~100.000 genów w genomie człowieka. Jest to tzw. rachunek ‘back-of-the-envelope’Typowy gen ma rozmiar ~30.000bp, rozmiar genomu jest ~3Gb, więc otrzymujemy ~100.000 genów. • Analiza na podstawie szacunku liczby wysp CpG oraz częstości związków z genami dała ~70.000-80.000 genów.
Przewidywanie liczby genów (2) • Szacunki oparte o EST (EST =ExpressedSequenceTags) dawały rozrzut liczby genów w granicach 35.000-120.000.
Obecnie stosowane metody znajdowania genów • Wystąpienie znanego EST lub mRNA. • Sekwencyjne podobieństwo do znanych genów lub białek. • Ab initiometoda oparta na ukrytych modelach Markowa (HMM) – używają one statystycznej informacji na temat miejsc splicingu, kodowego odchylenia (codingbias), długości eksonów i intronów (Genscan, Genie, FGENES).
Skuteczność metod ab initio • Szacuje się, że dla muchy pojedyncze eksony mogą być odgadywane poprawnie z prawdopodobieństwem 90%, ale wszystkie eksony danego genu tylko z prawdopodobieństwem 40%. • Dla człowieka podobne liczby wynoszą: 70% i 20%. • Niektórzy uważają też, że w/w liczby są zbyt optymistyczne...
Initial Gene Index (IGI) • System Ensembl (używa Genscan, weryfikuje w oparciu o podobieństwo do białek, mRNA, EST i białkowych motywów (zawarte w bazie Pfam) dla wszystkich organizmów). System ten wygenerował35.000 predykcji genóworaz 44.860 transkryptów. • Po wykonaniu pewnej redukcji fragmentacjiotrzymano31.778 predykcji genów. To stanowi podstawę do pierwszej wersji IGI.
Initial Gene Index (IGI) • W IGI jest 15.000 znanych genów i 17.000 predykcji nowych genów. • Przyjmuje się, że bardziej realna liczba genów w IGI to 24.500 genów (20% błędnych predykcji lub pseudogenów, 1.4 współczynnik fragmentacji). • Przyjmując, że predykcje genów zawierają 60% wcześniej nieznanych genów, można oszacować łączną liczbę genów człowieka na ~31.000.
Końcowe uwagi na temat liczby genów człowieka • Obecne szacunki liczby genów oparte na próbkowaniu dają przedział 30.000-35.000. • Jeśli w genomie człowieka jest 30.000-35.000 genów i średnia długość kodującej sekwencji wynosi 1.400bp oraz średnia długość całego genu wynosi 30Kb, to 1.5% całego genomu zajmują sekwencje kodujące, a 30% zajmują geny.
Końcowe uwagi na temat liczby genów człowieka • Wydaje się, że człowiek ma dwa razy więcej genów niż robak lub mucha. Geny człowieka są bardziej rozciągnięte po genomie i są one używane do budowy większej liczby alternatywnych transkryptów. Łącznie, być może, człowiek wytwarza 5 razy więcej białkowych produktów niż robak czy mucha.
Jaka jest naprawdę liczba genówu człowieka ...? Michael Zhang ze współpracownikami (Cold Spring Harbour Laboratory): opracowali program First Exon Finder (grudzień 2001, Nature Genetics). Program ten wyszukuje odcinki zawierające nie-kodujące pierwsze eksony oraz sekwencje promotorowe genów. Program poprawnie zlokalizował 90% genów w zsekwencjonowanych chromosomach 21 i 22. First Exon Finder wytypował 68,000 genów w genomie człowieka. Autorzy szacują, że całkowita liczba genów w genomie człowieka waha się w granicach 50,000-60,000. Co będzie dalej ... ?
Plan • Kontigi i rusztowania. • Dwie strategie asemblacji genomu (WGA, CSA). • Poszukiwanie genów. • Analiza genomu. • Porównanie sekwencji Konsorcjum i Celery.
Celera • 3,000 m.kw. • 175,000 reakcji sekwencjonowania na dzień. • Wirtualna Farma Obliczeniowa (Compaq Alpha): • 440 CPU (EV6 (400MHz), EV67(667MHz)). • Każdy 2-8GB RAM. • 100TB HD.