260 likes | 458 Views
GA ja proteiinit. Suvi Karhu AUTO3070 Geneettiset algoritmit. Proteiinit. Aminohapoista koostuvia orgaanisia yhdisteitä, jotka toimivat mm. Kudosten rakennusaineina, esim. kollageeni Entsyymeinä, esim. laktaasi Aineiden kuljettajina: esim. hemoglobiini
E N D
GA ja proteiinit Suvi Karhu AUTO3070 Geneettiset algoritmit
Proteiinit • Aminohapoista koostuvia orgaanisia yhdisteitä, jotka toimivat mm. • Kudosten rakennusaineina, esim. kollageeni • Entsyymeinä, esim. laktaasi • Aineiden kuljettajina: esim. hemoglobiini • Vasta-aineina, esim. immunoglobuliinit • Reseptoreina • Myrkkyinä, esim. botuliini • Hormoneina, esim. insuliini • Geenien säätelijöinä
Proteiinisynteesi • Proteiinisynteesissä solu valmistaa proteiineja DNA:ssa olevan informaation perusteella • Vaiheet: • Transkriptiossa DNA:n nukleotidijärjestys kopioidaan lähetti-RNA:han • Lähetti-RNA siirtyy ribosomiin, missä nukleotidien järjestys käännetään polypeptidiketjun aminohappojärjestykseksi. (=Translaatio) • Proteiini laskostuu 3-ulotteiseen muotoonsa
GA ja proteiinit Seuraavaksi muutama esimerkki proteiineihin liittyvistä GA:n sovelluksista…
Aminohappoaakkoston yksinkertaistaminen • Proteiinit muodostuvat 20 eri aminohaposta -> proteiinin aminohapposekvenssi voidaan kuvata käyttämällä 20 kirjainta…
Alaniini (Ala / A) • Arginiini (Arg / R) • Asparagiini (Asn / N) • Asparagiinihappo (Asp / D) • Kysteiini (Cys / C) • Glutamiinihappo (Glu / E) • Glutamiini (Gln / Q) • Glysiini (Gly / G) • Histidiini (His / H) • Isoleusiini (Ile / I) • Leusiini (Leu / L) • Lysiini (Lys / K) • Metioniini (Met / M) • Fenyylialaniini (Phe / F) • Proliini (Pro / P) • Seriini (Ser / S) • Treoniini (Thr / T) • Tryptofaani (Trp / W) • Tyrosiini (Tyr / Y) • Valiini (Val / V)
…mutta • Erilaisia aminohapposekvenssejä on enemmän kuin erilaisia proteiinirakenteita • Kaksi eri sekvenssiä saattaa tuottaa samanlaisen proteiinin Esim. …SKA… (seriini, lysiini, alaniini) …TKA… (treoniini, lysiini, alaniini) Seriinillä ja treoniinilla on samantapaiset kemialliset ominaisuudet -> ei välttämättä ole väliä kumpi niistä esiintyy sekvenssissä Aminohappojen ominaisuuksia: http://fi.wikipedia.org/wiki/Aminohappo#Aminohappojen_ryhmittely
…joten • Proteiinin rakenne voidaan kuvata vähemmällä kuin 20 kirjaimella • Miksi tarvitaan? • Proteiinin rakenteen kuvaamisen yksinkertaistamiseksi • ->Helpompi vertailla, miten eri aminohapot vaikuttavat proteiinin toimintaan
Ratkaisu? • Samankaltaisten aminohappojen ryhmittely (klusterointi, clustering) Esim. yhdistetään seriini ja treoniini: merkitään X:llä {S tai T} • Ongelma: Mikä on optimaalinen ryhmittely? ~ Lukujen ositusongelma. NP-täydellinen eli laskennallisesti erittäin vaativa ongelma. • GA:ta on kokeiltu ongelman ratkaisemiseen…
GA • Aloituspopulaatio: Luodaan satunnainen joukko ryhmittelyjä • Cross-over: • Valitaan satunnainen aminohappo, esim. a • Etsitään vanhemmilta ne klusterit, joissa äsken valittu aminohappo esiintyy esim. {almrq}, {aps} • Yhdistetään nämä klusterit uudeksi klusteriksi • ->{almpqs}
GA • Ei mutaatiota, koska satunnaisuus haitallista • Tulokset: • Suunnilleen yhtä hyviä kuin muilla menetelmillä saadut • GA nopeampi Lähde Palensky, M.; Ali, H.; , "A genetic algorithm for simplifying the amino acid alphabet," Bioinformatics Conference, 2003. CSB 2003. Proceedings of the 2003 IEEE , vol., no., pp. 598- 599, 11-14 Aug. 2003doi: 10.1109/CSB.2003.1227418URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1227418&isnumber=27543
Motiivien etsintä • Motiivit ovat lyhyehköjä nukleotidijaksoja tai aminohappojaksoja, jotka toistuvat usein DNA-sekvenssissä tai aminohapposekvenssissä • Motiiveilla on jokin tärkeä biologinen merkitys, esim. DNA-motiivit määrittelevät proteiinisynteesin aloittamisessa tarvittavien transkriptiofaktoreiden kiinnittymiskohdan DNA-kierteessä
Motiivien ei ole pakko toistua aina täysin samanlaisina, vaan ne voivat erota muutaman nukleotidin/aminohapon osalta • Esimerkki (koskee DNA:ta) sekvenssi1 CTAGCGGACTAGG sekvenssi2 TAGCTGGACTACT sekvenssi3 CATCAGGAATAAG ->motiivi on GGAMTA, missä M tarkoittaa ”C tai A” • IUPAC ambiguity codes
Motiivien löytämiseksi on kehitetty erilaisia algoritmeja • Myös GA:ta voidaan käyttää
GA ja motiivien etsintä • Generoidaan satunnaisia motiiveja, lasketaan mitkä niistä parhaiten kuvaavat sekvenssissä toistuvia jaksoja, ja risteytetään parhaita yritteitä • Mutaatiossa vältetään muuttamasta motiivin ”parhaita kohtia” • Lähde: Liu, F.F.M.; Tsai, J.J.P.; Chen, R.M.; Chen, S.N.; Shih, S.H.; , "FMGA: finding motifs by genetic algorithm," Bioinformatics and Bioengineering, 2004. BIBE 2004. Proceedings. Fourth IEEE Symposium on , vol., no., pp. 459- 466, 19-21 May 2004doi: 10.1109/BIBE.2004.1317378URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1317378&isnumber=29175
Proteiinin rakenteen ennustaminen • Proteiinin rakenteet: • Primäärirakenne = aminohappojärjestys • Sekundäärirakenne muodostuu, kun aminohappoketjuun tulee paikallisia rakenteita, kuten α-heliksi ja β-laskos.
Proteiinin rakenteen ennustaminen • Tertiäärirakenne on proteiinin lopullinen 3-ulotteinen muoto, joka muodostuu mm. α-heliksien ja β-laskosten välisestä vuorovaikutuksesta. Proteiinin 3-ulotteinen rakenne määrää proteiinin toiminnan.
Proteiinin rakenteen ennustaminen • Laskostumisesta ollaan kiinnostuneita mm. siksi, että monet sairaudet johtuvat virheistä proteiinin laskostumisessa, esim. • Alzheimer, • Parkinson, • hullun lehmän tauti, • allergioita
Proteiinin rakenteen ennustaminen • Lääkkeiden teho perustuu yleensä jonkin proteiinin aktiivisuuden muuttamiseen elimistössä • Tietoa proteiinin 3-ulotteisesta rakenteesta voidaan hyödyntää lääkkeiden suunnittelussa
Proteiinin rakenteen ennustaminen • 3-ulotteinen rakenne voidaan selvittää kokeellisin menetelmin, mutta se on työlästä. • Röntgensädekristallografia • Ydinmagneettinen resonanssi (NMR) Olisi helpompaa jos tertiäärirakenne voitaisiin ennustaa suoraan primäärirakenteesta.
Proteiinin rakenteen ennustaminen • Tertiäärirakenteen ennustaminen aminohapposekvenssistä on vaikeaa. • N aminohappoa -> 10N eri konformaatiota
Proteiinin rakenteen ennustaminen • Ennustamisessa voidaan käyttää tietoa, että tertiäärirakenteessa proteiinin potentiaalienergia on minimissään • GA:ta voidaan käyttää minimoimaan energiaa • Yritteet ovat geometrisia esityksiä mahdollisista proteiinin rakenteista • Hyvyysfunktio on rakenteen potentiaalienergia • Yritteitä, joilla on pienin energia, risteytetään ja mutatoidaan, kunnes saadaan mahdollisimman pienienergiainen yrite