220 likes | 329 Views
Introduction to bioinformatics. T.K. Attwood & D.J. Parry-Smith Addison Wesley Longman Limited 1999. 1. Johdanto 2. Tietoverkot 3. Proteiinitietokannat 4. Genomitietokannat 5. DNA analyysi 6. Kahden jonon rinnastus. 7. Monen jonon rinnastus 8. Sekundäärirakenteiden tietokannat
E N D
Introduction to bioinformatics T.K. Attwood & D.J. Parry-Smith Addison Wesley Longman Limited 1999
1. Johdanto 2. Tietoverkot 3. Proteiinitietokannat 4. Genomitietokannat 5. DNA analyysi 6. Kahden jonon rinnastus 7. Monen jonon rinnastus 8. Sekundäärirakenteiden tietokannat 9. Hakuprotokollan rakentaminen 10. Analyysiohjelmistot Sisältö
Sekvenssointi Mitä bioinformatiikka on? Sekvenssien ja rakenteiden suhde Genomiprojekteja Bioinformatiikan rooli Hahmon tunnistus ja ennustus Laskostumisongelma Kaperoni molekyyli Sekvenssianalyysi Homologia ja analogia Yksityiskohtien määrä 1. Johdanto
Ens. proteiini 1955 ja ens. entsyymi 1960 1965: 20 proteiinia joiden pituus vähin-tään 100 tähdettä (residue) 1980 1500 proteiinia, tänään 300 000 Automaattinen sek-venssointimenetelmä 1980-luvulla antoi 104 kertaisen nopeuden verrattuna 1967 vuoteen 1979 massaspektro-metri, translaation jäl-keinen muokkaaminen Sekvenssointi (aminohapot)
tRNA 60-70 luvulla alle 100 nukleotidiä pitkiä DNA:t pitkiä, ihmisen c·106 emäsparia(base pair, bp), missä 55 c 250 kerralla voidaan lukea n. 500 bp PCR:llä, (polymeraasiketjure-aktio), kloonataan useita kopioita joiden avulla voidaan koota alkuperäinen jono Tekniikat levisivät 1980-90 luvulla laboratorioihin Sekvenssointi (nukleiinihapot)
Mitä bioinformatiikka on? • Lähtökohtana DNA sekvenssien määrän kasvu ja ohjelmistojen kehittyminen • Termi 1980 luvun puolivälissä • Aluksi tarkoitti ohjelmistojen käyttöä sekvenssien käsittelyssä ja analyysissä • Nykyään: informaatioteknologian soveltamista biologisen datan hallintaan ja analyysiin (CAPBIOS Bioinformatics)
Sekvenssien ja rakenteiden suhde • 1998 300 000 proteiinia • Osittaisia proteiineja ja EST jonoja on miljoonia (expressed sequence tag) • 3D rakenteita vain 1500 PDB:ssä • Rakenteet vaikeita?
Genomiprojekteja • 1980 luvun puolivälissä aloitettiin ihmisen geneettisen ja fyysisen kartan määrittäminen, vedos jo valmiina
Bioinformatiikan rooli • Aikaisemmin rakennebiologian tutkimus oli tärkeintä, ei enää • Biokemiallinen ja biofysikaalinen tieto johdettavissa osittain sekvensseistä (tarkistus) • Vert. puhelinluettelo ja firman toiminta • Käsin tehtyjen määrä pysyy pienenä
Tuntemattoman kielen tulkinta • Lauseet – proteiinit • Sanat – aiheet, motiivit (motif) • Kirjaimet eli aakkosto – aminohapot • Yhden kirjaimen muutos sanassa voi johtaa suureen muutokseen • Proteeiinien suunnittelu yhtenä tavoitteena • Laskennallinen vaativuus?
Hahmon tunnistus • Proteiinit jaetaan perheisiin niiden toiminnan perusteella • Kussakin perheessä on yhteisiä alisekvens-sejä ja rakenteita • Verrataan tuntematonta proteiinia tunnettuihin ja päätellään sen toiminta epäsuorasti
Hahmon ennustus • Idea: toiminnallisen paikan eli rakenteen voi ennustaa suoraan aminohappojonosta ilman että sitä on nähty aikaisemmin • 40% onnistuminen ammattilaisen ohjailussa
Laskostumisongelma • Ribonukleasin denaturointi minkä jälkeen laskostuminen alkuperäiseen muotoon (1961) • Ennustus mahdollista! • Sekundäärirakenteen parhaimillaan 70% (1998)
Sekundäärirakenteen ennustus • Fysiokemialliset kriteerit (minimienergia) • Tunnetut 3D rakenteisiin • Homologiset proteiinit • Sekvenssien rinnastustiedot • Ongelmana on tunnettujen rakenteiden määrä
Kaperoni molekyylit • Auttavat muodostettavan proteiinin laskostumisessa • Umpikujien välttäminen ja tehokkuus? • Määrääkö sekvenssin lineaarinen esitys lopullisen muodon? • Sekvenssi-rakenne yhteys vaikea ongelma
Sekvenssianalyysi rakenteen ennustuksessa • Sekvenssi-sekvenssi yhteys toimii ennus-tuksessa kun jonot ovat vähintään 50% samalaisia • Hämäräalueella ei tilastollista merkitystä • Osaratkaisu: käytetään yhdistelmämenetelmiä
Homologia ja analogia • Homologia on väittämä: yhteinen kantaisä • Analogia: samoja rakenteita vaikkei yhteistä kantaisää (rakenne, sekvenssi) • Kehitys hajaantuu ja suppenee evoluution seurauksena • Homologia helppo päätellä kun väh 50% samankaltaisuus
Orthologia ja paralogia • Orthologia: eri lajeissa olevat homologiset proteiinit joilla sama toiminta • Paralogia: yhdessä eliössä olevat homologiset proteiinit joilla läheiset mutta kuitenkin erilaiset toiminnat • O: molekyylinen palentologia; sammankaltaisuuksia eri lajeissa • P: evoluution mekanismien tarkastelu
Yksityiskohtien määrä • Biologinen tieto (orthologia/paralogia) • Ei laatukritereitä toiminta selityksille (function annotation) joten paljon virheitä tietokannoissa, varsinkin autom.gen. • Tarkastellan vain osittaisia sekvenssejä; modulaarinen proteiini
Toiminnan päättely • Geneettinen sekoittuminen (lego-palikkat) • Luodaan uutta sekoittamalla vanhoja • Toiminta voidaan selittää komponenttien toiminnan avulla mutta toimintaa ei voida päätellä yksittäisistä komponenteista