540 likes | 681 Views
Proteiinianalyysi 52930 (3op). Liisa Holm. Organisaatio. Luennot 21.3.-18.4.2005, ke, pe 14-16, LS 1015 kurssin kotisivu http://www.bioinfo.biocenter.helsinki.fi/downloads/teaching/spring2006/proteiinianalyysi/ Tentti 25.4.2007, klo 14-16, LS 1015 Oheislukemisto
E N D
Proteiinianalyysi 52930 (3op) Liisa Holm
Organisaatio • Luennot • 21.3.-18.4.2005, ke, pe 14-16, LS 1015 • kurssin kotisivu http://www.bioinfo.biocenter.helsinki.fi/downloads/teaching/spring2006/proteiinianalyysi/ • Tentti • 25.4.2007, klo 14-16, LS 1015 • Oheislukemisto • Mount DW (2005) Bioinformatics. Sequence and genome analysis. 2nd edition. CSHL press, New York – Ch. 5-6,10-11 • Tramontano A (2005) The ten most wanted solutions in protein bioinformatics. Chapman & Hall/ CRC Mathematical Biology and Medicine series.
Muut kurssit • Esitiedot: • Geneettinen bioinformatiikka 3 op • sekvenssivertailu • fylogeniapuut • Soveltaminen: • Proteiinianalyysin harjoitustyöt 5 op • webbityökalujen käyttö
Bioinformatics • An interdisciplinary science that synergistically utilizes the contribution of informatics, physics, and mathematics, but, ultimately, the objective is the solution of biological problems
Protein bioinformatics • The goal is to assist experimental biology in assigning a function or suggesting functional hypotheses for all known proteins.
Proteiinien merkitys • Proteiinit tekevät kaiken työn solussa ja ovat osallisina: • Geenisäätelyssä • Metaboliassa • Signaloinnissa • Tukirangassa • Kuljetuksessa • Solunjakautumisessa http://www.websters-online-dictionary.org/definition/english/ce/cell.html
Proteins are a product of evolution • The basic principles of evolution must be kept in mind when new methods are devised or new routes are explored for inferring the function of a biological macromolecule.
aina = biologinen aina (poikkeuksia löytyy) Proteiinit ovat erikoislaatuisia polymeerejä: • Tietyllä proteiinilla on aina sama aminohapposekvenssi • Proteiinin sekvenssi määräytyy DNA-sekvenssin perusteella • Tietyllä proteiinilla on aina uniikki kolmiulotteinen rakenne. • Proteiinin rakenne määräytyy aminohapposekvenssin perusteella.
Ei funktiota ilman rakennetta • Luonnon proteiinit laskostuvat spesifiseksi kolmiulotteiseksi rakenteeksi • komplementaarinen interaktiopartnerille • Denaturaatio tuhoaa funktion
EvoluutioSekvenssi – Rakenne - Funktio Luonnonvalinta DNA-sekvenssi Proteiinin funktio Proteiinin sekvenssi Proteiinin rakenne
Geenin kahdentuminen Perhe B Perhe A mutaatio mutaatio mutaatio Perhe A’ Koevoluutio A:B A B Evoluutioteoria • Yhteinen kantamuoto => (jossain määrin) säilynyt rakenne ja funktio • Yhteinen valintapaine => säilyneet / muuntelevat alueet • Vertailu homologiin auttaa, kun hajautettu koodi on vaikea purkaa • DNA -> RNA -> Proteiini • Sekvenssi -> 3-ulotteinen rakenne -> Funktio • sukua informaatioteorialle
GT28i (50) b-N-GlcNAc transferase Cell wall GT1i (467) UDP glucoronosyl-transferases Many biosynthetic pathways WecB (4) UDP-N-GlcNAc 2-epimerase Cofactors: GT4r (463) Sucrose and sucrose-phosphate synthase UDP GT3r (13) glycogen synthase ADP PLP GT5r (160) UDP-Glc glycogen and ADP-Glc starch glucosyl- transferase GT35r (69) Glycogen Phosph-orylase BGT (1) Energy storage Phage T4 virulence factor Metabolic control point
The top ten ten most wanted solutions in protein bioinformatics • Protein sequence alignment • Predicting protein features from sequence • Function prediction • Protein structure prediction • Membrane proteins • Functional site identification • Protein-protein interaction • Protein-small molecule interaction • Protein design • Protein engineering
1: Protein sequence alignment • Subproblems: homology detection alignment • Combined: maximize the probability of common ancestry (residue-residue) and of the existence of ancestor • Statistical significance tests – but, proteins are not randomly generated
1: Protein sequence alignment • Techniques: • scoring matrices • dynamic programming • Profiles • expectation maximization • Gibbs sampler • hidden Markov models
1: Protein sequence alignment • Functional continuity • Evolution-based inference • Duplication followed by divergence • Orthologues – same function • Paralogues – new function • Protein families • Multiple sequence alignment problem • Remote homology detection problem • Transitivity of homology
Esimerkki sekvenssien evoluutiosta • Olettakaamme, että on olemassa meidän tuntemallemme rinnakkainen universumi, jossa kaikki proteiinit ovat neljän pituisia, aminohappoja on 26 (ABCDEFGHIJKLMNOPQRSTUVWXYZ) ja luonnonvalinta eliminoi kaikki sekvenssit, jotka eivät ole englanninkielessä esiintyviä sanoja. Toisin sanoen funktionaaliset proteiinit ovat nelikirjaimisia englannin sanoja. • Esitä muutama pistemutaatioiden ketju, joka muuttaa sekvenssin WORD sekvenssiksi GENE siten, että kaikki välivaiheet koodaavat funktionaalista proteiinia.
Functional continuity WORD d=0 # WORE d=1 # GORE d=2 # GONE d=3 # GENE d=4
WORD > CORD, FORD, HORD, LORD, SORD, WARD, WOAD, WOED, WOLD, WORE, WORK, WORM, WORN, WORT Montako funktionaalista sanaa on yhden mutaation päässä sanasta WORD?
Mikä osa kaikista mahdollisista neljän kirjaimen pituista merkkijonoista (funktionaalisuuteen katsomatta) on enintään etäisyydellä 1, 2, 3 tai 4 sanasta WORD?
Etäisyydellä d on • sanaa, missä N on aakkoston koko. • Yhteensä sanoja on N4. • Osuus etäisyydellä 1 on 4/N3, • etäisyydellä 2 osuus on 6/N2, • etäisyydellä 3 osuus on 4/N ja • etäisyydellä 4 se on 1. • Sekvenssien (painotettukin) etäisyys on huono ”homologian” erittelijä, kun ei oteta huomioon positioden välisiä korrelaatioita.
Profile Superfamily KVTMEHITT ## # RITMEHVTT ### RIHVLHVTT ## RIHVLHIST # RLHVLHIST # # LLHVLHLST # # RLHVAHLST # ## RLVVAHLGM # # RLVVDHLGK # # # DLVVDHMGR ## # LIVIDHMGR # ## KIVLAHMGR # ## KTVLAHMVH # KTVLAHGVH ### DDFLAHGVH # # # # ADRLGHGVR # # AERIGHGYR # # # TERLGHGYH Protein space
2: predicting features from sequence • Positive examples conservation problem • Positive/negative examples classification problem • Deterministic patterns • Probabilistic methods
2: predicting features from sequence • Functional fingerprints • E.g. Prosite patterns • Secondary structure prediction • Post-translational modification sites • Sub-cellular localization • Solvent accessibility • Techniques: regular expressions, profile, neural network
Analog / homolog problem • Twilight zone in sequence similarity • Very broad twilight zone in structure similarity • Homologs share many features, including functional similarities
Dividing a superfamily into functional subfamilies Problem: identify specific motifs that determine function Solution: analyse semiconserved positions in multiple alignment [ function-loss point mutation ]
Ferric reductase ‘FMN and nickel binding protein’ Function assignment His126 is a putative functional marker COG1853 plotted in sequence space
3: Function prediction • Definition of “biological function” • Localization, process, biochemistry • Vocabulary • Protein names (synonyms) • Text mining • Function transfer • Error propagation • Intergration of transcriptomics and proteomics data • Gene co-expression, gene regulation • “Function = sum of interactions”
Post-genomic view:Function = S interactions (From left to right, figures adapted from Olsen Group Docking Page at Scripps, Dyson NMR Group Web page at Scripps, and from Computational Chemistry Page at Cornell Theory Center).
4: Structure prediction • Energy calculations • Molecular mechanics, force field • Net stability of proteins ≈ 0 • Difficult to accurately model balance of entropic and enthalpic contributions • Searching conformational space • Energy minimization • Knowledge-based pseudo-potentials • Evolution-based (comparative modelling)
4: Structure prediction • Levinthal’s paradox
Polypeptidin rakenne • Polypeptidiketjun kolmiulotteisen rakenteen määrittävät torsiokulmat f ja y (oletetaan, että w=180 astetta). Kemiallisten sidosten rotaatiot suosivat energiaminimeitä. Esimerkiksi neliarvoinen hiili suosii gauche- (±60 astetta) ja trans- (180 astetta) orientaatioita. Näin ollen jokaisella aminohapolla on kymmenkunta mahdollista konformaatiota.
Montako mahdollista konformaatiota on N:n aminohapon pituisella proteiinilla? Jätä toistensa päälle osuvien atomien mahdollisuus huomiotta. • 10N • Kemiallisten sidosten tyypillinen rotaatiofrekvenssi on 1014 s-1. Kuinka kauan vähintään kestäisi, ennen kuin 40 aminohapon pituinen proteiini on käynyt läpi kaikki mahdolliset konformaationsa?
Hakuavararuus on 1040 konformaatiota, jaettuna 1014 s-1 tekee 1026 sekuntia. Vuorokaudessa on 86400 sekuntia ja vuodessa 31536000 sekuntia. Haku kestää ainakin 1018 vuotta. • Maailmankaikkeuden iäksi arvioidaan noin 10 miljardia vuotta. Montako proteiinia systemaattisella algoritmilla olisi ehtinyt laskostua peräkkäin aikojen alusta? Tulos tunnetaan Levinthalin paradoksina.
Luonnon proteiinit laskostumiseen kuluu aikaa millisekunneista minuutteihin. Luonnon laskostamisalgoritmi on 1029 ... 1024 kertaa tehokkaampiverrattuna systemaattiseen hakuun.
5: Membrane proteins • Special constraints due to lipid bilayer • Topography prediction • Three types of structures known • Porin beta-barrel • Helical bundles: bacteriorhodopsin, cytochrome oxidase, etc. • Light harvesting complex: full of chlorophyll
6: Functional site identification • Given a structure, can you tell what is the function? • Structural genomics • Targets families of unknown proteins • Techniques • 3D structure comparison + classification • Computational geometry
Deduction Statistically significant sequence similarity Structure similarity Extant proteins Inferred ancestors 3D structure comparison has a longer look-back time Induction ? ? Properties of extant proteins ? Evolutionary continuity
7: Protein-protein interaction • Nature of interaction networks • “Scale-free” • Static / dynamic • Evolutionary robustness • Noisy data • Predicting interactions from sequence, from structure • Docking two structures into complex
GroEL-complex Hemoglobin 1gr6
Molecular complexesvia X-ray 30 S subunit of the ribosome Protein RNA 1fjg
Genomi, proteomi, transkriptomi, metabolomi “Q → Family X” “Family X is involved in process Y” → A → B ↑ ↓ D ← C →
8: protein-small molecule interaction • Site identification • Ligand orientation • Prediction of affinity • Applications in pharmaceutical industry