Bioinformatik ?

Bioinformatik? Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet

Dagens övningar… • ”Vad är bioinformatik?” • Exemplifierat i ett genomsekvenseringsprojekt • Några biologiska problemställningar • …och hur några olika tekniker kommer till användning • Lite detaljer om • DNA-sekvensdatabaser • Homologi

Biologi Datavetenskap Matematik Så, vad är “Bioinformatik”?… ”Metoder, modeller, algoritmer och implementeringar för att hantera och analysera informationsinnehållet i biologiska informationsbärande molekyler [och en del andra biologiska strukturer]”

Fler modeord… • Bioinformatik – Bioinformatics • Syftar i huvudsak till att behandla biologiska data; fokus på tekniken • Beräkningsbiologi – Computational biology • Syftar i huvudsak till att modellera och prediktera biologiska system; mera fokus på biologin • Systembiologi – Systems biology • Syftar till att modellera det dynamiska beteendet hos hela biologisk system

Innan 1997 fanns inte bioinformatik… men ”Biologisk databehandling” lät inte så hett… och ”Teknisk databehandling” blev ”Informationsteknologi” Nya tekniker har gjort att biologiska data produceras i en lavinartat ökande takt HUman GenOme Project (HUGO) och efterföljare Varför är ”Bioinformatik” ett inneuttryck?

Tillväxt i sekvensdatabaser (EMBL) Dubblingstid ca 18 månader

“Bioinformatiker” – Vem är det? Flera olika skrå av bioinformatiker… • ”Fotfolket” • Använder tillgängliga verktyg på biologiska problem • ”Gillesmedlemmarna” • Forskningsprogram som leder till nya teorier, algoritmer eller konstruktioner av bioinformatiska verktyg • Fritt tillgänglig programvara är en del av aktiviteten • ”Superanvändarna” • Använder tillgänglig programvara kompletterade med skräddarsydda skript och program på biologiska • Programvara blir mycket sällan offentlig

Några bioinformatiska problemområden • Datalagring/åtkomst • Datastrukturer, databaser • Informationsflöden • Gränsytor (människa/maskin, maskin/maskin) • Analys, prediktion • Mönsterextraktion • Modellering, sannolikhetsberäkningar • Datavisualisering • Datareduktion • Fokusering, interaktivitet

RNA polypeptid DNA mRNA enzym protein koenzym- aktivering protein- veckning transkription splitsning translation Informationsöverföring - I • Regulatoriska nätverk (enzymer och RNA) • Utvecklingsmässiga program (vävnader, organ) • Fenotyp

Informationsöverföring – II Ursprunglig sense strand Ursprunglig sense strand Ny anti-sense strand Ny sense strand Ursprunglig anti-sense strand Ursprunglig anti-sense strand

En syn på Bioinformatik Expressions databaser Metaboliska databaser Litteratur- databaser ? Sekvensdatabaser Genom- databaser Uttrycks-mönster Fragment-samman-läggning Reglerings- mekanismer BLAST Prediktioner på DNA Parvis/Multipel sekvensinpassning Fylogeni- analys Gen Prediktioner på proteiner Fylogenier Strukturdatabaser Fylogenetiska databaser Funktion, lokalisering

Människans genom Antalet gener har uppskattats till ca 35 000

DNA-sekvensering genererar sekvenser som är kortare än 1000 baser (bp); nya tekniker ännu kortare (50-150 bp) Bakteriekromosomer är 5-30 Mbp, människans kromosomer ca 150 Mbp Ytterligare förtretligheter Minskande precision mot ändarna av läsningarna Repetitiva sekvenser Problem: ”Från fragment till sammanhängande genomsekvens” Fragmentsammanläggning ACGTGCGACGATA CCGATACAGCAGGGATG

Problem: “I den sammanhängande DNA sekvensen, identifiera de delar som innehåller information som bearbetas av organismen (speciellt gener)” Maskning av repetitiva sekvenser Möjliga angreppssätt Stoppkodon (UAA, UAG, UGA) Kodonskevhet - använder ”Hidden Markov Models”, en typ av probabilistisk modell intron DNA sekvens promoter exon Prediktioner på DNA

Proteinstrukturer n-IVTAHAFVMI-c • Primärstruktur; ordningsföljden av aminosyrorna • Sekundärstruktur; konformationer, främst -spiraler och -flak • Tertiärstruktur; den fullständiga tre-dimensionella veckningen av polypetidkedjan • Kvartärstruktur; finns hos protein med fler än en polypeptidkedja

Problem: ”Identifiera funktionen hos de delar av genomet som har identifierats som proteinkodande” Angreppssätt Jämför aminosyrasammansättningen med en databas av kända protein Beräkna fysikaliska egenskaper (isoelektrisk punkt, massa, hydrofobicitet,…) och jämför dessa med en databas av kända proteiner Leta efter specifika motiv i aminosyrasekvensen Jämför aminosyrasekvensen med sekvenserna i en databas med kända protein (BLAST sökning) Prediktioner på aminosyrasekvenser

Prediktioner på protein – struktur • Sekundärstruktur och veckning • En teknik som används är neural nätverk • Tertiärstruktur • Mycket komplext problem, men ett med stor potential • Bästa metoden för tillfället verkar vara ”Homology Model building” eller ”trädning” ; proteinsekvensen träds genom rumskoodinaterna hos ett känt protein från en databas och ett mått på passningen beräknas

Vad är en databas? Den information, de data, som databasen innehåller Organisationen av data – databasstrukturen ”Flat-file” databaser Innehåller markeringar och etiketter (t.ex. html) Kompletteras med indexfiler Relationella databaser – poster och fält, relationer mellan dessa Objektorienterade databaser Programvaran för att hantera informationen – Database Management System (DBMS) Förfrågningar och dataretur Gränsytor Användargränsytor, t.ex. web-sidor eller speciella klienter Datorgränsytor

Sekvensdatabaser Databaser med nukleinsyrasekvenser Innehåller främst primära DNA och RNA sekvenser Depåer, d.v.s. innehållet i databaserna är inte vårdat (kurerat) Proteinsekvensdatabaser Innehåller främst sekundära men även primära proteinsekvenser En del av databaserna är vårdade, andra bara extrakt från andra (DNA) databaser Flera typer av gränsytor och sökmotorer dins för att hämta data, t.ex. SRS(Sequence Retrieval System) och Entrez

Depåer för DNA/RNA sekvenser Tre primärcentra,vilka dagligen utbyter information EMBL / European Molecular Biology Laboratory DDBJ / DNA Data Bank of Japan GenBank Alla tre följer DDBJ/EMBL/GenBank Feature Table Definition – http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html, d.v.s. Informationen för posterna är densamma i databaserna

EMBL – European Molecular Biology Laboratory Europas primära resurs för nukleotidsekvenser Etablerad 1980 i Heidelberg av EMBL, nu drivs det hela av EBI (European Bioinformatics Institute) i Cambridge, UK Huvudskaliga källor för sekvenserna är direkt deponering från individuella forskare/grupper, genomprojekt och patentansökningar Innehåller två delar En release section (embl_rel) som släpps var tredje månad En new section (embl_new) dit nya sekvenser läggs till dagligen Också indelad i divisions beroende på sekvensernas ursprung http://www.ebi.ac.uk/embl/Access/index.html Posterna har (skenbarligen) ett format som skiljer sig från GenBank och DDBJ

EMBL divisions

- DNA Database of Japan Samlar huvudsakligen data från Japansk aktivitet, men accepterar data från forskare i alla länder Började som DNA depå 1986 genom påbud från ”Ministry of Education, Science, Sports, and Culture” http://www.ddbj.nig.ac.jp/ Posterna har samma format som i GenBank

GenBank USAs primära resurs för nukleotidsekvenser Etablerad 1988 Drivs av National Center for Biotechnology Information (NCBI), Bethesda, MD Har en release section och en new section liksom EMBL http://www.ncbi.nlm.nih.gov/ Posterna har ett format som (skenbart) skiljer sig från EMBL

SWISS-PROT och TREMBL Utvecklades av Swiss Institute of Bioinformatics (SIB) och European Bioinformatics Institute (EBI) PIR-PSD Ett samarbete mellan National Biomedical Research Foundation (NBRF), Munich Center for Protein Studies (MIPS) och Japan International Protein Information Database (JIPID) UniProt I drift från december 2003 Proteinsekvensdatabaser • SwissProt TrEMBL PIR-PSD

SWISS-PROT (155 000 poster juli 2004) Är en vårdad proteinsekvensdatabas Siktar på att tillhandahålla en hög annoteringsnivå (t.ex. funktion, domänstruktur, post-translationella modifieringar) Indelad i Swissprot_rel och Swissprot_new Ej indelad i divisions (som EMBL) TREMBL (1 360 000 poster juli 2004) Innehåller translaterade sekvenser från EMBL databasen Indelad i SP-TREMBL med sekvenser som är kandidater till att inkorporeras i SWISS-PROT REM-TREMBL som inte kommer att införlivas i SWISS-PROT Proteinsekvensdatabaser

Full-text Electronic journals OMIM PubMed Nucleotide sequences 3D Structures Protein sequences Maps & Genomes Taxonomy Gränsytor mot allmänna databaser Flera olika databaser är i regel tillgängliga genom samma WWW gränsyta. Till exempel, databaserna nedan är alla åtkomliga via National Institute of Health/National Centre for Biotechnology Information (NIH/NCBI) (http://www.ncbi.nlm.nih.gov/Database/)

Genomdatabaser • Skiljer sig från sekvensdatabaser genom att vara mer heterogena och diversa • En genomdatabas organiserar all information om ett visst genom, så som • Genetisk kartläggning • Kartor som visar geners inbördes läge i avstånd som representerar procent överkorsning • Fysisk kartläggning • Kan vara allt från cytogenetiska kartor (bandningsmönster av kromosomer) till positionen av alla kloner i sekvenseringsprojektet • Sekvensdata • Publika genomdatabaser finns på t.ex. • Genome Net – http://www.genome.ad.jp/ • NCBI’s genome section – http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome

Strukturdatabaser Innehåller information om den tredimensionella strukturen hos molekyler, främst protein Data är främst från röntgenkristallografi (>80%), NMR, eller teoretiska modeller (<2%) Exempel på publika databaser är Protein databank (PDB) - http://www.rcsb.org/pdb/ Molecular Modelling Database (MMDB) - http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure

Alla metaboliska databaser använder EC-nummer, vilket är en kombination av fyra nummer som specificera typen av reaktion som enzymet katalyserar Exempel: EC 1.2.3.4 är ett oxido-reduktas (1) som agerar på aldehyd eller oxo grupper (1.2) med syre som acceptor (1.2.3). Den sista siffran, 4, är ett ordningstal inom klassen För- och nackdelar + EC ger en unik identifierare + Möjliggör synonymordlistor -Många klasser av enzym är inte klassificerade i tillräcklig detalj, speciellt gäller det proteaser och nukleaser som har makromolekyler som substrat Metaboliska databaser

Metaboliska databaser Beskriver enzymer, reaktioner, substrat - produkter och biokemiska reaktioner Data är specifika för olika ”typorganismer” eller generella översikter (kompositer) Exempel Kyoto Encyclopedia of Genes and Genomes – http://www.genome.jp/kegg/

”Retrospektiv bioinformatik” – Homologi Ur en bioinformatisk synvinkel kan vi definiera homologi som • ”Två bitar av information i två olika replikatorer är homologa om och endast om de är kopior av samma ursprungliga original i replikatorkontinuumet” • Formalisering av förmodat homologa ”bitar av information” är karaktärer eller karaktärstillstånd

Homologi • Antagen homologi är hypoteser, inte data • Om en egenskap i två olika organismer är homologa eller ej beror också på upplösningen/abstraktionsnivån som används när man formulerar och testar hypotesen Exempel. Vingar hos ryggradsdjur • Homologi är ett antingen-eller förhållande. Två saker kan inte vara ”80% homologa”, men de kan ha 80% identitet eller vara 80% lika (eller 20% olika) – likhet är ett operativt begrepp.

Homologi på molekylär nivå • Det kan finnas flera olika abstraktionsnivåer för homologier hos molekylär data • Homologi mellan gener • Homologi mellan baspositioner i dessa gener • Homologi mellan de faktiska baserna i dessa positioner • Man skiljer också på några specialfall av homologi för genkopior i förhållande till de arter (eller genom) de förekommer hos • Ortologi, Paralogi, Xenologi

Sekvensinpassning Sekvensinpassning (alignment) är en process som syftar till att föreslå en hypotes om homologi mellan positioner i (preliminärt) homologa sekvenser Detta kan vara ett (nödvändigt) steg för att beräkna likhet mellan sekvenser, som i sin tur används för att föreslå hypoteser homologi mellan sekvenser (genkopior) Jämförelse av sekvenser och sökning efter homologa sekvenser i databaser Parvis sekvensinpassning Identifiering av homologa baspar för fylogenetisk (genealogisk) analys Multipel sekvensinpassning

Sekvensinpassning • Genom att tillåta misspassning mellan baser och/eller gap i sekvenserna kan två olika sekvenser passas in • Sekvensinpassning görs genom optimering av en kostnad med olika bidrag från passning, misspassning och gap – inpassningen med lägst kostnad är den bästa • För att hitta den bästa inpassningen används dynamisk programmering CCA-AGTAGG CGAGAGTATG

Heuristiska metoder • O(mn) är för långsamt för att söka i stora sekvensdatabaser, d.v.s. lokal sekvensinpassning av en frågesekvens mot en extremt lång målsekvens • Heuristiska metoder (”quick and dirty”) gör en snabb approximation, i detta fallet av dynamisk programmering • BLAST • Mest använda bioinformatiska programmet • Empiriskt 10-50 gånger snabbare än motsvarande exakta algoritm

Multipel sekvensinpassning Syftar till att finna homologa positioner i fler än två homologa sekvenser, vanligen för att göra en fylogenianalys I praktiken är de flesta metoderna heuristiska och bygger på progressiv parvis inpassning (Clustal W är ett vida använt verktyg som bygger på denna princip, troligen det näst mest använda bioinformatiska programmet) eller använder ”Profile Hidden Markov Models” (profile HMM) Lineus geniculatusTGGGCTGGGATGAAGGGAAGTATCGTGGGCCCGG Micrura akkeshiensisGGGGCTAGAATGAATGGGA-TAACGAGCCCCCGA Myoisophagus sanguineusGGGGCTAGAATGAAAGAAA-GTTTGAGACCTCAT Myoisophagus versicolorGGGGCTAGAATGAAAGAAA-GTTTGAGACCTCAT Parvicirrus dubiusGGGACTGGAATGAAAGAAA-TTTTGAGGCCTTAA

Fylogenianalys Fylogenier är evolutionär historia som delas av arter eller gener; modelleras nästan alltid som träd Fylogenin är en prediktor för egenskaper hos organismerna Problem Antalet möjliga träd ökar astronomiskt Effektiva algoritmer nödvändiga Informationsöverföringen är självförstörande Modeller för att ”korrigera” data nödvändiga Detta har givit upphov till en uppsjö programvara som implementerar mängder med olika metoder Däggdjur Krokodil Groda Fågel Ödla Orm Fisk http://evolution.genetics.washington.edu/phylip/software.html

Fylogenetiska databaser Primära (datadepåer) och sekundära (analysresultat och tolkningar) databaser Primära databaser innehåller information om resultatet av fylogenianalyser (träd, taxonomiska namn), data och antaganden som analyserna baseras på Sekundära databaser innehåller tolkningar och sammansatta fylogenetiska hypoteser för alla sorters taxa Exempel TreeBase – http://www.treebase.org/treebase/(Primär) Tree of Life – http://phylogeny.arizona.edu/tree/ (Sekundär)

Expressionsmönster Problem: Identifiera regleringsmekanismer och interaktioner för uttrycket av gener i levande celler Funktionell genomik DNA arrayer (cDNA prober på ett chip) används för att skatta RNA nivåer för flera tusen gener på en gång Nivåerna mäts vid successiva tidsintervall efter att någon behandling av cellerna har gjorts

Expressionsmönster Analys Generna grupperas efter expressionsprofil i ett mindre antal hopar Reverse engineering av expressionsnivåerna i dessa grupper används för att föreslå regulatoriska genetiska nätverk (detta är reglerteknik på hög nivå…)

Expressionsdatabaser • Ett stort hinder är att finna ett enhetligt och flexibelt format för att deponera data från DNA-chip • Exempel på expressionsdatabser är • Gene Expression Omnibus – http://www.ncbi.nlm.nih.gov/projects/geo/ • EBI ArrayExpress database – http://www.ebi.ac.uk/arrayexpress/ • KEGG Expression Database – http://www.genome.ad.jp/kegg/expression/

Bioinformatik ?

Bioinformatik ?

Presentation Transcript

„Fortgeschrittene algorithmische Bioinformatik“ Thema: Profile HMMs ein Vortrag von Gunar Maiwald

Bioinformatik hvorfor hvad hvordan

Vorlesung Bioinformatik Teil II

Databasteknik Databaser och bioinformatik Data structures and Indexing (I)

Databasteknik Databaser och bioinformatik Transaction

Databasteknik Databaser och bioinformatik Data structures and Indexing ( II)

Databasteknik Databaser och bioinformatik SQL

Vorlesung Grundlagen der Bioinformatik gobics.de/lectures/ss07/grundlagen

Datenbanken in der Bioinformatik Thorsten Denhard

BIOINFORMATIK I ÜBUNG 3

Softwarewerkzeuge der Bioinformatik

GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

Seminar Fortgeschrittene Algorithmische Bioinformatik Oligodesignprobleme von

Review Bioinformatik

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch

Bioinformatik

V12 Bioinformatik-Tools für HT Proteinanalyse

Proteinquantifizierung Standardisierung Bioinformatik

Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie

Aktuelle Themen der Bioinformatik

Softwarewerkzeuge der Bioinformatik

Proseminar Bioinformatik: Theoretical Analysis of Protein-Protein-Interactions