630 likes | 1.05k Views
Ievads bioinformātikā. Nils Rostoks Latvijas Universitāte Bioloģijas fakultāte. Jā, esmu jau kaut ko līdzīgu redzējis, bet nezinu kā to izdarīt ar saviem datiem. Ko šī dendrogramma nozīmē? Uz ko norāda dažādās grupas? Vai zaru garumiem ir kāda nozīme?
E N D
Ievads bioinformātikā Nils Rostoks Latvijas Universitāte Bioloģijas fakultāte
Jā, esmu jau kaut ko līdzīgu redzējis, bet nezinu kā to izdarīt ar saviem datiem. Ko šī dendrogramma nozīmē? Uz ko norāda dažādās grupas? Vai zaru garumiem ir kāda nozīme? Dendrogramma balstīta uz dominantiem DArT molekulāro marķieru datiem un veidota izmantojot Neighbour-Joining metodi balstoties uz Jaccarddissimilarity indeksu un 1000 bootstrap soļiem. Ko tas nozīmē? Vai izmantotā metode atbilst datu veidam? Kādus secinājumus drīkst izdarīt balstoties uz šiem datiem un izmantoto metodi? Mikrobioloģijas un biotehnoloģijas katedra
Kas ir bioinformātika? Bioinformatics derives knowledge from computer analysis of biological data. These can consist of the information stored in the genetic code, but also experimental results from various sources, patient statistics, and scientific literature. Research in bioinformatics includes method development for storage, retrieval, and analysis of the data. Bioinformatics is a rapidly developing branch of biology and is highly interdisciplinary, using techniques and concepts from informatics, statistics, mathematics, chemistry, biochemistry, physics, and linguistics. It has many practical applications in different areas of biology and medicine M. Nilges, J.P. Linge, InstitutPasteur Mikrobioloģijas un biotehnoloģijas katedra
Kas ir bioinformātika? Bioinformatics: Research, development, or application of computational tools andapproaches for expanding the use of biological, medical, behavioral or health data,including those to acquire, store, organize, archive, analyze, or visualize such data. Computational Biology: The development and application of data-analytical andtheoretical methods, mathematical modeling and computational simulation techniquesto the study of biological, behavioral, and social systems NIH BiomedicalInformationScience andTechnologyInitiativeConsortium Mikrobioloģijas un biotehnoloģijas katedra
Kas ir bioinformātika? Bioinformatics is the field of science in which biology, computer science, and information technology merge to form a single discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html Mikrobioloģijas un biotehnoloģijas katedra
Kas ir bioinformātika? • Kāpēc vajadzīgs vēl viens kurss, ja ir jau bijuši kursi “Bioloģija Internetā”, “Datormācība”, “Biometrija”? • Bioinformātika ir atšķirīga. Lai gan terminoloģiski tā nozīmē jebkuras bioloģiskās informācijas analīzi, ar šo jēdzienu parasti saprot ļoti specifisku bioloģisko informāciju Piemēram, priežu mežs Kolkā... • Var saskaitīt kokus, nomērīt to augstumu, stumbra diametru. Tā ir biometrija • Var veikt eksperimentu audzējot priežu stādus vidē ar kontrolētu sāls daudzumu un pētīt to atbildes reakciju. Tā ir augu fizioloģija • Var analizēt priežu genomu un tā kodētos proteīnus. Tā ir bioinformātika Mikrobioloģijas un biotehnoloģijas katedra
Kursa apjoms • 2 kredītpunkti • 12 lekcijas • Patstāvīgais darbs (uzdevumu risināšana) • 2 semināri (uzdevumu risinājumu prezentēšana) • Gala pārbaudījums – eksāmens • Gala vērtējums = 50% uzdevums + 50% eksāmens Mikrobioloģijas un biotehnoloģijas katedra
Lekciju saraksts Mikrobioloģijas un biotehnoloģijas katedra
Mācību plāns I • Bioloģiskā informācija - tās daudzveidība un apjoms • Bioloģija, statistika, informācijas tehnoloģijas un programmēšana kā bioinformātikas pamatelementi • Genomu organizācija un evolūcija • Salīdzinošā genomika • Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Mikrobioloģijas un biotehnoloģijas katedra
Mācību plāns II • Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi. Dažādas salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi • Filoģenētika. Klāsteru un kladistiskās metodes filoģenētisko koku rekonstruēšanā • Genoma ekspresijas analīze • DNS čipi genomu polimorfisma analīzē. Gēnu ekspresijas ģenētika Mikrobioloģijas un biotehnoloģijas katedra
Mācību plāns III • DNS topoloģija, proteīnu struktūra, tās paredzēšanas metodes un pielietojums farmakoloģijā • Proteomika un sistēmu bioloģija. Tīklveida struktūras kā bioloģisko sistēmu dabiska sastāvdaļa • Bioinformātikas perspektīvas. Bioinformātika kā priekšnosacījums modernās bioloģijas apgūšanai Mikrobioloģijas un biotehnoloģijas katedra
Mācību materiāli I • Lekcijas • Lesk AM (2008) Introduction to Bioinformatics. 3rd ed. OxfordUniversityPress, NewYork, USA • Lesk AM (2005) Introduction to Bioinformatics. 2nd ed. OxfordUniversityPress, NewYork, USA • Higgs PG, Attwood TK (2006) Bioinformaticsandmolecularevolution. BlackwellPublishing, Malden, USA, Oxford, UK • Claverie, Jean-MichelBioinformaticsfordummies 2003 LUB:Biologijas-zin.-bibl.,LUB:Centr.bibl.-krājums • Higgs, Paul G. Bioinformaticsandmolecularevolution 2005 LUB:Biologijas-zin.-bibl.,LUB:Juridisko-zin.-bibl. • Mount, David W. Bioinformatics 2001 LUB:Centr.bibl.-krājums Mikrobioloģijas un biotehnoloģijas katedra
Mācību materiāli II • Interneta resursi: http://plantgenetics.lu.lv Mikrobioloģijas un biotehnoloģijas katedra
http://plantgenetics.lu.lv Mikrobioloģijas un biotehnoloģijas katedra
Mācību materiāli III • Interneta resursi: http://www.ebi.ac.uk/2can/home.html http://www.ncbi.nlm.nih.gov/Education/index.html http://bioinformatics.oxfordjournals.org/ Mikrobioloģijas un biotehnoloģijas katedra
Bioinformātika • Bioinformātika ir zinātne, kas analizē informāciju, kas ietverta dzīvo organismu genomā • Ģenētiskā informācija (DNS secība) ir diskrēta, ne velti tās aprakstīšanai tiek lietoti datorzinātņu terminoloģija • Bioinformātika ir bioloģijas, statistikas, informāciju tehnoloģijas un programmēšanas sintēze Mikrobioloģijas un biotehnoloģijas katedra
Digitālais cilvēka genoms • Diploīds genoms – apmēram 6 x 109bp • Viena nukleotīda kodēšanai binārā formā nepieciešami vismaz 2 biti: A = 00, C = 01, G = 10, T = 11 • 8 biti = 1 baits • 1 baits var kodēt 4 nukleotīdus • Diploīds cilvēka genoms binārā formā ir 1.5 x 109 baiti (tikpat cik MS Windows XP operētājsistēma) http://www.tmsoft.com/article-genome.html Mikrobioloģijas un biotehnoloģijas katedra
Kursa mērķis • Sniegt priekšstatu par bioinformātikas metodēm, tā lai lasot zinātnisko literatūru, jūs varētu skaidri stādīties priekšā, kādā veidā dati tika iegūti un analizēti. Protams, daudzas bioinformātikas jomas būs pārāk sarežģītas, lai tās padziļināti apskatītu šajā kursā • Iemācīt pamatmetodes molekulāro sekvenču analīzē, salīdzināšanā un datu bāzu darbībā Mikrobioloģijas un biotehnoloģijas katedra
Ģenētiskās informācijas nesēja ir DNS • DNS ir (gandrīz) universāla ģenētiskās informācijas nesēja - 1944. gads (Oswald T. Avery un Colin M. MacLeod) • Pirmā rekombinantā DNS molekula – 1972. gads (Paul Berg) • Pirmā pilnā genoma secība – 1980. gads (vīruss FX174) Mikrobioloģijas un biotehnoloģijas katedra
Datorprogrammas DNS sekvences analīzei Mikrobioloģijas un biotehnoloģijas katedra
Genomā ietvertā informācija nosaka organisma identitāti ... vismaz baktērijās ... Mikrobioloģijas un biotehnoloģijas katedra
Genoma transplantēšana baktērijās Mikrobioloģijas un biotehnoloģijas katedra
Pilna baktērijas genoma ķīmiskā sintēze Mikrobioloģijas un biotehnoloģijas katedra
Baktēriju genomu inženierija Mikrobioloģijas un biotehnoloģijas katedra
DNS sekvenēšana • Divas metodes 1975. - 1977. gadā (AllanMaxam un WalterGilbert, FrederickSanger) “Thesechemicalprocedures ... soonallowedtheentiresequence of theplasmidcloningvector pBR322 (4362 bp) to beworkedoutby a singlescientistinonlyoneyear.” MolecularBiologyoftheGeneIVthed. 1987 Mikrobioloģijas un biotehnoloģijas katedra
Automatizētā DNS sekvenēšana ASV Enerģijas departamenta Apvienotais genoma institūts (DoEJointGenomeInstitute, www.jgi.doe.gov Mikrobioloģijas un biotehnoloģijas katedra
Genoma sekvenēšanas centri Mikrobioloģijas un biotehnoloģijas katedra
DNS sekvenču pieaugums GenBank Mikrobioloģijas un biotehnoloģijas katedra
DNS sekvences un Mūra likums Mūra likums – tranzistoru skaits datoru procesoros katru gadu dubultojas Gan DNS sekvenču, gan tranzistoru skaita pieaugums uz datoru mikroshēmām ir eksponenciāls Mikrobioloģijas un biotehnoloģijas katedra
Sekvenēšanas izmaksas http://www.nsf.gov/news/speeches/colwell/rc03_dallas/sld016.htm Mikrobioloģijas un biotehnoloģijas katedra
Nextgenerationsequencing • Līdz šim dotā statistika raksturo Sangerasekvenēšanu – sekvenēšana ar sintēzi izmantojot fluorescenti iezīmētus didezoksinukleotīdu terminatorus • Nextgenerationsequencing balstās uz citiem principiem • NGS ir apkopojošs nosaukums vairākiem atšķirīgiem sekvenēšanas protokoliem • 454 (Roche), ABI Solid, IlluminaSolexa, HelicosHeliScope • SchendureandHanlee (2008) Next-generation DNA sequencing. NatBiotech 26:1135 Mikrobioloģijas un biotehnoloģijas katedra
454 (Roche) GS FLX Titanium Mikrobioloģijas un biotehnoloģijas katedra
Illumina (Solexa) GenomeAnalyzer Mikrobioloģijas un biotehnoloģijas katedra
Indivīda genoma sekvence • Cilvēka genoma projekts (1990. – 2003.) noteica pilnu cilvēka genoma sekvenci, taču tā ir dažādu indivīdu genomu hibrīds • Levyetal. (2007) The diploidgenomesequence of an individualhuman.PLoSBiol5:e254 Mikrobioloģijas un biotehnoloģijas katedra
1000 genomu sekvences • The Genomes Project (2010) A map of human genome variation from population-scale sequencing. Nature 467: 1061-1073 Mikrobioloģijas un biotehnoloģijas katedra
Genoma sekvence un medicīna • Genoma sekvenēšanas tehnoloģijas virzās uz priekšu ātrāk nekā medicīniskā ģenētika un molekulārā bioloģija • Genoma sekvenēšana ir (gandrīz) rutīna, bet ko nozīmē atklātā ģenētiskā daudzveidība mēs nezinām • Bioinformātikas uzdevums ir ne tikai veicināt genomu sekvences iegūšanu, bet arī to funkcionālo anotāciju Mikrobioloģijas un biotehnoloģijas katedra
Bioloģija, statistika, informācijas tehnoloģijas un programmēšana kā bioinformātikas pamatelementi
Bioinformātikas pētījumu objekts • Genoma nukleotīdu secības (DNS/RNS) (genomika) • Genoma ekspresija (dažādu RNS veidu analīze) (transkriptomika) • Genoma kodētie proteīni (proteomika) • Šūnas veidotie metabolīti (metabolomika) • Mijiedarbības dažādu objektu starpā (sistēmbioloģija) Mikrobioloģijas un biotehnoloģijas katedra
Eksperimentālās bioloģijas metodes un bioinformātika • Eksperimentālās metodes, kas nepieciešamas dažāda līmeņa bioloģiskās informācijas iegūšanai ir ļoti dažādas: Genomika – molekulārā klonēšana un sekvenēšana Proteomika – rentgenstaru struktūra, kodola magnētiskā rezonanse . . . • Bioinformātika apkopo un organizē datus, kas iegūti ar šīm dažādajām metodēm, kā arī ļauj iegūt padziļinātas zināšanas par šo datu fundamentālo saistību Mikrobioloģijas un biotehnoloģijas katedra
Bioloģija, statistika, programmēšana, informāciju tehnoloģijas 1. Aprakstošā informācija par dzīvo dabu un vidi – ekoloģija, morfoloģija, taksonomija... 2. Eksperimentālā informācija par dzīvajiem organismiem - genomika, proteomika, transkriptomika... Datu bāzes IT infrastruktūra un DB programmēšana Jaunu algoritmu izstrāde Jaunu programmu izstrāde Datu analīzes un apstrādes metodes – statistika, informātika, informāciju tehnoloģijas Mikrobioloģijas un biotehnoloģijas katedra
Bioloģija • Bioloģija ir bioinformātikas pamats Bioinformātikas funkcija ir veicināt bioloģisko procesu izpratni, integrēt esošos datus viegli pieejamās datu bāzēs un tādējādi atvieglot to analīzi izmantojot jaunas analītiskās metodes Mikrobioloģijas un biotehnoloģijas katedra
Bioloģiskās informācijas plūsma DNS RNS Proteīni Šūna Organisms Populācija Suga Mikrobioloģijas un biotehnoloģijas katedra
Statistika • Bioinformātikas neatņemama sastāvdaļa. Visu kursa gaitā pieminēto analītisko metožu pamatā ir dažādas statistikas metodes • Statistika nepieciešama visos genoma analīzes etapos Piemēram, genoma sekvences noteikšanai, kad no daudziem nelieliem DNS secības gabaliņiem tiek rekonstruēta pilna genoma secība • Statistikas mācīšana nav šī kursa uzdevums, bet dažas metodes tiks pieminētas Mikrobioloģijas un biotehnoloģijas katedra
Statistikas funkcija bioinformātikā • Statistika ļauj novērtēt vai novērotā parādība (analīzes gaitā iegūtie rezultāti) ir nozīmīgi Vai starp divām dažādu gēnu DNS/aminoskābju secībām novērotā homoloģija ir statistiski nozīmīga? Vai gēnu struktūras paredzēšanas programmas piedāvātais sadalījums intronos – eksonos ir nozīmīgs? Vai novērotā atšķirība gēnu ekspresijas līmeņos starp kontroles un slimības paraugiem ir nozīmīga? • Statistiskā nozīmība automātiski nenozīmē, ka novērotajai parādībai ir bioloģiska jēga Mikrobioloģijas un biotehnoloģijas katedra
Statistikas īpatnības bioinformātikas kontekstā • Datu veids – DNS un proteīnu sekvences (kvantitatīvi diskrēti dati), gēnu ekspresijas dati (kvantitatīvi nepārtraukti dati), proteīnu struktūras • Datu apjoms – miljardiem bāzu pāru, miljoniem gēnu ekspresijas mērījumu • Eksaktās metodes ir precīzas, bet reizēm var būt pārāk laikietilpīgas pat izmantojot modernāko IT infrastruktūru • Eksperimentālo datu ieguve ir dārga, tāpēc nereti tiek strādāts ar nelielu bioloģisko atkārtojumu skaitu Mikrobioloģijas un biotehnoloģijas katedra
Informācijas tehnoloģijas • Datori ir nepieciešama bioinformātikas daļa • Līdzko datori vispār parādījās, tie nekavējoties tika pielietoti bioinformātikā • Bioloģiskās informācijas apjoms ir milzīgs un tās uzglabāšanai un apstrādei ir nepieciešamas pašas jaunākās informācijas tehnoloģijas Mikrobioloģijas un biotehnoloģijas katedra
Datori un sekvences Mikrobioloģijas un biotehnoloģijas katedra
Datortehnika http://www.theregister.co.uk/2009/05/01/s100 Mikrobioloģijas un biotehnoloģijas katedra