530 likes | 835 Views
Bioinformacijos duomenų valdymas. Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: damarobe @soften.ktu.lt. Turinys. Biochem. duomenų charakteristikos Bioinformatikos duomenų bazės (DB) Duomenų formatai Duomenų integravimas DB architektūros. Problema.
E N D
Bioinformacijos duomenų valdymas Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: damarobe@soften.ktu.lt
Turinys • Biochem. duomenų charakteristikos • Bioinformatikos duomenų bazės (DB) • Duomenų formatai • Duomenų integravimas • DB architektūros Bioinformatika (B110M100)
Problema • Duomenų organizavimas • Milžiniška duomenų gausybė yra naudinga tik tuomet, jei bus sukurti ir efektyviai naudojami modernūs duomenų paieškos ir apdorojimo įrankiai ir algoritmai • Didžiulių duomenų kiekių skaitmeninis kodavimas, indeksavimas, paieška reikalauja ypač gerų ITžinių ir įgūdžių • IT, ypač internetas, yra naudojamos bioinformacinių duomenų, kurie vėliau yra analizuojami taikant matematinius ir statistinius metodus, rinkimui, saugojimui, platinimui, priėjimui ir naudojimui • Bioinformatika naudoja taikomąsias kompiuterines programas kaip įrankius duomenų bazių kūrimui, informacijos organizavimui ir valdymui, saugojimui ir integravimui, reikalingų bioinformacinių duomenų paieškai, analizei ir vizualizavimui Bioinformatika (B110M100)
Biocheminių duomenų požymiai (1) • Sudėtingumas • saugomos didelės sudėtingos duomenų struktūros • Autonomiškumas • naudojamos silpnai susijusios duomenų bazės su intenetine sąsaja, kiekviena turi savo struktūrą ir valdoma atskirai. Daugelis duomenų bazių yra pasenusios ir visai nestruktūrizuotos • Heterogeniniai duomenų formatai • duomenys gali būti saugomi paprastuose duomenų failuose (tekstiniuose, XML, dvejetainiuose), komercinėse struktūrizuotose (reliacinėse) duomenų bazėse arba įprastinėse skaičiuoklėse Bioinformatika (B110M100)
Biocheminių duomenų požymiai (2) • Semantinis heterogeniškumas • Duomenų šaltiniai nesuderinami semantiniame lygmenyje, neturi meta-duomenų aprašo, saugomi panašūs arba persidengiantys duomenys, kurių semantinės apibrėžtys nesutampa. • Dinamiškumas • Duomenys nuolat keičiasi, papildomi naujų tyrimų rezultatais. Keičiasi tiek duomenų bazių turinys, tiek struktūra. Pasirodo naujos duomenų bazės, o kai kurios senos duomenų bazės išnyksta • Duomenų tipų įvairovė • simbolių eilutės tipo nukleotidų sekos, matricos tipo genų išraiškos rezultatai, paveikslėlio tipo mikromatricos duomenys • Eksponentinis duomenų augimas Bioinformatika (B110M100)
Pagrindinės duomenų organizavimo problemos • Duomenų šaltinių semantika, sąsajos ir duomenų formatai skiriasi • Duomenų bazės buvo kuriamos nepriklausomai, todėl jų valdymo sistemos ir duomenų formatai labai skiriasi. • Daugiausiai dėmesio skiriama duomenų organizavimo problemoms ir vartotojo sąsajoms tobulinti • Mažai dėmesio skiriama duomenų valdymo problemoms, užklausų kalbų tobulinimui, duomenų bazių optimizavimui ir priežiūrai • Duomenų integracija • Tikslas: paversti sudėtingus ir heterogeninius laboratorinių tyrimų duomenis į naudingą, gerai sutvarkytą informaciją ir toliau į sistematizuotas žinias Bioinformatika (B110M100)
Bioinformatikos poreikiai duomenų valdymui • Priėjimas prie naujausių biologinių duomenų ir galimybė surasti reikiamą informaciją atliekant sudėtingas užklausas daugelyje heterogeninių duomenų bazių • Priėjimas prie geriausių duomenų analizės įrankių ir algoritmų skirtų naudingos informacijos išgavimui iš didelio kiekio heterogeninių biologinių duomenų. • Informacijos integravimo architektūra, kuri apjungia įvairius darbo su duomenimis etapus, įskaitant duomenų bazių užklausas, skaičiavimo algoritmus ir taikomąją programinę įrangą Bioinformatika (B110M100)
Bioinformacinių duomenų bazės (1) • Duomenų bazė: organizuotas (sutvarkytas) duomenų rinkinys, kuriuo galima individualiai naudotis elektroniniu ar kitu būdu • Gali būti vienas failas, talpinantis daug įrašų, kurių kiekvienas turi tokią pačią informacijos struktūrą • Dažniausiai susietos su specialia programa (Duomenų bazių valdymo sistema - DBVS) skirta atnaujinti, ieškoti ir atrinkti saugomus duomenis Bioinformatika (B110M100)
Bioinformacinių duomenų bazės (2) • 2006 m. duomenimis yra žinoma virš 1000 bioinformacinių duomenų bazių, kuriuose pateikiami • genomikos ir proteomikos duomenys, • genų nukleotidų sekos, • baltymų amino rūgščių sekos, • informacija apie genų funkciją, struktūrą ir vietą chromosomoje, • klinikiniai mutacijų rezultatai, • panašumus į kitas biomolekulinės sekas. Bioinformatika (B110M100)
Reikalavimai duomenų bazėms • Kuo paprastesnis kreipimasis (sąsaja) į duomenų bazę • Turi būti realizuotas metodas, kuris atrinktų geriausią informaciją į vartotojo (specifinius) užklausimus. Bioinformatika (B110M100)
Bioinformacinių duomenų bazių tipai • Viešos ir privačios (tarnybinės stotys, paieškos programos, bioinformatikos įrankiai) • Pirminės (saugomi „žali“ duomenys) ir antrinės (saugoma informacija gauta apdorojant „žalius“ duomenis) • Nesidubliuojančios (saugo tik skirtingus duomenų įrašus) • Makromolekulių (DNR sekos, amino rūgščių sekos, baltymų trimatės struktūros) ir mažų molekulių • Orientuotos tekstui (bibliografinės (straipsnių), taksonominės) Bioinformatika (B110M100)
Duomenų bazės (1) • Nukleorūgščių (DNR, RNR) sekų bankai - saugoma visa šiuo metu turima informacija apie gyvųjų organizmų biomolekulinės sekas. • Genomų sekų bankai. • Baltymų sekų bankai. • Genomo naršyklės – leidžia peržiūrėti anotuotus genų prognozavimo ir struktūros, baltymų, ir lyginamosios analizės duomenis. • Specializuotos duomenų bazės. Bioinformatika (B110M100)
Duomenų bazės (2) Metabolinių kelių duomenų bazės. Baltymų struktūros duomenų bazės. Mikromatricų duomenų bazės. Baltymų-baltymų sąveikos duomenų bazės. Metaduomenų bazės yra duomenų bazės, kurios renka informaciją iš įvairių šaltinių ir pateikia ja patogesne forma. Bioinformatika (B110M100) 13
Duomenų formatai • Amino rūgščių sekos, baltymų struktūros paveikslėliai, trimačių struktūrų skirtingi vaizdai ir baltymų hidrofobiškumo duomenys, ir kt. • Nukleotidų arba amino rūgščių sekų formatai • Kiekviena seka simbolizuoja atitinkamai tam tikrą geną ar baltymą. • Sekos sudaromos naudojant vienos raidės pažymėjimus. • Tai sumažina saugomos informacijos kiekį ir pagreitina sekos analizę. Bioinformatika (B110M100)
Nukleotidų sekų DB įrašas • Ryšio tipas • Įvesties seka, kartu su molekulės tipo aprašymu • Šaltinio (organizmo), iš kurio ji buvo išskirta mokslinis pavadinimas • Literatūros nuorodos apie seką Bioinformatika (B110M100)
FASTA duomenų formatas • Tekstinis duomenų formatas skirtas nukleorūgščių sekų arba baltymų sekų atvaizdavimui. • Seka prasideda aprašymo eilute (prasideda „>“ simboliu). • Pirmas žodis po „>“ simbolio yra sekos pavadinimas. • Toliau eilutėje yra sekos aprašymas (nebūtinas). • Sekančiose eilutėse pateikiama pati seka. • Nukleotidai ir amino rūgštys yra žymimos vienos raidės kodu. • Sekos pabaiga laikomas kitas „>“ simbolis. • Komentarų eilutės pradedamos kabliataškio (;) simboliu. • Eilučių ilgis turi neviršyti 80 simbolių. Bioinformatika (B110M100)
FASTA pranašumai • Pranašumai: • Paprastumas • Duomenų apdorojimui galima naudoti teksto apdorojimo įrankius ir scenarijų kalbas, pvz., Perl. Bioinformatika (B110M100) 17
FASTA: pavyzdys Bioinformatika (B110M100)
FASTA aprašymo eilutės standartai Bioinformatika (B110M100)
FASTA sekos užrašymo formatas • Sekos yra užrašomos naudojant standartinius IUB/IUPAC amino rūgščių ir nukleorūgščių kodus su šiomis išimtimis: • mažosios raidės taip pat naudojamos; • minusas (-) reiškia spragą (praleidimą) sekoje; • žvaigždutė (*) reiškia transliavimo pabaigą; • X reiškia bet kokią amino rūgštį; • skaičiai kai kuriuose duomenų bazėse naudojami vietai sekoje parodyti. Bioinformatika (B110M100)
FASTA formato nukleorūgščių kodai Bioinformatika (B110M100)
FASTA formato amino rūgščių kodai Bioinformatika (B110M100)
Kiti duomenų formatai • EMBL • GCG • GCG-RSF • GenBank • IG • Genomatix Bioinformatika (B110M100)
EMBL formatas • Faile gali būti kelios sekos • Sekos aprašas pradedamas žodžiu ID, po kurio eina sekos aprašas • Seka pradedama eilute, kuri prasideda žodžiu SQ. • Sekos pabaiga žymima // Bioinformatika (B110M100)
EMBL formato pavyzdys ID AB000263 standard; RNA; PRI; 368 BP. XX AC AB000263; XX DE Homo sapiens mRNA for prepro cortistatin like peptide, complete cds. XX SQ Sequence 368 BP; acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg 60 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg 120 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc 180 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag 240 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga 300 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca 360 gacctgaa 368 // Bioinformatika (B110M100)
GCG formatas • Panašus į EMBL formatą • Sekos pradžia žymima dvejais taškais “..” • Taip pat pateikiamas sekos numeris, sekos ilgis ir kontrolinė suma Bioinformatika (B110M100)
GCG formato pavyzdys ID AB000263 standard; RNA; PRI; 368 BP. XX AC AB000263; XX DE Homo sapiens mRNA for prepro cortistatin like peptide, complete cds. XX SQ Sequence 368 BP; AB000263 Length: 368 Check: 4514 .. 1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg 61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg 121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc 181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag 241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga 301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca 361 gacctgaa Bioinformatika (B110M100)
GenBank formatas • Faile gali būti kelios sekos • Sekos aprašymas pradedamas žodžiu LOCUS, po kurio pateikiamas sekos numeris, ilgis, tipas ir registravimo data • Po žodžio DEFINITION pateikiamas aprašymas natūralia kalba • Po žodžio ACCESSION – prieigos numeris duomenų bazėje • Seka pradedama žodžiu ORIGIN ir baigiama // Bioinformatika (B110M100)
GENBank formato pavyzdys LOCUS AB000263 368 bp mRNA linear PRI 05-FEB-1999 DEFINITION Homo sapiens mRNA for prepro cortistatin like peptide, complete cds. ACCESSION AB000263 ORIGIN 1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg 61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg 121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc 181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag 241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga 301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca 361 gacctgaa // Bioinformatika (B110M100)
IG formatas • Viename faile gali būti kelios sekos • Komentarų eilutės pradedamos kabliataškiu “;” • Seka pradedama sekos numeriu • Seka baigiama skaitmeniu 1 arba 2 Bioinformatika (B110M100)
IG formato pavyzdys ; komentaras AB000263 ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCC CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAGGAAAAGCAGC CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGG AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCGGGACAGAATGCC CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGAATGCTCACGCAAG TTTAATTACAGACCTGAA1 Bioinformatika (B110M100)
Bioinformatikos duomenų integravimo sprendimai (1) • I karta – mažos, greitai sukurtos programėlės skirtos duomenų konvertavimui iš vieno formato į kitą. • Įrankiai: Perl ir kitos panašios scenarijų kalbos. • Trūkumai: • blogai pritaikomos prie kito konteksto • reikia žinoti DB struktūrą ir duomenų formatus • neefektyvu ir nepritaikoma dideliam kiekiui duomenų šaltinių • DB pakeitus savo duomenų formatą reikia perrašyti visas šį formatą naudojančias programas Bioinformatika (B110M100)
Bioinformatikos duomenų integravimo sprendimai (2) • II karta – duomenų integravimo architektūros. • Skirstomos į tris kategorijas: • duomenų saugyklos, • paskirstytos (federacinės) duomenų bazės, • tarpininko architektūra. • Pranašumai: • struktūrizuota aplinka, • lankstus ir priderinamas duomenų integravimas Bioinformatika (B110M100)
Reikalavimai duomenų integravimo sistemai • Reikiamų duomenų parsiuntimas iš daugelio atskirų duomenų šaltinių • Parsiųstų duomenų transformavimas į integravimui tinkamą duomenų modelį • Duomenų modelis skirtas integruotų duomenų objektų pateikimui galutiniams vartotojams • Aukšto lygmens kalba skirta sudėtingų užklausų daugeliui duomenų šaltinių formulavimui ir duomenų transformavimo užduotims atlikti • Užklausų optimizavimo valdymas Bioinformatika (B110M100)
Duomenų integravimo sprendimai (1) • Priėjimas prie duomenų: • per užklausas (papildomai atliekamos duomenų transformacijos) • naršant (tik suradimas ir parsiuntimas) • Priėjimo realizavimas: • deklaratyvus • procedūrinis • Priėjimo kodas: • bendrinis • atskirai programuojamas kiekvienam duomenų šaltiniui Bioinformatika (B110M100)
Duomenų integravimo sprendimai (2) • Sprendžiama problema: • semantinis heterogeniškumas (skirtinga prasmė) • sintaksinis heterogeniškumas (skirtingi formatai) • Integravimo modelis: • duomenų saugyklos • federacinis • Duomenų modelis: • reliacinis • nereliacinis Bioinformatika (B110M100)
Duomenų saugyklos • Naudojant duomenų saugyklomis grįstą duomenų integravimo metodą, duomenų šaltiniai yra integruojami į centralizuotą sistemą su • globalia duomenų schema (duomenų schema aprašo duomenų bazėje saugomų duomenų komponentus ir ryšius tarp jų) ir • indeksavimo sistema, skirta duomenų paieškai ir atrinkimui. • Populiariausių duomenų saugyklų valdymui naudojamosreliacinėsduomenų bazių valdymo sistemos • Reliacinis – pagrįstas lentelėmis Bioinformatika (B110M100)
Reliacinės duomenų bazių valdymo sistemos (DBVS) • Naudoja standartinę užklausų sudarymo kalbą SQL • Užklausų konvertavimą ir gautų rezultatų integravimą atlieka įvyniojimo komponentai (wrappers) • Pranašumai: • didelė branda, patikimumas, struktūriškumas, • paprasta priežiūra, • duomenys lengvai prieinami be interneto delsos arba tinklo pralaidumo apribojimų. Bioinformatika (B110M100)
Reliacinės duomenų bazių valdymo sistemos (DBVS) • Trūkumai: • Dideli duomenų saugojimo, priežiūros ir atnaujinimo kaštai. • Prieš įvedant duomenis reikia atlikti kruopščią jų peržiūrą, kad išvengti galimų duomenų klaidų, pasikartojimų arba semantinio nesuderinamumo • Sudėtingiems duomenis atvaizduoti geriau tinka hierarchiniai nereliaciniai modeliai, pvz., lizdiniai modeliai Bioinformatika (B110M100) 39
Pagr. duomenų saugyklų bruožai • Orientuotos į konkrečia sritį. • Kinta laike • duomenys turi būti reguliariai atnaujinami. • Statiniai duomenys • duomenys niekada neištrinami arba perrašomi. • Integruoti duomenys • apjungiami visi tam tikros srities duomenys. Bioinformatika (B110M100)
Duomenų saugyklos architektūra Bioinformatika (B110M100)
Duomenų saugyklų įvertinimas (1) • Pranašumai: • Galimybė filtruoti duomenis, kadangi duomenų saugykloje yra sukuriama ir saugoma nepriklausoma duomenų kopija • Galima pagerinti duomenų struktūrą • Duomenų užklausos vykdomos greičiau, kadangi visi duomenys yra vienoje vietoje • Interneto tinklai apkraunami tik atliekant duomenų atnaujinimą • Duomenų šaltinių pasikeitimai tiesiogiai neįtakoja duomenų saugyklos prieinamumo Bioinformatika (B110M100)
Duomenų saugyklų įvertinimas (2) • Trūkumai: • daug resursų reikalaujanti priežiūra, kadangi reikia palaikyti nufiltruotą ir transformuotą nutolusių duomenų šaltinių duomenų kopiją • Duomenys turi būti atnaujinami pakankamai dažnai, kad užtikrinti vartotojų priėjimą prie naujausių duomenų • Naujo duomenų šaltinio pridėjimas reikalauja daug duomenų persiuntimo, apdorojimo ir priežiūros darbo, todėl šis metodas realiai naudojamas tik nedidelio skaičiaus duomenų šaltinių, kurie keičiasi retai, integravimui Bioinformatika (B110M100)
Paskirstytos (federacinės) DB • Meta DB, kuri logiškai apjungia daug DB į federacinę DB • Resursai apjungiami logiškai ir gali apimti paprastus tekstinius failus, skaičiuokles, ir duomenų analizės įrankius • Suteikia savo vartotojams vieningą sąsają, per kurią vartotojai gali ieškoti ir parsisiųsti duomenis iš atskirų DB • Nereikia centralizuotos DB, todėl duomenų šaltiniai išlieka autonominiai • Bendras duomenų modelis ir schemų atvaizdavimo taisyklės • Skirtingus schemos komponentus valdo duomenų žodynas • Heterogeninių duomenų šaltinių integravimui dažnai naudojamas ne reliacinis, o objektinis modelis Bioinformatika (B110M100)
Federacinės DB tipinė architektūra Bioinformatika (B110M100)
Pagrindiniai federacinių sistemų bruožai • Autonominiai duomenų šaltiniai. • Heterogeniniai duomenų šaltiniai. • Nutolę duomenų šaltiniai. • Duomenų šaltiniai valdomi nepriklausomai vienas nuo kito. • Duomenys integuojami logiškai (ne fiziškai). • Vieninga vartotojo sąsaja. Bioinformatika (B110M100)
Federacinės DB problemos (1) • Užklausų charakteristikos • Užklausos apdorojimo greitis ne didesnis kaip lėčiausios DB užklausos apdorojimo greitis. • Priklausomybė nuo autonominių duomenų šaltinių • Duomenų šaltiniai keičiasi greitai ir nenuspėjamai. Federacinės DBVS turi greitai reaguoti į tuos pasikeitimus • Augimas • Pridedant naujus duomenų šaltinius federacinės DB architektūra tampa sudetingesnė, išauga tinklo apkrova, atsiranda duomenų integravimo problemų, mažėja užklausos apdorojimo greitis. • Kaštai • Naudojant federacinę DB sutaupoma nemažai kaštų, nes nereikia sukurti atskiros duomenų saugyklos ir jos valdymo sistemos Bioinformatika (B110M100)
Federacinės DB problemos (2) • Duomenų naujumas • Nedelsiant prieinami visi nauji duomenys iš nutolusių duomenų bazių, todėl vartotojai gali laiku gauti visus naujausius duomenis. • Schemų evoliucija • Duomenų šaltinių duomenų schemos gali be jokio įspėjimo pasikeisti, todėl DB priežiūros personalas turi greitai aptikti ir reaguoti į tokius pasikeitimus. • Techniniai sugebėjimai • Priklausomai nuo architektūros apimties ir sudėtingumo, jos sukūrimui ir priežiūrai reikia daug techninių žinių • Duomenų dubliavimasis • Sumažina duomenų dubliavimą. Duomenys nėra kopijuojami ir saugomi atskirai, o tik integruojami ir perduodami vartotojui Bioinformatika (B110M100)
Federacinių DB įvertinimas • Pranašumai: • Užtikrinamas priėjimas prie pačių naujausių duomenų • Naujo duomenų šaltinio pridėjimas ir priežiūra nereikalauja daug darbo, todėl šis metodas gali būti naudojamas didelio skaičiaus duomenų šaltinių apjungimui • Gali būti naudojama duomenų šaltinių, kurių duomenų negalima lengvai nukopijuoti į duomenų saugyklą (pvz., interneto puslapių), apjungimui • Nereikia modifikuoti pirminėse DB saugomų duomenų. • Pagrindinis trūkumas: • užklausų apdorojimas, kai kurie federacijos nariai neprieinami Bioinformatika (B110M100)
Tarpininko architektūra • Naudoja tarpinį apdorojimo lygmenį, kuris atskiria heterogeninius paskirstytus duomenų šaltinius ir vartotojo lygmenį • Tarpininko lygmenį sudaro komponentai, kurių vienintelis tikslas yra atlikti duomenų transformavimą ir integravimą • Integravimo sistema turi turėti bendrą duomenų modelį, kuris turi apimti įvairius duomenų formatus (tekstinius, XML, HTML) ir duomenų modelius (reliacinis, objektinis, lizdinis) • Be integravimo funkcijos, tarpininko lygmuo atlieka filtravimo, metaduomenų tvarkymo, semantinio nesuderinamumo išsprendimo funkcijas Bioinformatika (B110M100)