540 likes | 1.25k Views
Bioinformacinė ląstelės ir genetinio kodo samprata. Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: damarobe @soften.ktu.lt. Informacijos samprata. Informacijos apibrėžimai: Žmogaus suvoktas objekto turinys, esamo pasaulio atspindys
E N D
Bioinformacinė ląstelės ir genetinio kodo samprata Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: damarobe@soften.ktu.lt
Informacijos samprata • Informacijos apibrėžimai: • Žmogaus suvoktas objekto turinys, esamo pasaulio atspindys • Žinių apie kokius nors faktinius duomenis visuma • Žinių loginis rinkinys, padedantis pasiekti tam tikrą tikslą • Iš anksto nežinomas pranešimas, perduodamas ryšio kanalu (informacijos teorija) • Matavimo vienetas: • dvejetainis bitas (viena iš 2 galimų sistemos būsenų) Bioinformatika (B110M100)
Informacijos savybės • Informacija turi turinį, šaltinį ir adresatą • Informacijai netinka adityvumo (sudėties) principas, t.y. jei gauname tą pačią informaciją iš dviejų šaltinių, jos nebus dvigubai daugiau. • Informacijai netinka komutatyvumo (perstatymo) principas, t.y. informacija turi būti pateikiama tam tikra tvarka • Informacijos turinys nepriklauso nuo jos saugojimo būdų (laikmenų), taip pat nuo pateikimo formos.
Informacijos kiekio matavimas (1) • Jeigu pranešime yra n simbolių, kiekvienas iš kurių gali įgyti m reikšmių, tai pranešimą koduojančios struktūros informacinė talpa yra: • Informacinė talpa rodo maksimaliai galimą perduoti informacijos kiekį pranešime. • Pvz., liet. abecėlėje yra 32 raidės, o 1 psl. telpa 1600 simboliai, vadinasi 1 psl. teksto gali būti 8kb informacijos Bioinformatika (B110M100)
Informacijos kiekio matavimas (2) • Realiai perduodamas ar priimamas informacijos kiekisbūna mažesnis, nes pranešimo simbolių tikimybės nebūna lygios • Tada informacijos kiekio įvertinimui gali būti naudojama informacijos entropija H, kuri suprantama kaip panaikintas atsitiktinio kintamojo būsenos neapibrėžtumo dydis (Šenono (Shannon) formulė): pjyra būsenos (pranešimo simbolio) tikimybė. Bioinformatika (B110M100) 5
Informacijos entropijos reikšmė • Pvz.: turime vieną simbolį, kuris gali įgyti vieną iš 2 reikšmių (0 arba 1) • Entropija yra maksimali, kai tų reikšmių tikymybės yra lygios, t.y. mes negalime nuspėti tos reikšmės • Jeigu reikšmę galima prognozuoti, entropija artėja į nulį • Entropijos skaičiavimas yra svarbus ieškant funkciškai prasmingų DNR sekų fragmentų
Informacijos vaidmuo • Sisteminis požiūris: • Informacija įgyja prasmę tik tam tikroje sistemoje, kur šaltinis ir adresatas keičiasi pranešimais • Informacijos funkcija • Sistemų valdymas, t.y. medžiagų, energijos virsmų bei informacijos srautų nukreipimas reikiamu momentu reikiama kryptimi taip, kad būtų realizuotas sistemos valdymo posistemėje užfiksuotas tikslas bei programa
Organizuotos sistemos samprata • Organizuota sistema • Sistema, kuri apjungia materialiuosius medžiagų bei energijos virsmus ir nematerialiuosius informacinius procesus • Organizuotos sistemos dalys • Medžiagų ir energijos virsmų (valdomoji) posistemė: vyksta medžiagų ir/arba energijos kaita. • Informacinio valdymo posistemė: valdomosios posistemės grandims perduoda informaciją apie tai, kokiu laiko momentu kurios grandys turi atlikti savas funkcijas. Bioinformatika (B110M100)
Organizuotos sistemos schema* *(Kirvelis, 2001) Bioinformatika (B110M100)
Lastelė kaip organizuota sistema* *A. Che. Engineering Biologic Systems
Organizuotos sistemos požymiai • Sudėtinga nustatyti ribas • Atviros sistemos, t.y. negali gyvuoti be aplinkos. • Keičiasi laike • Gali turėti atmintį • Gali turėti hierarchinę struktūrą, t.y jos dalys t.p. gali būti sudėtingos organizuotos sistemos • Ryšys tarp poveikių sistemai ir rezultatų nėra tiesinis • Sistema turi grįžtamuosius ryšius
Organizuotos sistemos • Modelis galioja: • Biosistemoms pradedant nuo ląstelės baigiant sudėtingais daugialąsčiais organizmais • Techninėms sistemoms (pvz., automobilis) • Socialinėms sistemoms (pvz., organizacija, ekonomika)
Informacinis gyvybės modelis • Gyvybė: informacijos kaupimo sistema, o biocheminiai procesai yra tik priemonės informacinėms procedūroms vykdyti. • Evoliucijos eigoje genetinė informacija yra kaupiama didinant bei tobulinant DNR genetinę atmintį, kuri kaupia biologinės raidos informaciją. • Informacinio valdymo struktūros: • Ląstelių veiklą derina hormoninės informacinio valdymo struktūros • Gyvūnai dar turi aukštesnio lygmens nervinį informacinio valdymo posistemį • Smegenų žievėje kaupiama kiekvieno gyvūno individualaus gyvenimo informacija • Valdymo metu informacija yra apdorojama Bioinformatika (B110M100)
Informacijos apdorojimas • Informacijos apdorojimas gali būti suprantamas, kaip informacijos kodavimas-dekodavimas • Kodavimas: • realaus dinaminio proceso būsenų atspindėjimas abstrakčia kodine forma stabilių būsenų atminties struktūroje • Pavyzdys : paveldimos informacijos užrašymas nukleotidų sekomis • Dekodavimas: • stabilių būsenų atspindėjimas realiame dinaminiame procese • Pavyzdys : organizmo vystymasis pagal DNR užkoduotą informaciją Bioinformatika (B110M100)
Informacijos nešiklis ląstelėse • Informacijos nešiklis ląstelių branduoliuose yra DNR (dezoksiribonukleino rūgšties) molekulės, kuriose informacija koduojama nukleotidų išsidėstymu. • Žmogaus genomas yra užrašomas 3,2 milijardais simbolių (kodo abecėlėje yra 4 simboliai), todėl genomo informacijos talpis yra: Q = log2 43200000000 = 6 400 000 000bitų = 763 MB • Realiai informacijos kiekis ląstelėje yra mažesnis dėl perteklinės ir beprasmės informacijos, triukšmo ir pan. • Kai kuriuose virusuose nėra DNR molekulių, o informacijos nešikliai yra RNR molekulės. Bioinformatika (B110M100)
DNR molekulė Bioinformatika (B110M100)
DNRcheminė sudėtis DNR (Deoksiribonukleorūgštis) sudaryta iš heterociklinės azoto bazės ir angliavandenio deoksiribozės, kurie jungiasi į polinukleotidinę grandinę per fosforo rūgšties likutį tam tikru, kiekvienai individualiai DNR specifiniu nuoseklumu. Azoto bazės yra keturios: adeninas (A), guaninas (G), citozinas (C) ir timinas (T). (A) (T) (G) (C) DNR molekulės sudėtinės dalys DNR seka
DNA – the molecule of life http://www.ornl.gov/hgmis
DNR sekos • Prasmė:simboliškai atvaiduoja genetinę informaciją saugomą DNR molekulėje • Sintaksė: 4-raidžių abacėlė { A, C, G, T } • Semantika: daugybė informacijos sluoksnių (lizdinis kodas): • Baltymus koduojantys genai • Reguliatorinės sekos • mRNA sekos atsakingos už baltymų struktūrą • DNR išsukimo kryptį reguliuojančios sekos, ir t.t.. • Virš 95% yra “junk DNA” (biologinė prasmė neaiški)
Kas yra kodas? • Kodas: informacijos pervedimo į kitą formą (formatą) taysyklę • Kodavimas: gautos informacijos perrašymas į simbolius, kuriuos galima perduoti adresatui ryšio linija • Dekodavimas: užkoduotų simbolių transformavimas į gavėjui suprantamą formą • Pvz.: pašto kodas, brūšninis (BAR) kodas, Morzės kodas, kalbos abecėlė, dešimtainiai skaičiai, hieroglifai
Genetinis kodas Informatikoje kodassuprantamas kaip taisyklių rinkinys, lentelė arba algoritmas, pagal kurį vienos sistemos informacija pervedama ar perverčiama (transliuojama) į kito tipo ar kitos sistemos informaciją Genetinis kodas yra taisyklių rinkinys, nusakantis kaip nukleorūgščių (DNR ar RNR) azotinių bazių sekų tvarka užrašyta genetinė seka yra perrašoma į amino rūgščių seką Genetinis kodas užrašo gyvųjų organizmų paveldimą informaciją naudojant 4-ių simbolių nukleorūgščių abėcėlę Baltymų sintezės metu genetinis kodas yra perrašomas (transliuojamas) į 20-ties simbolių baltymų (aminorūgščių)kodą Bioinformatika (B110M100) 22
Genetinio kodo savybės • DNR molekulė turi dvi grandines, bet informacija skaitoma tik nuo vienos grandinės 5'→3' kryptimi. • Kodas naudoja keturis simbolius – A (adeninas), C (citozinas), G (guaninas), T (timinas). RNR molekulėje vietoje timino naudojamas kitas nukleotidas – uracilas (U). • Nukleotidai sudaro „žodžius“, vadinamus kodonais arba tripletais. Kiekvienas kodonas susideda iš 3 nukleotidų ir atitinka tam tikrą aminorūgštį. • Skirtukų tarp žodžių nėra. • iRNR kodonų seka atitinka aminorūgščių seką polipeptidinėje grandinėje • Genetinis kodas yra perteklinis.
DNR/RNR sekų abėcėlės kodai Trijų azotinių bazių linijinė kombinacija - tripletas (arba kodonas) - apsprendžia tam tikrą amino rūgštį baltymo linijinėje struktūroje Bioinformatika (B110M100)
Amino rūgščių kodai Bioinformatika (B110M100)
Genetinės informacijos kodavimas/dekodavimas Bioinformatika (B110M100)
Kodavomo/ dekodavimo procedūros savybės (1) • Pertekliškumas. • Turint 4 simbolių abecėlę, ja galima užkoduoti 64 skirtingus 3 simbolio ilgio žodžius. • Realiai koduojama tik 20 skirtingų amino rūgščių. • Tai reiškia kad tai pačiai amino rūgščiai koduoti yra naudojamas daugiau kaip vienas kodonas (trijų simbolių seka). • Tuo genetinės sekos yra panašios į programavimo kalbas, kur tą patį veiksmą taip pat galima užrašyti skirtingais sakiniais. Bioinformatika (B110M100)
Kodavomo/ dekodavimo procedūros savybės (2) • Dekodavimo procedūra yra vienareikšmė, t.y. • pagal nukleotidų seką galima vienareikšmiškai nustatyti amino rūgščių seką: • Pvz., CUUGGUCCC yra leucinas-glicinas-prolinas. • Kodavimo procedūra nėra vienareikšmė, t.y. • turint amino rūgščių seką negalima vienareikšmiškai atkurti pirmykštę nukleotidų seką. • Pvz., leuciną galima užrašyti UUA, UUG, CUU, CUC, CUA, CUG, gliciną - GGU, GGC, GGA, GGG, proliną - CCU, CCC, CCA, CCG. Vadinasi, 3 amino rūgščių seką galima užrašyti 6*4*4=96 būdais. Bioinformatika (B110M100)
Kodų palyginimas Bioinformatika (B110M100)
Organizuota biologinė sistema* *Kirvelis
Baltymų sintezės procesas • Transkripcija • RNR nukopijuoja geno, kurio pradžią žymi kodonas ATG, kopiją į mRNR. Ją sudaro viena geno spiralė, kurioje T yra pakeista U. • Transliavimas • Ribosoma juda išilgai mRNR, nuskaito kodoną ir iškviečia atitinkamą tRNR, kuri perneša nuskaitytą kodoną atitinkančią amino rūgštį. Enzimai prijungia amino rūgštį prie sintezuojamo baltymo ir atlaisvina tRNR. • Procesas kartojamas tol, kol aptinkamas pabaigos (STOP) kodonas (TAA, TAG arba TGA). Bioinformatika (B110M100)
Informacinis požiūris į baltymų sintezės procesą • Pranešimo RNR (mRNR) kopijuojama geno dalis veikia kaip programa, sudaryta iš atskirų baltymo gamybos instrukcijų. • Ribosoma veikia kaip centrinis procesorius, kuris skaito mRNR nukopijuotą geną ir įvykdo programą. • Transportavimo RNR (tRNR) veikia kaip įvesties/išvesties sistema. • Proceso įvestis (žaliava) yra amino rūgštys. • Proceso išvestis (rezultatas) yra susintezuotas baltymas. Bioinformatika (B110M100)
Tiuringo mašina • Pirmasis matematinis kompiuterio modelis (1936 m. pasiūlė A. Turing) • Turėjo didžiulę įtaką šiuolaikinio kompiuterio architektūroms. • Automatas, nuosekliai vykdantis begalinę instrukcijų seką, bei įsimenantis būseną • Skirtingų instrukcijų bei būsenų kiekiai – baigtiniai. • Bet kurį per baigtinį laiką įvykdomą algoritmą (procesą) galima realizuoti universalia Tiuringo mašina (Church-Turing tezė)
Tiuringo mašinos sandara • Juosta, padalinta į langelius, kuriuose gali būti vienas iš naudojamos abėcėlės simbolių. • Galvutė, kuri skaito ir rašo į langelį, taip pat gali judėti į abi puses. • Būsenų registras, saugantis automato būseną. Būsenų skaičius baigtinis, pradinė būsena visada apibrėžta. • Veiksmų lentelė, nusakanti kokį simbolį rašyti, į kurią pusę per vieną langelį pajudėti
Tiuringo mašinos veikimas • Valdo programa, sudaryta iš instrukcijų (komandų) sekos. • Kiekviena komanda nustato sąlygą ir veiksmą, kuris atliekamas, jeigu sąlyga yra išpildoma • Mašina atlieka tokius veiksmus ant begalinės popieriaus juostos: • "0" perrašo kaip "1", • "1" perrašo kaip "0", • pastumia juostą vieną žingsnį į kairę, arba • pastumia juostą vieną žingsnį į dešinę
Tiuringo mašinos vaidmuo • Įtakojo šiuolaikinių kompiuterių architektūrą • Įtakojo kai kurias filosofijos teorijas apie visatos sandarą ir veikimo principus • Įtakojo dirbtinio intelekto teorijas • Koncepcija labai panaši į genetinės informacijos saugojimo ir nuskaitymo (DNR transkripcijos) procesus vykstančius gyvųjų organizmų ląstelėse • Tiuringo mašinos kodas panašus į DNR genetinį kodą
Ląstelės bioinformacinių struktūrų analogija su kompiuterio elementais Bioinformatika (B110M100)
Kompiuterio ir ląstelės palyginimas informacijos saugojimo požiūriu Bioinformatika (B110M100)
Kompiuterio ir ląstelės palyginimas laikinosios informacijos saugojimo požiūriu Bioinformatika (B110M100)
Kompiuterio ir ląstelės palyginimas informacijos transformavimo požiūriu Bioinformatika (B110M100)
Komponentų hierarchija* * E. Andrianantoandro et al. Synthetic biology: new engineering rules for an emerging discipline. Mol. Sys. Biol. 2006.
OSI tinklo modelis • OSI (Open Systems Interconnect): tarpt. standartas ISO 7498 • Abstraktus ryšio protokolų, naudojamų ryšio ir kompiuteriniuose tinkluose, aprašymas • OSI modelis: • nusako, kaip teoriškai veikia tinklo komponentai, • apibrėžia, kaip informacija turi būti perduodama kompiuterių tinklais, • nurodo, kaip programos turėtų bendrauti tinkle, • suskirsto tinklo komponentų funkcijas į sluoksnius, bei nurodo sąryšius tarp sluoksnių. • aprašo 7 sluoksnius – funkcijų grupes. • kiekvienas sluoksnis naudojasi žemesnio sluoksnio paslaugomis ir teikia paslaugas aukščiau esančiam sluoksniui
OSI modelio sluoksniai (2) • Taikymo lygis apibrėžia ryšio tinklo vartotojui teikiamas paslaugas • Prezentacijos lygis nusako duomenų kodavimo taisykles • Sesijos lygis aprašo duomenų apsikeitimo tarp siuntėjo ir gavėjo taisykles • Transporto lygis užtikrina saugų duomenų perdavimą ryšio kanalu, kuriame yra triukšmų • Tinklo lygis aprašo, kaip duomenų perdavimo ryšio kanalu taisykles • Ryšio lygis aprašo ryšį, tarp gretimų (tiesiogiai bendraujančių) ryšio tinklo komponentų. • Fizinis lygis aprašo fizinius perduodamo signalo ir terpės, kuria jis perduodamas, parametrus.
OSI modelio universalumas • Pranašumas: kadangi informacijos perdavimas vyksta tik tarp gretimų sluoksnių, tai gerokai supaprastina sudėtingų komunikacijos sistemų kūrimą • Universalumas: tas pats “sluoksniškumo” principas galioja ir kitoms sudėtingoms organizuotoms sistemoms kuriose reikia perduoti informaciją ryšio kanalu • Pvz: tradicinis paštas, biologinės sistemos
Biologinių abstrakcijų modelis* *A. Chen. Biological Layer Abstraction and Standards Hierarchy
Terminai • Genas: DNR molekulės fragmentas, koduojantis informaciją apie polipeptido baltymo aminorūgščių seką • Genomas: visa organizmo DNR seka viename chromosomų rinkinyje • Genotipas: organizmo (ląstelės) genetinės informacijos (genų) visuma. • Genetinis kodas: sistema taisyklių, pagal kurias DNR arba RNR molekulėje nukleotidų sekomis užrašoma informacija, reikalinga baltymų sintezei