310 likes | 416 Views
Bioinformatikai módszerek a növénybiológiában. Sebestyén Endre Martonvásár, 2007 nov. 16. Mi a bioinformatika? .
E N D
Bioinformatikai módszerek a növénybiológiában Sebestyén Endre Martonvásár, 2007 nov. 16.
Mi a bioinformatika? • Bioinformatics and computational biology involve the use of techniques including applied mathematics, informatics, statistics, computer science, artificial intelligence, chemistry, and biochemistry to solve biological problems usually on the molecular level. • It can also be defined as the science and technology of learning, managing, and processing biological information. • Major research efforts in the field include sequence alignment, gene finding, genome assembly, protein structure alignment, protein structure prediction, prediction of gene expression and protein-protein interactions, and the modeling of evolution. • Valójában egyre kevésbé tekinthető külön tudományágnak, ugyanolyan eszköz, mint a pipetta vagy PCR.
Adatok és adatbázisok • Elsődleges adatbázisok • DNS (RNS) • EMBL (http://www.ebi.ac.uk/embl/) • GenBank (http://www.ncbi.nlm.nih.gov/Genbank/index.html) • DDBJ (http://www.ddbj.nig.ac.jp/) • Térszerkezeti adatbázisok • Másodlagos vagy származtatott adatbázisok • Fehérje adatbázisok • Fehérjemotívum adatbázisok • Egyéb adatbázisok • NAR adatbázis különszám • RetrOryza: a database of the rice LTR-retrotransposons • SUBA: the Arabidopsis Subcellular Database • AgBase: a unified resource for functional analysis in agriculture • The TIGR Plant Transcript Assemblies database • 2007 : 106 új, 68 frissítés, összesen 968 (http://www.oxfordjournals.org/nar/database/a/)
Genomprogramok (növények) • Kész • Arabidopsis thaliana • Medicago truncatula • Oryza sativa • Populus trichocarpa • Vitis vinifera • Folyamatban • Brachypodium distachyon • Lotus japonicus • Manihot esculenta • Solanum lycopersicum • Solanum tuberosum • Sorghum bicolor • Zea mays • Ricinus communis • Brassica oleracea • Triticum aestivum • Glycine max
Adatbázisok mérete (EMBL) EMBL rekordok száma EMBL nukleotidok száma
Genomböngészők • Teljes genom(ok) szekvenciáját tartalmazza • Szekvenciák vizualizálás, böngészése • Nagy mennyiségű annotáció • Génpredikciók • Fehérjék • Expressziós adatok • Összehasonlító elemzések • Keresztreferenciák más adatbázisokhoz
Genomböngészők TIGR kukorica genomböngésző Repeat Génpredikciók Transzkriptumok
Genomböngészők • ENSEMBL (www.ensembl.org) • Növényekkel nem foglalkozik • 33 különböző genom • UCSC (http://genome.ucsc.edu) • 32 genom • AtENSEMBL (http://atensembl.arabidopsis.info) • TIGR Rice database (http://www.tigr.org/tdb/e2k1/osa1/) • TIGR Maize database (http://maize.tigr.org/)
Szekvenciaformátumok • FASTA, GCG, EMBL, GenBank • Egyszerű szöveges fájlok • A Word dokumentum NEM szekvenciaformátum
BLAST keresés • http://www.ncbi.nlm.nih.gov/blast/ • Nukleotid vs. nukleotid • Protein vs. protein • Protein vs. lefordított nukleotid • Lefordított nukleotid vs. protein • Lefordított nukleotid vs. lefordított nukleotid
BLAST keresés • Alapbeállítások nem mindig megfelelőek • A keresés eredménye nem biztos, hogy tökéletes • Viszont a szekvencia mindig biztosabb keresési módszer, mint egy azonosító vagy kulcsszó
Szekvenciaillesztés • Kettő vagy több szekvencia • Az esetek nagyrészében nincs tökéletes megoldás • Nehéz számszerűen megmondani az illesztés “jóságát” • Szekvencia méret/szám növekedésével exponenciálisan nő a szükséges idő • Illesztés algoritmusa • Globális (ClustalW) • Lokális (Dialign) • Néha érdemes akár kézzel javítani
Globális / lokális illesztés • globális illesztés • lokális illesztés
Transzkripciós faktor kötőhelyek • Ismert kötőhelyek • Kísérletes adatok alapján • Adatbázisok • TRANSFAC • JASPAR • PLACE • PlantCARE • 1300 - 1500 kötőhely • Konszenzus szekvencia vagy mátrix a jellemzésükre 2 3 4 5 A 16 352 3 354 C 46 0 10 0 G 18 2 2 5 T 309 35 374 30
Kötőhelyek keresése promóterekben • TRANSFAC kötőhely gyűjteménnyel való keresés eredménye • Sok, biológiailag nem feltétlenül releváns (fals pozitív) kötőhely ugyanazon a szekvencián
DoOP, Ortológ promóter adatbázis • Ortológ promóterek elemzése • Evolúciósan konzervált motívumok definiálása • A motívumok feltételezett kötőhelyek lehetnek • Weboldal az adatok eléréséhez, további elemzéséhez • http://doop.abc.hu
Adatbáziskészítés folyamata Arabidopsis genomannotáció Első exon kinyerése minden génből BLAST keresés összes növényi szekvenciában az exon alapján(NCBI adatbázis) Promóter régiók kinyerése és csoportosítása (500, 1000, 3000 bp) Szekvenciaillesztés (Dialign) Konzerválódott régiók kinyerése
Promótercsoportok • Legalább 1 szekvencia az Arabidopsis promóter mellett • 500 bp : 9140 • 26591 szekvencia • 1000 bp : 6013 • 16703 szekvencia • 3000 bp : 5765 • 15493 szekvencia
Motívumok a növényi adatbázisban • Konszenzus szekvencia • 5 - 50 bp között • 4 típus • Brassicacea • Eudicotyledons • Magnoliophyta • Viridiplantae • Összesen 134120 egyedi motívum (500, 1000, 3000 bp)
DoOP keresőoldal • Keresési módok • Szekvenciaazonosító • Génazonosító • Kulcsszavas leírások • Faj • Promóter szekvencia
Keresés eredménye • Promótercsoport azonosító • Leírás • Konzervált motívumok száma • Fajcsoportok • Lehetőség van a szekvenciák letöltésére
Promótercsoport Szekvenciák Génannotáció Szekvenciaillesztés Keresztreferenciák Konzerválódott régiók
Promótercsoport UTR régió Faj, méret Motívumok
Motívum • További keresési lehetőség adott motívummal • Hasonló szabályozással / expressziós mintázattal rendelkező gének? • http://doops.abc.hu • http://doopsearch.abc.hu
További lehetőségek • Ismert kötőhelyek konzerváltságának vizsgálata (folyamatban) • Promóterben elfoglalt pozíció vizsgálata • Transzkripciós szabályozás “in silico” vizsgálata • Mesterséges promóterek tervezése? • Az adatbázis folyamatos frissítése
Résztvevők • MBK Bioinformatika csoport, Gödöllő