310 likes | 391 Views
Sebestyén Endre Bioperl Őszi Iskola 2008 november 7. Regulációs transzkripciós adatbázisok és bioperl modulok. Perl modulok. Önálló kódcsomag, amit más perl programok vagy modulok felhasználhatnak CPAN : http://www.cpan.org Rengeteg modul szinte minden elképzelhető feladatra Net::FTP
E N D
Sebestyén Endre Bioperl Őszi Iskola 2008 november 7. Regulációs transzkripciós adatbázisok és bioperl modulok
Perl modulok • Önálló kódcsomag, amit más perl programok vagy modulok felhasználhatnak • CPAN : http://www.cpan.org • Rengeteg modul szinte minden elképzelhető feladatra • Net::FTP • XML::Parser
Bioperl csomagok • http://bioperl.org • Stabil (1.4.0) és fejlesztői (1.5.2) verzió • Különböző csomagok • Core : alapmodulok, minden más csomag ezt használja • Run : alkalmazások futtatása (ClustaW, EMBOSS, stb) • DB : relációs adatbázis projekt, BioSQL • Network : protein-protein interakciók • GUI : grafikus felület, Perl-TK • Ext : C nyelven, szekvenciaillesztő algoritmusok • Pedigree : genotípus, marker, linkage adatok manipulálása • Microarray : microarray adatok elemzése • Pipeline : munkafolyamatok tervezése
Bioperl Core modulok 1 • Bio::Align • Szekvenciaillesztések manipulálása • Bio::Biblio • Irodalmi adatok lekérdezése • Medline • Pubmed • Bio::DB • EMBL, GenBank, RefSeq, SwissProt • Bio::Graphics • Elsősorban szekvenciák ábrázolására használható modul • Bio::Index • FASTA, GenBank fájlok indexelése • BLAST eredmények indexelése
Bioperl Core modulok 2 • Bio::Matrix • Általános mátrix modul • Bio::Ontology • GeneOntology adatbázis • Bio::Search és Bio::SearchIO • BLAST, FASTA, Sim4, stb eredmények feldolgozása • Bio::Seq és Bio::SeqIO • Szekvenciák kezelése • Konvertálás, módosítás, létrehozás • Bio::Tools • Különböző programok be/kimenetének feldologzása
TFBS modul • http://tfbs.genereg.net/ • Transzkripciós faktor kötőhelyek kezelésére specializálódott modulok • Objektumok a különböző kötőhelyeknek, keresési eredményeknek • Felület a weben található TFBS adatbázisokhoz • BioPerl kompatibilis
BioPerl modulok használata #!/usr/bin/perl use Bio::DB::GenBank; use Getopt::Std; getopts(’l:'); my $list = $opt_l; open LIST, "$list" or die "$0 : can't open file $list : $!\n"; while (<LIST>) { chomp; @line = split; push @accs, @line; } close LIST; my $db = new Bio::DB::GenBank; foreach my $acc (@accs) { my $seqi = $db->get_Stream_by_acc(["$acc"]); my $seqo = Bio::SeqIO->new('-file' => ">>$acc.genbank", '-format' => 'genbank'); foreach my $seq ( $seqi->next_seq ) { $seqo->write_seq($seq); } }
Transzkripciós faktorok és kötőhelyek • Transzkripciós faktor • DNS kötő domainek • Specifikus szekvencia motívomokat ismer fel • A kötődést a konkrét motívum mellett sok egyéb tényező is befolyásolja • Kötőhelyek • Rövid szekvenciamotívumok (6-12 bp) • Promóterben, esetleg a 3’ és 5’ UTR-ben vagy intronokban • Sokszor nem egyértelműek, pl G és C is lehet egy helyen
Konszenzus szekvencia 1 • Konszenzus szekvencia • Lötyögős bázisjelölések • ACACTSSNWTT • Ismétlésekkel • ACACTS{1,4}N{1,2}WTT
Konszenzus szekvencia 2 • Lötyögős bázisjelölés mellett/helyett esetleg kisbetű CcCGaGGtDcYtagB
Mátrixok • Mátrix • A/C/G/T mennyiség • Egyszerű darabszám • Gyakoriság • Information content
Promóter adatbázisok 1 • EPD http://www.epd.isb-sib.ch/ • Eukaryotic Promoter Database • Release 95 • Egyik fele kísérletes eredmények alapján (4800) • Kukorica • Drosophila • Xenopus • Egér • Ember • stb • Tömeges promóterannotáció (13000) • Rizs
Promóter adatbázisok 2 • DBTSS http://dbtss.hgc.jp/ • Database of Transcriptional Start Sites • Release 6.0 • cDNS 5’ szekvenálások alapján pontos TSS • Alternatív promótereket is tartalamaz • Fajok • Egér • Patkány • Fugu • stb
Promóter adatbázisok 3 • DoOP http://doop.abc.hu • Database of Orthologous Pomoters • Növényi (Viridiplantae) • Referenciafaj : Arabidopsis thaliana • Gerinces (Chordata) • Referenciafaj : ember • Ortológ promótercsoportok • 500, 1000, 3000 bp 5’ upstream régiók
Promóter adatbázisok 4 • PlantProm http://mendel.cs.rhul.ac.uk/mendel.php?topic=plantprom • Növényi promóterek • PromoSer http://biowulf.bu.edu/zlab/PromoSer/ • Ember, egér, patkány • SCPD http://rulai.cshl.edu/SCPD/ • Sacharomyces cerevisiae • DCPD http://www-biology.ucsd.edu/labs/Kadonaga/DCPD.html • Drosophila • CEPDB http://rulai.cshl.edu/cgi-bin/CEPDB/home.cgi • C. elegans • NAR adatbázis (január) és webszerver (július) különszám
Kötőhely adatbázisok 1 • TRANSFAC http://www.gene-regulation.com/ • Ingyenes/fizetős verzió • Transzkripciós faktorok, kötőhelyek, irodalmi adatok • Keresőfelület • Folyamatosan frissítik a publikációk alapján • Mátrixokat és konszenzus szekvenciákat is tartalmaz
Kötőhely adatbázisok 2 • JASPAR http://jaspar.genereg.net/ • Jobb minőségű, nem redundáns adatok • Aránylag kis mennyiségű adat • Ingyenes, több formátumban letölthető adatok
Kötőhely adatbázisok • ORegAnno http://www.oreganno.org/ • Open REGulatory ANNOtation database • cisRED http://www.cisred.org/ • Cis-regulatory element database • ENSEMBL alapján • Ember, egér, patkány, C. elegans • Place http://www.dna.affrc.go.jp/PLACE/ • PlantCARE http://bioinformatics.psb.ugent.be/webtools/plantcare/html/ • Növényi kötőhelyeket tartalmazó adatbázisok • Irodalmi adatok alapján
Ismert kötőhelyek keresése 1 • Konszenzus szekvencia keresés • Perl reguláris kifejezés • if ($seq =~ /[AT]{1,}CCT[CG]/) { print “megvan\n” } • EMBOSS programcsomag • http://emboss.sourceforge.net/ • Fuzznuc • Parancssoros linux program • [CG](5)TG{A}N(1,5)C
Ismert kötőhelyek keresése 2 • Mátrixok • TFBS modul • Bio::Matrix modul • MotifScanner • http://homes.esat.kuleuven.be/~thijs/Work/MotifScanner.html • Parancssoros linux program • Background model használata
Ismeretlen kötőhelyek keresése 1 • Ortológ gének • Különböző fajban ugyanaz a funkció • Szervspecifikus gének • Szövetspecifikus gének • Fejlődési stádium specifikus gének • Stb • Valamilyen oknál fogva ugyanakkor/ugyanott kell kifejeződniük
Ismeretlen kötőhelyek keresése 2 • Rövid oligók gyakoriságának vizsgálata • EMBOSS programcsomag • Compseq parancssoros linux program • Oligók (2,3,4,stb) gyakoriságának vizsgálata • Elvárt VS. kapott gyakoriság • Bizonyos oligók alul vagy felülreprezentáltak lehetnek egyes promótercsoportokban • AAA 7 0.0406977 0.0329457 1.2352955 • AAC 3 0.0174419 0.0096899 1.8000042 • AAG 11 0.0639535 0.0348837 1.8333344 • AAT 3 0.0174419 0.0077519 2.2500110 • ACA 1 0.0058140 0.0096899 0.6000014 • ACC 4 0.0232558 0.0116279 2.0000012
Ismeretlen kötőhelyek keresése 3 • Phylogenetic footprinting • A funkcionális kötőhelyek valószínűleg konzerválódtak a fajok között • Szekvenciaillesztés • ClustalW : globális illesztés • Dialign : lokális illesztés • Konzervált részek kiválasztása
Globális / lokális illesztés • globális illesztés • lokális illesztés
Ismeretlen kötőhelyek keresése 4 • Egyéb programok • MEME http://meme.sdsc.edu/ • oops, zoops, anr módok • lassú • GLAM http://zlab.bu.edu/glam • Hézagmentes illesztések • Tompa, M., Li, N., Bailey, T.L., Church, G.M., De Moor, B., Eskin, E., Favorov, A.V., Frith, M.C., Fu, Y., Kent, W.J., et al. 2005. Assessing computational tools for the discovery of transcription factor binding sites. Nat. Biotechnol. 23: 137–144.
DoOP keresőoldal • http://doop.abc.hu • Keresési módok • Szekvenciaazonosító • Génazonosító • Kulcsszavas leírások • Faj • Promóter szekvencia
Keresés eredménye • Promótercsoport azonosító • Leírás • Konzervált motívumok száma • Fajcsoportok • Lehetőség van a szekvenciák letöltésére
Promótercsoport Szekvenciák Génannotáció Szekvenciaillesztés Keresztreferenciák Konzerválódott régiók
Promótercsoport UTR régió Faj, méret Motívumok
Motívum • További keresési lehetőség adott motívummal • Hasonló szabályozással / expressziós mintázattal rendelkező gének? • http://doops.abc.hu • http://doopsearch.abc.hu
Bio::DOOP • Bioperl-hez hasonló API a DoOP adatbázis kezeléséhez • Cluster.pm • Sequence.pm • SequenceFeature.pm • Motif.pm