520 likes | 730 Views
第七章 人類基因體蛋白質與基因標記應用. 基因體標記 (annotation) 廣義:將排序中的所有訊息都註明 對基因調控機制的瞭解做註明 狹義:將排序資料中有蛋白質的區塊及外顯子 (exon) 與插入子 (intro) 註明 真核和與原核生物基因體結構不同 原核染色體為環狀,無插入子 真核染色體為直線狀. 人類蛋白質基因的結構 RNA polymerase I :轉錄 rRNA RNA polymerase III :轉錄 tRNA, snRNA RNA polymerase II :轉錄 mRNA 轉錄出之 RNA 需經剪切修飾,才成為 mRNA
E N D
第七章 人類基因體蛋白質與基因標記應用 • 基因體標記(annotation) • 廣義:將排序中的所有訊息都註明 • 對基因調控機制的瞭解做註明 • 狹義:將排序資料中有蛋白質的區塊及外顯子(exon)與插入子(intro)註明 • 真核和與原核生物基因體結構不同 • 原核染色體為環狀,無插入子 • 真核染色體為直線狀
人類蛋白質基因的結構 • RNA polymerase I:轉錄rRNA • RNA polymerase III:轉錄tRNA, snRNA • RNA polymerase II:轉錄mRNA • 轉錄出之RNA需經剪切修飾,才成為mRNA • 基因標記工作主要透過電腦軟體,大都為自動執行 • 瞭解蛋白質、基因的結構為標記的首要條件
雙股DNA 5’ 暗碼股 3’ 3’ 模子股-及含有含義或稱有基因股 5’ 轉錄的pre-mRNA 5’ 3’ 序列與暗碼股除T、U不同外,其餘皆相同
啟動子 promoter 排序區 GC intro intro Poly A tail 5’ 3’ 轉錄終止處 轉錄起始處 • -90 GGGCGG共通排序 • 啟動子promoter 有兩處:-25 ~ -35 TATAAT或TATATT(TATA box),-75 CAAT • 轉錄起始處ATG,甲硫胺酸methionine • GT(內含子intro)AG • 轉錄終止 TAA、TGA、TAG • Poly A tail:AATAAA或ATTAAA
常用人類蛋白質基因標記軟體 • 從已知的cDNA,與新找出的基因體比對,找出相關基因(PBIL) • cDNA:將細胞的mRNA找出,再透過反轉錄的作用轉錄出互補股的DNA (complementary DNA) • 與基因資料庫直接比對 • NCBI ORF finder、EBI tools-FASTA、GENEIE、GENESCAN • 與基因庫中的EST (Expressed Sequence Tag )表現序列標籤比較 • 找出新基因的啟動子promoter來偵測
找出新基因exon和intro的切割點splice site • GT (intro) AG…..序列 • 搜尋操作子operator或增強子enhancer片段 • 含多種方法GeneWise- EBI網站 • 同時使用多種軟體,比較分析結果,再合併考慮 • 若多種軟體都預測出一樣區域帶有基因,正確機率高 • 結果分歧,則需參考其它資料
電腦軟體可能的比對結果 • 與某已知功能cDNA排序95%以上相符,這樣就功能已知 • 與某未知功能的蛋白質相似性25%~95%,功能則需進一步研究 • 相似性25%以上,部分排序與某已知功能之蛋白質有功能部位相同,則可推測其功能 • 若與某些EST相符 • 與基因庫某資料相符,EST無資料,是否為基因?
偽基因Pseudogene:與資料庫中某基因相似度很高,但序列中可能多了偽基因Pseudogene:與資料庫中某基因相似度很高,但序列中可能多了 • 轉錄終止序列(TAA、TAG、TGA) • 缺了插入前後GT/AG • 啟動子序列不完整 • 可能是無功能、功能不全、不同功能 • 同一基因,因內部不同切割點,形成不同的蛋白質
人類基因體標記步驟 • 取得人類基因體序列 • NCBI 點選右下角human genome resources
轉換DNA序列格式 • 轉換成FASTA格式 http://bioinformatics.org/sms2/filter_dna.html
Gene prediction programs (AY292986) • GRAIL (gene recognition and analysis internet link)- GRAIL2, GRAIL-EXP • GeneID: • GENSCAN: MIT • FGENES: softberry.com • GENEWISE: EBI-tools (protein structure)
拉到下面將DNA序列選取 複製,用DNA-filter轉成 FASTA格式
Gn.Ex : gene number, exon number (for reference) Type : • Init = Initial exon (ATG to 5' splice site) • Intr = Internal exon (3' splice site to 5' splice site) • Term = Terminal exon (3' splice site to stop codon) • Sngl = Single-exon gene (ATG to stop) • Prom = Promoter (TATA box / initation site) • PlyA = poly-A signal (consensus: AATAAA) • S : DNA strand (+ = input strand; - = opposite strand) • Begin : beginning of exon or signal (numbered on input strand) • End : end point of exon or signal (numbered on input strand) • Len : length of exon or signal (bp) • Fr : reading frame (a forward strand codon ending at x has frame x mod 3) Ph : net phase of exon (exon length modulo 3) • I/Ac : initiation signal or 3' splice site score (tenth bit units) • Do/T : 5' splice site or termination signal score (tenth bit units) • CodRg : coding region score (tenth bit units) • P : probability of exon (sum over all parses containing exon) • Tscr : exon score (depends on length, I/Ac, Do/T and CodRg scores)