1.1k likes | 1.53k Views
生物資訊 介紹及其應用. 王憶卿 老師 國立臺灣師範大學 生命科學系 t43017@ntnu.edu.tw. 基因是什麼?. http://bioinfo.life.nthu.edu.tw/bioinfo.htm. 基因是什麼?. 1 、基因為生物體的遺傳資訊,它通常存在於生物體的 DNA 或 RNA 中。 2 、 DNA 它有四個不同的次單元我們稱這些次單元為鹼基 (bases) ,它們分別是 A 、 T 、 C 、和 G 。. http://mod.life.nthu.edu.tw/bioinfo/hgp/. 基因是什麼?.
E N D
生物資訊 介紹及其應用 王憶卿 老師 國立臺灣師範大學 生命科學系 t43017@ntnu.edu.tw
基因是什麼? http://bioinfo.life.nthu.edu.tw/bioinfo.htm
基因是什麼? 1、基因為生物體的遺傳資訊,它通常存在於生物體的 DNA或RNA中。 2、DNA它有四個不同的次單元我們稱這些次單元為鹼基 (bases),它們分別是A、T、C、和 G。 http://mod.life.nthu.edu.tw/bioinfo/hgp/
基因是什麼? 3、對於所有細胞而言,鹼基的順序提供了生命的密碼。 4、DNA透過轉錄、轉譯…等作用,產生各種蛋白質以進 行各項生理反應。 5、在單一條DNA 中,決定鹼基的 排列順序的方法我們 稱之為定序(sequencing)。 http://mod.life.nthu.edu.tw/bioinfo/hgp/
核酸序列(DNA sequence) 攜帶遺傳訊息之生命之書 Adenine (腺嘌呤) Guanine (鳥糞嘌呤) Cytosine (胞嘧啶) Thymine (胸腺嘧啶) ……..ATCGGTGCGTGCATGCAGTGCAGTGCATGCAACCGTATATTAATCCCACTGTTTAAAACTGGTTCATCAGAATTTATATTTTTTTCTTTCCTCCCTTTTGAATTTTACTTATGACAGAGGAAGTATTGACCCATGACTTTTTAAACATAATTTATATTTATACTGGTCAATAATGAAGGTTTTTTTTTATTATTAAA GAACTTGATTTTATAATTCT……...
Sequenced Genomes by time • First viral genome (Sanger et al., 1977):Фx174 • 5386 bases, 11 genes • First Eukaryotic Chromosome (Oliver et al., 1992): chromosome3 of budding yeast • 315 kb, 182 predicted ORF • Human genome project (HMG) 開始 1994 • First complete genome of free-living organism (Fleischmann et al., 1995): Haemophilus influenzae Rd • 1.8 Mb • First eukaryotic genome (Goffeau1 et al., 1996): budding yeast
人類基因體計畫 2001 年2 月人類基因體草圖公布
基因序列的數量 -根據美國國家生物技術資訊中心(NCBI)於2003年8月 的統計,目前共有140,000種生物的基因序列於基因 資料庫中,而且並以每個月1700種物種的速度增加中。 -NCBI於2003年8月的統計,Genbank資料庫中有超過 33.9 billion nucleotide bases 從27.2 million individual sequences. 並以每15個月成長一倍的速度增加中。
後基因體世代 • 定序之成本不斷降低 • USD$1/base…. USD$0.5/base ….USD$0.1 /base • 1990……………1997………………2002……….. • 研究重心轉向宏觀的資訊理解與解讀 • 功能性基因體學 (Functional Genomics) • 結構基因體學 (Structural Genomics) • 蛋白質體學 (Proteomics) • 生物資訊 (Bioinformatics) • 代謝體學(Metabolomics) • 細胞體學(Cellomics)
生物資訊淘金熱 ---在人類基因組中尋寶 -隨著Human Genome Project而來的大量資訊堆積如山,如果這是一個寶山,那麼如何從這個寶山中挖出金礦,就全憑誰擁有最先進的挖礦工具。在這個媲美人類登陸月球的大計 畫中,生物資訊學(bioinformatics)絕對占有重要的一席。生物資訊學包含這些挖礦工具的設計與整合。少了它,這個寶山只是一堆石礫與沙土而 已。
為什麼用生物資訊 [Why?] --將計算機研究方法應用在生物學上的問題,原因包括: 1.生物方面的資訊量有爆炸性的成長,迫切需要運用電腦來從事資訊的分類與取得。 2.資料開採(data mining)─藉由已知生物間基因或蛋白序列資料異同的比較,可演繹序列彼此功能與功能之間的關係,依循這個理論而衍生出的歷程,稱之為data mining。
什麼是生物資訊學 [What?] • 定義 • 從資訊的角度來理解生物(生命) • 用資訊的技術來分析生物(生命) • 用資訊理論與技術來儲存,整理,分析,整合生命科學資料的學問 • 跨領域: 統計,數學, 物理學, 資訊科學,….. • 應用性 • 預測性 • 巨觀
生命科學與醫學 Life Sciences Medicine 生物資訊 Bioinformatics 數理理論Mathematics, Statistics 資訊科學 Information Science and Technology 生物資訊跨領域研究 在領域的匯集處,充滿著機會
生物資訊學之內涵 • Database • Software • Algorithm • User interface • Result Display • Data retrieval • Data comparison • Biological Questions • Sequence analyses • Structure simulation • Gene prediction
Database -- 基因的寶庫
基因資料庫的重要性 http://bioinfo.life.nthu.edu.tw/bioinfo.htm
基因資料庫的重要性 生物資料庫就是存放大量生物分子序列與資訊的資料庫 http://bioinfo.life.nthu.edu.tw/bioinfo.htm
基因資料庫的重要性 1、利用定序結果對基因資料庫進行搜尋,比對出可能的生 物或基因。 2、可利用基因庫中各式生物的基因序列,找出演化的證據 或同源性關係,找出分類的依據。 3、利用生物資訊工具,可幫助科學家找出基因庫中可能的 基因所在位置。 4、可以瞭解各式生物基因表現調節的相關性,進一步調控 基因的表現。 解出各種生物之基因密碼,將會是解開神祕且多樣生命的第一步。
Web Resource – 虛擬世界的寶藏
Major bio-database on the web • Nucleotides • GenBank http://www.ncbi.nlm.nih.gov/ • EMBL http://www.ebi.ac.uk/embl/ • DDBJ http://www.ddbj.nig.ac.jp/ • Proteins • SwissProt http://tw.expasy.org/sprot/ • PIR http://pir.georgetown.edu/ • UniProt http://www.expasy.uniprot.org/index.shtml • 3D structures– PDB http://www.rcsb.org/pdb/ • Other…
世界三大核酸序列資料庫 NCBI、EMBL、DDBJ每天透過網路進行資料交換
National Center for Biotechnology Information • 美國國家生物技術資訊中心(NCBI)所建構的 GenBank 已成為現今世界上最大且蒐羅最完整的生物序列資料庫。
NCBI的GenBank允許研究者將核酸資料上傳,並透過電腦的全自動系統,給予編號及連結,公開給全世界的研究人員免費使用。 NCBI的GenBank允許研究者將核酸資料上傳,並透過電腦的全自動系統,給予編號及連結,公開給全世界的研究人員免費使用。 • NCBI不止有GenBank這個核酸資料庫(一級資料庫),還有許多加值資料庫(二級資料庫)及序列比對系統。 • NCBI的資料搜尋主要分成兩大系統:Entrez and BLAST,利用這強力搜尋系統對各資料庫進行搜尋比對。
NCBI簡介 NCBI主要分成兩大系統:Entrez and BLAST Entrez: 整合型檢索系統 http://www.ncbi.nlm.nih.gov/Entrez/index.html
NCBI簡介 NCBI主要分成兩大系統:Entrez and BLAST BLAST: 序列比對系統 http://www.ncbi.nlm.nih.gov/BLAST/
生物資訊如何輔助生物醫學研究: 以SARS基因體分析為例 • 自從2003/4/12加拿大British Columbia Genome Centre之科學家首將SARS RNA病毒的完整基因體序列定序出來之後,科學家有了很好的基礎從事SARS研究。 1、冠狀病毒因在電子顯微鏡 下,其病毒表面有棘狀突 起(spike glycoprotein)而得 名。 2、SARS Coronavirus 為已知 最大的RNA病毒,約有接 近三萬個鹼基。 Let’s go! The new england journal of medicine. 348(20), 1948-1951, 2003.
DNA序列比對 --BLAST-- 使用時機: 1、利用定序 (sequencing) 所得的一段特定DNA 序列,來尋找可能的生物或基因。 2、比對不同生物或類似生物之間的同源性 (homology)關係。 3、比對序列與序列之間的相似性或相異性。
BLAST: 序列比對系統 --要利用BLAST比對序列時,系統可分為”blastn”、 “blastp”、”blastx”、”tblastn”及”tblastx”,使用時機如下: • blastp • compares an amino acid query sequence against a protein sequence database • blastn • compares a nucleotide query sequence against a nucleotide sequence database • blastx • compares a nucleotide query sequence translated in all reading frames • against a protein sequence database • tblastn • compares a protein query sequence against a nucleotide sequence database • dynamically translated in all reading frames • tblastx • compares the six-frame translations of a nucleotide query sequence against • the six-frame translations of a nucleotide sequence database. Please note that • tblastx program cannot be used with the nr database on the BLAST Web • page.
NCBI-BLAST Nudeotide-Nudeotide BLAST (blastn): 比對未知序列 http://www.ncbi.nlm.nih.gov/BLAST/
NCBI-BLAST (blastn)
NCBI-BLAST (blastn) Result
NCBI-BLAST (BLAST 2) Align two sequences (bl2seq): 比對二條已知序列相似度 http://www.ncbi.nlm.nih.gov/BLAST/
NCBI-BLAST (BLAST 2) 台灣大學TW1(AY291451) 差異? 港大HKU-39849(AY278491)
演化樹分析–多序列比對技術 The New England Journal of Medicine, 348:20; 1953-1966, 2003
基因體註解 • SARS之RNA genome定序後,首要之工作即是把序列上之基因位置及功能標示來。這項工作稱為基因體註解 (genome annotation)。 • 此項基因體註解工作,需仰賴資料庫中其他冠狀病毒之基因功能註解,由序列的相似性及區域來推斷SARS病毒中重要的結構蛋白 (Structure protein),如spike potein (S),small membrane protein (E),membrane protein (M) ,以及聚合脢等非結構蛋白 (NSPs) 之基因位置。
SARS基因體註解 -UCSC Genome Browser created by the Genome Bioinformatics Group of UC Santa Cruz
SARS基因體註解-CDC • Predicted polymerase protein (1a and 1b) • spike potein (S) • small membrane protein (E) • Membrane protein (M) • nucleocapsid protein (N) THE LANCET • Published online May 9, 2003
Swiss-Prot - 最正確的蛋白質資料庫