生物資訊介紹及其應用

生物資訊 介紹及其應用王憶卿老師國立臺灣師範大學生命科學系 t43017@ntnu.edu.tw

基因是什麼？ http://bioinfo.life.nthu.edu.tw/bioinfo.htm

基因是什麼？ 1、基因為生物體的遺傳資訊，它通常存在於生物體的 DNA或RNA中。 2、DNA它有四個不同的次單元我們稱這些次單元為鹼基 (bases)，它們分別是A、T、C、和 G。 http://mod.life.nthu.edu.tw/bioinfo/hgp/

基因是什麼？ 3、對於所有細胞而言，鹼基的順序提供了生命的密碼。 4、DNA透過轉錄、轉譯…等作用，產生各種蛋白質以進  行各項生理反應。 5、在單一條DNA 中，決定鹼基的排列順序的方法我們  稱之為定序(sequencing)。 http://mod.life.nthu.edu.tw/bioinfo/hgp/

核酸序列(DNA sequence) 攜帶遺傳訊息之生命之書 Adenine (腺嘌呤) Guanine (鳥糞嘌呤) Cytosine (胞嘧啶) Thymine (胸腺嘧啶) ……..ATCGGTGCGTGCATGCAGTGCAGTGCATGCAACCGTATATTAATCCCACTGTTTAAAACTGGTTCATCAGAATTTATATTTTTTTCTTTCCTCCCTTTTGAATTTTACTTATGACAGAGGAAGTATTGACCCATGACTTTTTAAACATAATTTATATTTATACTGGTCAATAATGAAGGTTTTTTTTTATTATTAAA GAACTTGATTTTATAATTCT……...

Sequenced Genomes by time • First viral genome (Sanger et al., 1977):Фx174 • 5386 bases, 11 genes • First Eukaryotic Chromosome (Oliver et al., 1992): chromosome3 of budding yeast • 315 kb, 182 predicted ORF • Human genome project (HMG) 開始 1994 • First complete genome of free-living organism (Fleischmann et al., 1995): Haemophilus influenzae Rd • 1.8 Mb • First eukaryotic genome (Goffeau1 et al., 1996): budding yeast

人類基因體計畫 2001 年2 月人類基因體草圖公布

基因序列的數量 -根據美國國家生物技術資訊中心（NCBI）於2003年8月的統計，目前共有140,000種生物的基因序列於基因資料庫中，而且並以每個月1700種物種的速度增加中。 -NCBI於2003年8月的統計，Genbank資料庫中有超過 33.9 billion nucleotide bases 從27.2 million individual sequences. 並以每15個月成長一倍的速度增加中。

後基因體世代 • 定序之成本不斷降低 • USD$1/base…. USD$0.5/base ….USD$0.1 /base • 1990……………1997………………2002……….. • 研究重心轉向宏觀的資訊理解與解讀 • 功能性基因體學 (Functional Genomics) • 結構基因體學 (Structural Genomics) • 蛋白質體學 (Proteomics) • 生物資訊 (Bioinformatics) • 代謝體學(Metabolomics) • 細胞體學(Cellomics)

生物資訊淘金熱 ---在人類基因組中尋寶 -隨著Human Genome Project而來的大量資訊堆積如山，如果這是一個寶山，那麼如何從這個寶山中挖出金礦，就全憑誰擁有最先進的挖礦工具。在這個媲美人類登陸月球的大計畫中，生物資訊學（bioinformatics）絕對占有重要的一席。生物資訊學包含這些挖礦工具的設計與整合。少了它，這個寶山只是一堆石礫與沙土而已。

為什麼用生物資訊 [Why?] --將計算機研究方法應用在生物學上的問題，原因包括： 1.生物方面的資訊量有爆炸性的成長，迫切需要運用電腦來從事資訊的分類與取得。 2.資料開採(data mining)─藉由已知生物間基因或蛋白序列資料異同的比較，可演繹序列彼此功能與功能之間的關係，依循這個理論而衍生出的歷程，稱之為data mining。

什麼是生物資訊學 [What?] • 定義 • 從資訊的角度來理解生物(生命) • 用資訊的技術來分析生物(生命) • 用資訊理論與技術來儲存,整理,分析,整合生命科學資料的學問 • 跨領域: 統計,數學, 物理學, 資訊科學,….. • 應用性 • 預測性 • 巨觀

生命科學與醫學 Life Sciences Medicine 生物資訊 Bioinformatics 數理理論Mathematics, Statistics 資訊科學 Information Science and Technology 生物資訊跨領域研究在領域的匯集處，充滿著機會

生物資訊學之內涵 • Database • Software • Algorithm • User interface • Result Display • Data retrieval • Data comparison • Biological Questions • Sequence analyses • Structure simulation • Gene prediction

Database -- 基因的寶庫

基因資料庫的重要性 http://bioinfo.life.nthu.edu.tw/bioinfo.htm

基因資料庫的重要性 生物資料庫就是存放大量生物分子序列與資訊的資料庫 http://bioinfo.life.nthu.edu.tw/bioinfo.htm

基因資料庫的重要性 1、利用定序結果對基因資料庫進行搜尋，比對出可能的生物或基因。 2、可利用基因庫中各式生物的基因序列，找出演化的證據或同源性關係，找出分類的依據。 3、利用生物資訊工具，可幫助科學家找出基因庫中可能的  基因所在位置。 4、可以瞭解各式生物基因表現調節的相關性，進一步調控  基因的表現。解出各種生物之基因密碼，將會是解開神祕且多樣生命的第一步。

Web Resource – 虛擬世界的寶藏

Major bio-database on the web • Nucleotides • GenBank http://www.ncbi.nlm.nih.gov/ • EMBL http://www.ebi.ac.uk/embl/ • DDBJ http://www.ddbj.nig.ac.jp/ • Proteins • SwissProt http://tw.expasy.org/sprot/ • PIR http://pir.georgetown.edu/ • UniProt http://www.expasy.uniprot.org/index.shtml • 3D structures– PDB http://www.rcsb.org/pdb/ • Other…

世界三大核酸序列資料庫 NCBI、EMBL、DDBJ每天透過網路進行資料交換

National Center for Biotechnology Information • 美國國家生物技術資訊中心（NCBI）所建構的 GenBank 已成為現今世界上最大且蒐羅最完整的生物序列資料庫。

人類基因的寶庫

NCBI的GenBank允許研究者將核酸資料上傳，並透過電腦的全自動系統，給予編號及連結，公開給全世界的研究人員免費使用。 NCBI的GenBank允許研究者將核酸資料上傳，並透過電腦的全自動系統，給予編號及連結，公開給全世界的研究人員免費使用。 • NCBI不止有GenBank這個核酸資料庫(一級資料庫)，還有許多加值資料庫(二級資料庫)及序列比對系統。 • NCBI的資料搜尋主要分成兩大系統：Entrez and BLAST，利用這強力搜尋系統對各資料庫進行搜尋比對。

NCBI簡介 NCBI主要分成兩大系統：Entrez and BLAST Entrez: 整合型檢索系統 http://www.ncbi.nlm.nih.gov/Entrez/index.html

NCBI簡介 NCBI主要分成兩大系統：Entrez and BLAST BLAST: 序列比對系統 http://www.ncbi.nlm.nih.gov/BLAST/

生物資訊如何輔助生物醫學研究： 以SARS基因體分析為例 • 自從2003/4/12加拿大British Columbia Genome Centre之科學家首將SARS RNA病毒的完整基因體序列定序出來之後，科學家有了很好的基礎從事SARS研究。 1、冠狀病毒因在電子顯微鏡  下，其病毒表面有棘狀突  起(spike glycoprotein)而得名。 2、SARS Coronavirus 為已知  最大的RNA病毒，約有接  近三萬個鹼基。 Let’s go! The new england journal of medicine. 348(20), 1948-1951, 2003.

NCBI-Entrez

NCBI-Nucleotide

DNA序列比對 --BLAST-- 使用時機： 1、利用定序 (sequencing) 所得的一段特定DNA  序列，來尋找可能的生物或基因。 2、比對不同生物或類似生物之間的同源性  (homology)關係。 3、比對序列與序列之間的相似性或相異性。

BLAST: 序列比對系統

BLAST: 序列比對系統 --要利用BLAST比對序列時，系統可分為”blastn”、 “blastp”、”blastx”、”tblastn”及”tblastx”，使用時機如下： • blastp • compares an amino acid query sequence against a protein sequence database • blastn • compares a nucleotide query sequence against a nucleotide sequence database • blastx • compares a nucleotide query sequence translated in all reading frames • against a protein sequence database • tblastn • compares a protein query sequence against a nucleotide sequence database • dynamically translated in all reading frames • tblastx • compares the six-frame translations of a nucleotide query sequence against • the six-frame translations of a nucleotide sequence database. Please note that • tblastx program cannot be used with the nr database on the BLAST Web • page.

NCBI-BLAST Nudeotide-Nudeotide BLAST (blastn): 比對未知序列 http://www.ncbi.nlm.nih.gov/BLAST/

NCBI-BLAST (blastn)

NCBI-BLAST (blastn) Result

NCBI-BLAST (BLAST 2) Align two sequences (bl2seq)：比對二條已知序列相似度 http://www.ncbi.nlm.nih.gov/BLAST/

NCBI-BLAST (BLAST 2) 台灣大學TW1(AY291451) 差異？港大HKU-39849(AY278491)

NCBI-BLAST (BLAST 2)

演化樹分析–多序列比對技術 The New England Journal of Medicine, 348:20; 1953-1966, 2003

基因體註解 • SARS之RNA genome定序後，首要之工作即是把序列上之基因位置及功能標示來。這項工作稱為基因體註解 (genome annotation)。 • 此項基因體註解工作，需仰賴資料庫中其他冠狀病毒之基因功能註解，由序列的相似性及區域來推斷SARS病毒中重要的結構蛋白 (Structure protein)，如spike potein (S)，small membrane protein (E)，membrane protein (M) ，以及聚合脢等非結構蛋白 (NSPs) 之基因位置。

SARS基因體註解 -UCSC Genome Browser created by the Genome Bioinformatics Group of UC Santa Cruz

SARS基因體註解-NCBI

SARS基因體註解-CDC • Predicted polymerase protein (1a and 1b) • spike potein (S) • small membrane protein (E) • Membrane protein (M) • nucleocapsid protein (N) THE LANCET • Published online May 9, 2003

Swiss-Prot - 最正確的蛋白質資料庫

SARS-Spike glycoprotein

生物資訊 介紹及其應用