580 likes | 661 Views
Sequence analysis. 資料格式 (Data format). 資料格式 ( Text ).
E N D
資料格式 (Text) MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHKQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQLTVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
資料格式 (FASTA) >SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL >SEQUENCE_2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
資料庫比對搜尋 Database Search
資料庫種類 文獻資料庫(Reference database) PubMed, Books, OMIN, SeqAnalRef 序列資料庫(Sequence Database) Nucleotide, protein 其他資料庫(Others) Signaling pathway, metabolic pathway……
Reference database http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed
Reference database http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Books
Reference database http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM
Reference database http://tw.expasy.org/seqanalref/
Reference database http://scholar.google.com.tw/
Sequence Databases • Nucleotide database • -DNA • -mRNA/cDNA • -Alternative spicing • -SNP • -UniGene • Protein Database • - Sequences • - Domain and family • - Structure • - Swiss-2D %3D Image • - ENZYME • - PDB
Data Bank http://www.ncbi.nlm.nih.gov/
Data Bank http://www.ebi.ac.uk/Databases/
Data Bank http://www.ddbj.nig.ac.jp/
Genome Brower http://www.ncbi.nlm.nih.gov/mapview/
Genome Brower http://genome.ucsc.edu/cgi-bin/hgGateway
Genome Brower http://www.ensembl.org/
mRNA/cDNA Database http://cdna.ims.u-tokyo.ac.jp/
mRNA/cDNA Database http://www.ncbi.nlm.nih.gov/dbEST/index.html
mRNA/cDNA Database http://www.ncbi.nlm.nih.gov/UniGene/
Alternative Splicing Annotation Project II http://bioinformatics.ucla.edu/ASAP2/
BIPASS http://bip.umiacs.umd.edu:8080/
SNP database http://www.ncbi.nlm.nih.gov/SNP/
SNP database http://www.binfo.ncku.edu.tw/snp/
Protein database http://tw.expasy.org/sprot/
http://tw.expasy.org/prosite/ 這是一個以蛋白質功能為分類基準的資料庫, 資料庫內的 資料包括了蛋白質的生化功能 、來源、活性區域、胺基酸序列的一致性模式 (consensus pattern)
http://tw.expasy.org/ch2d/ 收集蛋白質在二維電泳膠片上特定位置的資料庫
http://tw.expasy.org/enzyme/ ENZYME這個資料庫的資料有,酵素所催化的生化反應方程式、 酵素所需要的輔助因子(cofactor)、酵素在Boehringer Mannheim 所提供的生化新 陳代謝圖中的位置
OTHER-TYPE DATABASES • Signaling Pathway Database • Reference • ……….. • ………..
GeneCards http://bioinformatics.weizmann.ac.il/cards/
BIOCARTA http://www.biocarta.com/genes/allPathways.asp
Kyoto Encyclopedia of Genes and Genomes (KEGG) http://www.genome.jp/kegg/
Signaling Pathway Database http://www.grt.kyushu-u.ac.jp/spad/
2007 http://nar.oxfordjournals.org/cgi/content/full/35/suppl_1/D3/DC1
Database search Text search (Key word) NCBI (Entrez; http://www.ncbi.nlm.nih.gov/sites/gquery) EBI (SRS; http://srs6.ebi.ac.uk/ ) 由於目前的Entrez 介面提供整個Entrez 資料庫的搜尋結果,所以使用者不需定義特定資料庫。在使用SRS 時就需注意定義特定資料庫,再進行搜尋。 Sequence search NCBI (BLAST; http://www.ncbi.nlm.nih.gov/blast/ ) EBI (Fasta; http://www.ebi.ac.uk/fasta33/index.html )
練習一 試以 Fibroblast growth factor 9 “ FGF9” 為keyword,練習由NCBI提供的Entrez或由EBI 提供的 SRS來搜尋文獻、核酸及蛋白質資料庫。
作業一 Tryptophan hydroxylase 2(TPH2)是大腦製造血清素的速率限制脢,請試著找出: 1. 人類TPH2 gene 位於那一條chromosome上?其physical map 的位置 約在多少Megabase(Mb)處? 2.找出一篇描述 TPH2 function有關的paper ,寫下作者、期刊名、卷號、頁數和出版年份。 3.利用NCBI上現有的電子書,找出那一本書上的那個章節有講述TPH2的相關資訊。 4.利用NCBI (Entrez 及 BLAST) 或 EBI (SRS 及 FASTA)的系統,找出人類 TPH2 mRNA or cDNA 序列並利用此序列進行蛋白質資料庫搜尋。顯示最好的50筆資料 。
序列分析比對 Sequence comparison
為什麼需要序列分析比對? 序列比對指將兩個或多個序列排列在一起,標明其相似之處。序列中可以插入間隔(通常用短橫線「-」表示)。對應的相同或相似的符號(在核酸中是A, T(或U), C, G,在蛋白質中是胺基酸殘基的單字母表示)排列在同一列上。 • 比較序列間相似程度 • 找出一些基因規則 • 找出親緣基因的同緣區域
為什麼需要序列分析比對? 序列比對指將兩個或多個序列排列在一起,標明其相似之處。序列中可以插入間隔(通常用短橫線「-」表示)。對應的相同或相似的符號(在核酸中是A, T(或U), C, G,在蛋白質中是胺基酸殘基的單字母表示)排列在同一列上。 • 比較序列間相似程度 • 找出一些基因規則 • 找出親緣基因的同緣區域
序列並列比對的種類 • Global vs. Local alignment