410 likes | 671 Views
生物信息学. 第三章 关键词或词组为基础的数据库检索 (I). Gene name Author Accession number …. Database. 检索数据库的方法. 用关键词或词组进行数据库检索 (Text-based database searching). 用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching). 名词、描述性词、词组 序列注册号 (Accession number). 关键词. NCBI Entrez
E N D
生物信息学 第三章 关键词或词组为基础的数据库检索(I)
Gene name Author Accession number … Database 检索数据库的方法 • 用关键词或词组进行数据库检索 (Text-based database searching) • 用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching)
名词、描述性词、词组 序列注册号 (Accession number) 关键词 NCBI Entrez Sequence Retrieval System (SRS) Integrated database retrieval system (DBGET) 关键词或词组为基础的数据库检索 最准确可靠 检索体系 Trends in Biotechnology 1998, 16 (supplement 1):3-5.
检索须知(1) • 连接词 AND, OR, NOT(Boolean operators) rice AND enzyme (AND为缺省值,可略去) rice AND enzyme NOT kinase retrotransposon OR retroelement 注意事项: 1、AND, OR, NOT must be entered in UPPERCASE 2、Boolean operators are processed in a left-to-right sequence 3、The order can be changed by enclosing individual concepts in parentheses (processed first) >27000 records rice AND microarray OR expression profile PubMed rice AND (microarray OR expression profile) 504 records
检索须知(2) • 用引号将两个单词组成一个词组 • 16S rRNA = 16S AND rRNA • “16S rRNA” exact match 16S rRNA ~3300000 sequences Nucleotide “16S rRNA” ~380000 sequences • wild card, *, 放在单词后使检索范围扩大,但专一性降低 pseudopod* =pseudopodORpseudopodia ORpseudopodium • 表示范围, :, 连接前后关键词,限定范围 110:500[Sequence Length] 2009/3/1:2009/9/30[Publication Date]
Entrez Help 1. Entrez http://www.ncbi.nlm.nih.gov/gquery/ NCBI 的检索体系 优点:三种检索体系中最容易操作的体系,帮助文档完备
Entrez可对6大类40个数据库进行检索 Nucleic Acids Research 2013, 41:D8-D20
Entrez可对6大类40个数据库进行检索 针对基因组已测序完成的物种 针对17个广泛研究的模式生物 Prokaryotic, chloroplast, mitochondrial, virus, protist, plant 针对GenBank中具有大于7万条EST的物种
检索方法(1):跨库检索 (cross-database search) Entrez系统中数据库之间的连接 NCBI主页选择“All Databases”或Entrez主页,输入关键词 各个数据库中检索到的信息数量 点击相应数据库查看信息目录,每一条信息与其它数据库的相关信息链接
检索方法(2):选择数据库检索 NCBI主页选择数据库,输入关键词 检索到的信息目录,每一条信息与其它数据库的相关信息链接 查看信息内容
序列数据库的搜索——精简搜索结果 查询insulin基因的序列 不是想要的结果!如何精简?
精简搜索结果的方法2:使用Advanced search 查询人(human)的insulin基因的序列 关键词 [查询范围]: insulin [title] human [organism]
如何定义查询范围? 任意搜索范围:Xa21[All Fields] [Publication Date]:记录公开日期 1000:2000[Sequence Length] biomol_genomic[Properties] biomol_mrna: mRNA biomol crna: cRNA [Modification Date] gbdiv_pln[Properties] [Title] LOCUS DQ176424 1980 bp DNA linear PLN 12-MAR-2006 DEFINITION Oryza sativa (indica cultivar-group) pathogen-induced defense-responsive protein 8 (DR8) gene, complete cds. ACCESSION DQ176424 VERSION DQ176424.1 GI:73918052 KEYWORDS HTG. SOURCE Oryza sativa Indica Group ORGANISM Oryza sativa Indica Group Eukaryota; Viridiplantae; Streptophyta; Embryophyta;Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; BEP clade; Ehrhartoideae; Oryzeae; Oryza. REFERENCE 1 (bases 1 to 1980) AUTHORS Wang,G., Ding,X., Yuan,M., Qiu,D., Li,X., Xu,C. and Wang,S. TITLE Dual function of rice OsDR8 gene in disease resistance and thiamine accumulation JOURNAL Plant Mol. Biol. 60 (3), 437-449 (2006) PUBMED 16514565 [Accession] [GI] [Keyword]: EST GSS HTG HTC TPA TSA [Organism] [Author] [Journal] 注意:关键词和字段名(field)均不区分大小写
如何定义查询范围? FEATURES Location/Qualifiers source 1..646 /organism="Dicathais orbita" /organelle="mitochondrion" /mol_type="mRNA" /db_xref="taxon:69583" /clone="20006E09" /note="mitochondrial and ribosomal sequences produced by suppressive subtractive hybridization" CDS <1..>646 /gene="COXI" /codon_start=1 /transl_table=5 /product="cytochrome oxidase subunit I" /protein_id="ACT34372.1" /db_xref="GI:253740054" /translation="GTLYILFGMWSGLVGTALSLLIRAELGQPGALLGDDQLYNVIVT AHAFVMIFFLVMPMMIGGFGNWLVPLMLGAPDMAFPRLNNMSFWLLPPALLLLLSSAA gene_in_mitochondrion[Properties] [Feature Key]: promoter, mRNA, CDS, exon, intron, polyA_signal COXI[Gene Name] ORIGIN 1 ggtacattat atattctgtt tggaatatga tcaggcctag tgggaactgc tttaagttta 61 cttattcgag ctgagttagg acaacctggg gccctattag gggatgatca attatataat 121 gttattgtta cagcacacgc ttttgtaata atttttttct tagttatacc tataatgatc 第四章讲述使用序列进行检索
精简搜索结果 不同数据库的Search fields不同,详见Limits/Advanced选项! Aim: Find all human nucleotide sequences with the poly(A) signal. "polyA_signal“[FKEY] AND human[ORGN] Aim: Find all human protein sequences with lengths between 50 and 60 amino acids that were entered into the database during 1999. human[ORGN] AND 50[SLEN]:60[SLEN] AND 1999[MDAT] Aim: Find Drosophila population studies published in the Journal of Molecular Evolution j mol evol[JOUR] AND drosophila[ORGN] Search Field Descriptions for Sequence Database
精简搜索结果的方法3:直接输入搜索字段 查询人insulin基因的RefSeq序列 自动将俗名转换为学名
精简搜索结果的方法4:组合多次搜索结果 查询人insulin基因的RefSeq序列
使用Clipboard临时收集多条序列 永久保存收集的序列需要注册,然后Send to Collections
生物信息学 第三章 关键词或词组为基础的数据库检索(II)
http://www.ncbi.nlm.nih.gov/PubMed/ 文献数据库Pubmed的搜索 • 美国国家医学图书馆的数据库 • 数据来源 • MEDLINE:已经规范处理的数据,已标注MeSH Terms,记录标有[pubmed-indexed for medline] • In Process Citations:尚未经规范处理的数据,记录标有[pubmed-in process] • Publisher-Supplied Citations:由出版商提供的电子文献,记录标有[PubMed-as supplied by Publisher] • 搜索结果举例
Pubmed自动将检索词翻译为MeSH词汇 使用MeSH词汇能获得更加全面、准确的结果
精简PubMed搜索结果的方法:使用Advanced PubMed数据库的搜索 1 2 "huazhong agricultural university"[Affiliation]
精简PubMed搜索结果的方法:组合多个搜索字段 Watson J [author] 1953 [publication date] nature [journal] Watson J [AU] 1953 [DP] nature [TA] PubMed数据库的字段: Search Field Descriptions and Tags for Pubmed
PubMed Discovery Tools 小技巧:通过添加“&report=imagesdocsum”能搜索图片 http://www.ncbi.nlm.nih.gov/pmc/?term=rice+root&report=imagesdocsum
如果已知文献部分信息: 单篇文献匹配器(Single Citation Matcher): http://www.ncbi.nlm.nih.gov/pubmed/citmatch 多篇文献匹配器(Batch Citation Matcher): http://www.ncbi.nlm.nih.gov/pubmed/batchcitmatch
Google学术搜索 http://scholar.google.com/schhp?hl=zh-CN
http://www.endnote.com http://www.refman.com http://www.procite.com http://www.mendeley.com 检索、管理和引用文献的工具
2. SRS (Sequence Reterieval System) • http://srs.ebi.ac.uk/Help • European Bioinformatics Institute (EBI) 的传统检索体系 • 优点:检索面宽 • 缺点:操作复杂 注意:目前EBI提供的SRS功能正在逐步废除,但世界上仍有很多镜像站点可以使用: 德国http://www.dkfz.de/srs/ 意大利http://bioinfo.ceinge.unina.it/srs7131/ EBI新版的检索体系:EBI search
17大类194个数据库与SRS 体系相连 • Literature, Bibliography and Reference databases • Nucleotide sequence databases • Uniprot Universal Protein Resource • Other protein sequence databases • Deprecated Protein Databases • Nucleotide related databases • Protein function databases • Protein structure databases • Enzymes, reactions and metabolic pathway databases • Mutation and SNP databases • Gene ontology resources • Biological Resources Catalogues • Mapping databases • Other databases • User owned databases • Application result databases • EMBOSS result databases
检索方法(1):快速检索(Quick search) • 操作简单,检索数据库有限 • 适用于目标明确的检索 在SRS主页选择检索类别,输入关键词 检索到的信息目录,每一条信息与其它数据库的相关信息链接 查看信息内容
检索方法(2):高级检索(advanced search) • 操作稍微复杂,可以检索所有数据库 • 适用于范围广泛的检索 在SRS主页点击“Library Page” 在“Library Page”网页选择数据库,然后点击“Query Form” 在“Query Form”网页输入关键词检索 检索到的信息目录,每一条信息与其它数据库的相关信息链接
3. DBGET (Integrated database retrieval system) http://www.genome.jp/dbget/ 日本GenomeNet的检索体系 优点:与 Kyoto Encyclopedia of Genes and Genomes (KEGG) database 相连 操作较SRS简单 缺点:检索面较 SRS 窄 DBGET与40多个数据库相连 DBGET检索体系中数据库之间的连接
检索方法(1):单库检索(basic search) 在DBGET主页选择一个数据库 输入关键词检索 查看检索到的信息目录 查看信息详细内容
检索方法(2):跨库检索 (LinkDB) 在DBGET主页点击“LinkDB” 在查询网页选择数据库 输入关键词检索(数据库:编号) 结果
最后的提醒: 检索时如果所得信息与预期不符,需仔细检查: • 数据库 • 不同的数据库包含不同的内容,检索前需弄清数据库所包含数据的内容和范围 • 关键词 • 关键词的拼写是否正确 • 关键词的使用是否合乎主流 • retrotransposon retro-transposon • 是否使用了过多的关键词,以至于检索范围太窄。通常先使用最主要的关键词搜索,如果结果过多再逐步缩小范围
生物信息学 第三章 关键词或词组为基础的数据库检索(上机操作)
4、自习资源 DBGET Search
5、上机操作 1、查找与水稻抗病基因Xa21有关的资料: (1)有多少条序列具有全长CDS,分别由多少碱基构成?编码多少个氨基酸? (2)选择修改时间最早的一条序列,指出该基因exon和intron的位置。 2、检索注册号在AF123456-AF123478之间并且序列长度在1500到1800 bp之间的核苷酸数据,共有多少条?如何批量下载? 3、查找线虫(Caenorhabditis elegans)基因组的资料: (1)chromosome I的测序是否已完成? (2)已知的chromosome I的序列有多少碱基?序列发表在哪份杂志上?期号和页码? 4、查看拟南芥(Arabidopsis thaliana)的系谱关系(lineage)。 5、在PubMed中检索我校在2013年1月发表的科研论文。
5、上机操作(续) • 6、2013年3月底,在上海和安徽两地率先发现了一种能感染人类的H7N9型禽流感病毒(Avian-Origin Influenza A)。中国科学家迅速分离了该病毒并进行了初步研究,首篇正式的论文4月发表在医学领域权威期刊《The New England Journal of Medicine》。目前,NCBI GenBank中已收录该病毒分离自不同病人的多个毒株的序列,以下问题如提到“新H7N9”特指名为“A/Hangzhou/1/2013”的毒株。请根据该背景资料回答以下问题。 • 请找出这篇文献,列出其在PubMed中的PMID号。 • 该病毒属于H7N9亚型,其中的“H”代表血凝素(Hemagglutinin),“N”代表神经氨酸酶(Neuraminidase),分别是病毒外膜上的两种蛋白。H是病毒吸咐于细胞表面的工具,N则是病毒复制完成后脱离细胞表面的工具。请在NCBI核酸数据库(Nucleotide)中找出该毒株编码这两种蛋白的基因的序列,列出Accession号并简要写明过程。 • 列出该毒株在NCBI物种分类数据库(Taxonomy)中的ID号。NCBI蛋白质数据库(Protein)目前收录了多少条该毒株的蛋白质序列?