第三章关键词或词组为基础的数据库检索 (I)

生物信息学 第三章关键词或词组为基础的数据库检索(I)

Gene name Author Accession number … Database 检索数据库的方法 • 用关键词或词组进行数据库检索 (Text-based database searching) • 用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching)

名词、描述性词、词组 序列注册号 (Accession number) 关键词 NCBI Entrez Sequence Retrieval System (SRS) Integrated database retrieval system (DBGET) 关键词或词组为基础的数据库检索最准确可靠检索体系 Trends in Biotechnology 1998, 16 (supplement 1):3-5.

检索须知（1） • 连接词 AND, OR, NOT（Boolean operators） rice AND enzyme (AND为缺省值，可略去) rice AND enzyme NOT kinase retrotransposon OR retroelement 注意事项： 1、AND, OR, NOT must be entered in UPPERCASE 2、Boolean operators are processed in a left-to-right sequence 3、The order can be changed by enclosing individual concepts in parentheses (processed first) >27000 records rice AND microarray OR expression profile PubMed rice AND (microarray OR expression profile) 504 records

检索须知（2） • 用引号将两个单词组成一个词组 • 16S rRNA = 16S AND rRNA • “16S rRNA” exact match 16S rRNA ~3300000 sequences Nucleotide “16S rRNA” ~380000 sequences • wild card, *, 放在单词后使检索范围扩大，但专一性降低 pseudopod* =pseudopodORpseudopodia ORpseudopodium • 表示范围, :, 连接前后关键词，限定范围 110:500[Sequence Length] 2009/3/1:2009/9/30[Publication Date]

Entrez Help 1. Entrez http://www.ncbi.nlm.nih.gov/gquery/ NCBI 的检索体系优点：三种检索体系中最容易操作的体系，帮助文档完备

Entrez可对6大类40个数据库进行检索 Nucleic Acids Research 2013, 41:D8-D20

Entrez可对6大类40个数据库进行检索 针对基因组已测序完成的物种针对17个广泛研究的模式生物 Prokaryotic, chloroplast, mitochondrial, virus, protist, plant 针对GenBank中具有大于7万条EST的物种

检索方法（1）：跨库检索 (cross-database search) Entrez系统中数据库之间的连接 NCBI主页选择“All Databases”或Entrez主页，输入关键词各个数据库中检索到的信息数量点击相应数据库查看信息目录，每一条信息与其它数据库的相关信息链接

检索方法（2）：选择数据库检索 NCBI主页选择数据库，输入关键词检索到的信息目录，每一条信息与其它数据库的相关信息链接查看信息内容

序列数据库的搜索——精简搜索结果 查询insulin基因的序列不是想要的结果！如何精简？

精简搜索结果的方法1：使用Limits

精简搜索结果的方法2：使用Advanced search 查询人（human）的insulin基因的序列关键词 [查询范围]: insulin [title] human [organism]

如何定义查询范围？ 任意搜索范围：Xa21[All Fields] [Publication Date]：记录公开日期 1000:2000[Sequence Length] biomol_genomic[Properties] biomol_mrna: mRNA biomol crna: cRNA [Modification Date] gbdiv_pln[Properties] [Title] LOCUS DQ176424 1980 bp DNA linear PLN 12-MAR-2006 DEFINITION Oryza sativa (indica cultivar-group) pathogen-induced defense-responsive protein 8 (DR8) gene, complete cds. ACCESSION DQ176424 VERSION DQ176424.1 GI:73918052 KEYWORDS HTG. SOURCE Oryza sativa Indica Group ORGANISM Oryza sativa Indica Group Eukaryota; Viridiplantae; Streptophyta; Embryophyta;Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; BEP clade; Ehrhartoideae; Oryzeae; Oryza. REFERENCE 1 (bases 1 to 1980) AUTHORS Wang,G., Ding,X., Yuan,M., Qiu,D., Li,X., Xu,C. and Wang,S. TITLE Dual function of rice OsDR8 gene in disease resistance and thiamine accumulation JOURNAL Plant Mol. Biol. 60 (3), 437-449 (2006) PUBMED 16514565 [Accession] [GI] [Keyword]: EST GSS HTG HTC TPA TSA [Organism] [Author] [Journal] 注意：关键词和字段名（field）均不区分大小写

如何定义查询范围？ FEATURES Location/Qualifiers source 1..646 /organism="Dicathais orbita" /organelle="mitochondrion" /mol_type="mRNA" /db_xref="taxon:69583" /clone="20006E09" /note="mitochondrial and ribosomal sequences produced by suppressive subtractive hybridization" CDS <1..>646 /gene="COXI" /codon_start=1 /transl_table=5 /product="cytochrome oxidase subunit I" /protein_id="ACT34372.1" /db_xref="GI:253740054" /translation="GTLYILFGMWSGLVGTALSLLIRAELGQPGALLGDDQLYNVIVT AHAFVMIFFLVMPMMIGGFGNWLVPLMLGAPDMAFPRLNNMSFWLLPPALLLLLSSAA gene_in_mitochondrion[Properties] [Feature Key]: promoter, mRNA, CDS, exon, intron, polyA_signal COXI[Gene Name] ORIGIN 1 ggtacattat atattctgtt tggaatatga tcaggcctag tgggaactgc tttaagttta 61 cttattcgag ctgagttagg acaacctggg gccctattag gggatgatca attatataat 121 gttattgtta cagcacacgc ttttgtaata atttttttct tagttatacc tataatgatc 第四章讲述使用序列进行检索

精简搜索结果 不同数据库的Search fields不同，详见Limits/Advanced选项！ Aim: Find all human nucleotide sequences with the poly(A) signal. "polyA_signal“[FKEY] AND human[ORGN] Aim: Find all human protein sequences with lengths between 50 and 60 amino acids that were entered into the database during 1999. human[ORGN] AND 50[SLEN]:60[SLEN] AND 1999[MDAT] Aim: Find Drosophila population studies published in the Journal of Molecular Evolution j mol evol[JOUR] AND drosophila[ORGN] Search Field Descriptions for Sequence Database

精简搜索结果的方法3：直接输入搜索字段 查询人insulin基因的RefSeq序列自动将俗名转换为学名

精简搜索结果的方法4：组合多次搜索结果 查询人insulin基因的RefSeq序列

使用Clipboard临时收集多条序列 永久保存收集的序列需要注册，然后Send to Collections

生物信息学 第三章关键词或词组为基础的数据库检索(II)

http://www.ncbi.nlm.nih.gov/PubMed/ 文献数据库Pubmed的搜索 • 美国国家医学图书馆的数据库 • 数据来源 • MEDLINE：已经规范处理的数据，已标注MeSH Terms，记录标有[pubmed-indexed for medline] • In Process Citations：尚未经规范处理的数据，记录标有[pubmed-in process] • Publisher-Supplied Citations：由出版商提供的电子文献，记录标有[PubMed-as supplied by Publisher] • 搜索结果举例

Pubmed自动将检索词翻译为MeSH词汇 使用MeSH词汇能获得更加全面、准确的结果

精简PubMed搜索结果的方法：使用Advanced PubMed数据库的搜索 1 2 "huazhong agricultural university"[Affiliation]

精简PubMed搜索结果的方法：组合多个搜索字段 Watson J [author] 1953 [publication date] nature [journal] Watson J [AU] 1953 [DP] nature [TA] PubMed数据库的字段： Search Field Descriptions and Tags for Pubmed

PubMed Discovery Tools 小技巧：通过添加“&report=imagesdocsum”能搜索图片 http://www.ncbi.nlm.nih.gov/pmc/?term=rice+root&report=imagesdocsum

如果已知文献部分信息： 单篇文献匹配器（Single Citation Matcher）： http://www.ncbi.nlm.nih.gov/pubmed/citmatch 多篇文献匹配器（Batch Citation Matcher）： http://www.ncbi.nlm.nih.gov/pubmed/batchcitmatch

如何自动获得最近更新的结果？

Google学术搜索 http://scholar.google.com/schhp?hl=zh-CN

http://www.endnote.com http://www.refman.com http://www.procite.com http://www.mendeley.com 检索、管理和引用文献的工具

2. SRS (Sequence Reterieval System) • http://srs.ebi.ac.uk/Help • European Bioinformatics Institute (EBI) 的传统检索体系 • 优点：检索面宽 • 缺点：操作复杂注意：目前EBI提供的SRS功能正在逐步废除，但世界上仍有很多镜像站点可以使用：德国http://www.dkfz.de/srs/ 意大利http://bioinfo.ceinge.unina.it/srs7131/ EBI新版的检索体系：EBI search

17大类194个数据库与SRS 体系相连 • Literature, Bibliography and Reference databases • Nucleotide sequence databases • Uniprot Universal Protein Resource • Other protein sequence databases • Deprecated Protein Databases • Nucleotide related databases • Protein function databases • Protein structure databases • Enzymes, reactions and metabolic pathway databases • Mutation and SNP databases • Gene ontology resources • Biological Resources Catalogues • Mapping databases • Other databases • User owned databases • Application result databases • EMBOSS result databases

检索方法（1）：快速检索(Quick search) • 操作简单，检索数据库有限 • 适用于目标明确的检索在SRS主页选择检索类别，输入关键词检索到的信息目录，每一条信息与其它数据库的相关信息链接查看信息内容

检索方法（2）：高级检索(advanced search) • 操作稍微复杂，可以检索所有数据库 • 适用于范围广泛的检索在SRS主页点击“Library Page” 在“Library Page”网页选择数据库，然后点击“Query Form” 在“Query Form”网页输入关键词检索检索到的信息目录，每一条信息与其它数据库的相关信息链接

3. DBGET (Integrated database retrieval system) http://www.genome.jp/dbget/ 日本GenomeNet的检索体系优点：与 Kyoto Encyclopedia of Genes and Genomes (KEGG) database 相连操作较SRS简单缺点：检索面较 SRS 窄 DBGET与40多个数据库相连 DBGET检索体系中数据库之间的连接

检索方法（1）：单库检索（basic search） 在DBGET主页选择一个数据库输入关键词检索查看检索到的信息目录查看信息详细内容

检索方法（2）：跨库检索（LinkDB） 在DBGET主页点击“LinkDB” 在查询网页选择数据库输入关键词检索（数据库:编号）结果

最后的提醒： 检索时如果所得信息与预期不符，需仔细检查： • 数据库 • 不同的数据库包含不同的内容，检索前需弄清数据库所包含数据的内容和范围 • 关键词 • 关键词的拼写是否正确 • 关键词的使用是否合乎主流 • retrotransposon retro-transposon • 是否使用了过多的关键词，以至于检索范围太窄。通常先使用最主要的关键词搜索，如果结果过多再逐步缩小范围

生物信息学 第三章关键词或词组为基础的数据库检索(上机操作)

4、自习资源 DBGET Search

5、上机操作 1、查找与水稻抗病基因Xa21有关的资料: （1）有多少条序列具有全长CDS，分别由多少碱基构成？编码多少个氨基酸？（2）选择修改时间最早的一条序列，指出该基因exon和intron的位置。 2、检索注册号在AF123456－AF123478之间并且序列长度在1500到1800 bp之间的核苷酸数据，共有多少条？如何批量下载？ 3、查找线虫(Caenorhabditis elegans)基因组的资料：（1）chromosome I的测序是否已完成？（2）已知的chromosome I的序列有多少碱基？序列发表在哪份杂志上？期号和页码？ 4、查看拟南芥(Arabidopsis thaliana)的系谱关系(lineage)。 5、在PubMed中检索我校在2013年1月发表的科研论文。

5、上机操作（续） • 6、2013年3月底，在上海和安徽两地率先发现了一种能感染人类的H7N9型禽流感病毒（Avian-Origin Influenza A）。中国科学家迅速分离了该病毒并进行了初步研究，首篇正式的论文4月发表在医学领域权威期刊《The New England Journal of Medicine》。目前，NCBI GenBank中已收录该病毒分离自不同病人的多个毒株的序列，以下问题如提到“新H7N9”特指名为“A/Hangzhou/1/2013”的毒株。请根据该背景资料回答以下问题。 • 请找出这篇文献，列出其在PubMed中的PMID号。 • 该病毒属于H7N9亚型，其中的“H”代表血凝素（Hemagglutinin），“N”代表神经氨酸酶(Neuraminidase)，分别是病毒外膜上的两种蛋白。H是病毒吸咐于细胞表面的工具，N则是病毒复制完成后脱离细胞表面的工具。请在NCBI核酸数据库（Nucleotide）中找出该毒株编码这两种蛋白的基因的序列，列出Accession号并简要写明过程。 • 列出该毒株在NCBI物种分类数据库（Taxonomy）中的ID号。NCBI蛋白质数据库（Protein）目前收录了多少条该毒株的蛋白质序列？

第三章 关键词或词组为基础的数据库检索 (I)