Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

Lecture 2 : He MiaoPhDlsshem@mail.sysu.edu.cn Sun Yat-sen University, Guangzhou Mar. 2011 生物信息数据库简介

人类遗传数据国际宣言纲要（修正稿） • 国际生命伦理学委员会（IBC）在第九次会议（2002年11月26-28日，加拿大蒙特利尔）初步审议后提出，在国际生命伦理学委员会起草小组第四次会议（2002年11月29日，加拿大蒙特利尔）缜密考虑基础上产生的。 • 每个人都有一套独特的基因结构。尽管如此，一个人的身份不应被归结为基因特性，因为它是由复杂的教育和其它环境因素以及同他人的情感、社会和文化纽带决定的。

人类遗传数据国际宣言纲要（修正稿） • 人类遗传数据只能以诊断和卫生保健目的，医学和其它研究，包括流行病学研究目的，法医学目的，在民事和刑事诉讼中的司法目的，以及任何其它与有关人类基因组和人权的世界宣言以及国际人权法一致的目的被收集、处理、使用和储存。 • 人类遗传数据不应用于歧视目的，其使用也不应可能导致对一个人、一个家庭或者一个群体的羞辱。 • 依照国家法律，一个人不能对产生人类遗传数据的样本采集表示同意的时候，则不管目的如何，应依照这个法律或者国家条例获得事先、自由、知情和明确表达的同意或者法律授权，并考虑有关个人最佳利益，特别在涉及儿童和残疾人时。

人类遗传数据国际宣言纲要（修正稿） • 与一个可以确认身份的人有联系的人类遗传数据不应该被泄露给第三方或者让第三方获得，尤其不能让雇主、保险公司或者教育机构获得，除了有国家法律或条例的授权及获得当事人的同意，以及遵照国际人权法以外。 • 应该使以科学研究为目的收集人类遗传数据与一个可以确认身份的人脱离联系。如果这种脱离联系可以挽回，那么应当采取必要的防范措施来确保数据对第三方的保密，并对人权、基本自由和人类尊严的行使和遵守尊重，给予应有的重视以确保有关。 • 应该确保人类遗传数据的准确、可靠、质量和安全。在处理和解释人类遗传数据时，尤其在行为遗传学领域，鉴于它们的伦理和法律含义，相关专业人体应该严格、审慎、诚实和正直。

人类遗传数据国际宣言纲要（修正稿） • 为了医学和科学研究，包括以人群为基础的遗传学研究而收集的人类遗传数据，通过使用它们产生的利益应该由整个国际社会分享，可以采取以下形式： • 对参加研究的个人和群体的特殊援助 • 获得医疗保健 • 为源于研究的新的治疗方法或药物提供便利 • 为卫生服务提供支持 • 符合本宣言原则的任何其它形式

什么是一级数据库 • 直接来源于实验获得的原始数据，只经过简单的归类、整理和注释。 • 重要一级核酸数据库：GenBank、EMBL、DDBJ • 重要一级蛋白质序列数据库：SWISS-PROT、PIR • 重要一级蛋白质结构数据库：PDB • 什么是二级数据库 • 在一级数据库、实验数据和理论分析的基础上，针对不同的研究内容和需要，对生物学知识和信息的进一步整理得到的数据库。 • 人类基因组图谱库GDB转录因子和结合位点库TRANSFAC蛋白质序列功能位点数据库Prosite等。

生物信息数据库构建流程 二级数据库复合数据库生物信息学数据库工具基因组数据库染色体基因组图谱基因组作图核酸序列数据库核酸 DNA序列序列测定蛋白质序列数据库蛋白质序列蛋白质结构测定蛋白质结构数据库蛋白质结构

关于数据库的基本信息 • 一个数据库记录(entry)一般由两部分组成： • 1. 原始序列数据(sequence data) • 2. 描述这些数据生物学信息的注释(annotation) • 注释中包含的信息与相应的序列数据同样重要和有应用价值。 • 数据的完整性和注释工作量： • 1. 如果库中序列数据广，序列注释通常不够完整 • 2. 如果库中的数据面窄，序列注释通常比较全面 • 数据库的动态更新： • 1. 不断增加 • 2. 不断修正

1 一级数据库简介

1.1 核酸(DNA)序列数据库 • 世界三大核酸序列数据库 • (公共序列数据库，Public Sequence Database) • GenBank (美国) • EMBL(欧洲) • DDBJ(日本)

三大数据库数据增长

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2686462/pdf/gkn723.pdfhttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC2686462/pdf/gkn723.pdf

关于GenBank • GenBank（美国国家生物技术信息中心，NCBI） • 1980s • NIH(National Institute of Health) • Los Alamos National Lab • NLM(National Library of Medicine) NCBI(National Center for Biotechnology Information) • http://www.ncbi.nlm.nih.gov/Genbank/GenbankSearch.html

NCBI资源 • 关于NCBI • NCBI序列数据库—基础数据库——GenBank—派生数据库——RefSeq • Entrez数据库和文本搜索 • BLAST服务 • 基因组资源

Bethesda, MD The National Institutes of Health

The National Center for Biotechnology Information

NCBI基本信息 • 1988年创立，作为NLM的一部分—建立了公共数据库—开展计算生物学研究—研发用于序列分析的软件工具—传播生物医学信息 • 工具：BLAST（1990），Entrez（1992） • GenBank（1992） • 免费MEDLINE（PubMed，1997） • 人类基因组（2001）

NCBI Home Pagehttp://www.ncbi.nlm.nih.gov/ To learn more, visit the “Site Map” and “About NCBI” web pages

What does NCBI do? • NCBI accepts submissions of primary data • NCBI develops tools to analyze these data • NCBI uses these tools to create derivative databases based on the primary data • NCBI provides free search, link, and retrieval of these data, primarily through the Entrez system

Web Access Text Entrez Sequence BLAST Structure VAST

Some NCBI Statistics….

NCBI数据最近状况 • 7.9 million new sequences added over the past 12 months • New species are being added at the rate of over 2000 per month • The number of bases in GenBank has doubled approximately every 18 months.

数据容量 • Uncompressed, the Release 155.0 flatfiles require roughly 230 GB， sequence files only • 240 GB including the 'short directory', 'index' and the *.txt files.

Christmas and New Year’s Day NCBI Web Traffic Users per day

NCBI数据库 • 基础数据库—由实验人员原始提交和修订—数据库技术人员组织但不增添任何附加信息—例如：GenBank, SNP, GEO, PubChem Substance • 派生数据库—由专业人员或第三方管理编辑和修订数据例如：NCBI RefSeq, TPA, RefSNP, Protein, Structure, Conserved Domain, PubChem Compound —由计算派生例如：UniGene—结合例如：NCBI基因组集合

GenBank Divisions PRI (29) Primate ROD (21) Rodent PLN (16) Plant and Fungal BCT (12)Bacterial/Archeal VRT (10)Other Vertebrate INV (8) Invertebrate VRL (5) Viral MAM (2) Mammalian PHG (1) Phage SYN (1) Synthetic UNA (1)Unannotated Traditional • Direct Submissions (Sequin/Bankit) • Accurate (~1 error per 10,000 bp) • Well characterized • Organized by taxonomy Bulk EST (436)Expressed Sequence Tag GSS (158) Genome Survey Sequence HTG (68) High Throughput Genomic PAT (18) Patent sequences STS (14) Sequence Tagged Site HTC (10)High Throughput cDNA • From sequencing projects • Batch submissions (ftp/email) • Inaccurate • Poorly Characterized • Organized by sequence type

RefSeqNCBI的派生序列数据库 • 将为中心法则中自然存在的分子，从染色体-mRNA-蛋白质提供参考序列标准 • RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变分析，基因表达分析研究和多态发现提供一个稳定的参考点 • 转录产物和蛋白质的管理—复核数据—人类、大鼠、小鼠、果蝇、斑马鱼、拟南芥 • 人类模式转录产物和蛋白质 • 基因组区域的组装（Contigs）—人类基因组草图—老鼠基因组 • 染色体记录—微生物—病毒—细胞器

Entrez:Linking and Neighboring

What is Entrez? • A system of 29 linked databases • A text search engine • A tool for finding biologically linked data • A retrieval engine • A virtual workspace for manipulating large datasets

The (ever)Expanding Entrez System Journals UniGene PubMed Central Books SNP UniSTS PubMed Nucleotide PopSet Protein GenSAT Entrez Genome Structure Taxonomy CDD OMIM 3D Domains

Why do we need similarity searching? Searching with Sequences • To identify and annotate sequences with… • incomplete (or no) annotations (GenBank) • incorrect annotations • To assemble genomes • To explore evolutionary relationships by… • finding homologous molecules • developing phylogenetic trees • NOTE: Similar sequences may NOT have similar function!

Basic Local Alignment Search Tool • Widely used similarity search tool • Heuristic approach based on Smith Waterman algorithm • Finds best localalignments • Provides statistical significance • All combinations (DNA/Protein) query and database. • DNA vs DNA • DNA translation vs Protein • Protein vs Protein • Protein vs DNA translation • DNA translation vs DNA translation • www, standalone, and network clients

What can BLAST do？ • Nucleotide blast searches • Protein blast searches • Translated blast searches

BLAST主要程序类型

关于EMBL • EMBL(欧洲分子生物学实验室，EMBL) • 1982 • European Molecular Biology Laboratory • EBI（European Bioinformatics Institute） • http://www.ebi.ac.uk/embl

EMBL数据库数据增长

EMBL数据库记录数增长

EMBL数据分布

EMBL数据库构成 人大鼠小鼠狗牛埃及伊蚊猩猩斑马鱼短尾负鼠猕猴人大鼠小鼠狗牛野猪玉米斑马鱼环境序列未定义

EMBL2003年8月数据(Release 76)

EMBL2009年11月数据(Release 102)

EMBL数据库分类构成信息

Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

Presentation Transcript

Grillage Method of Superstructure Analysis

Demographics Explaining a Web Survey Entry Selection on the Postal Invitation Letter

Part II Lecture on Immunoglobulins and Fc Receptors 1 st November 2011

Online Advertising Open lecture at Warsaw University February 25/26, 2011

Lecture 6: Indexes and Database Tuning

Lecture 15 – Psyco 350, B1 Fall, 2011

信息与网络安全

Media Software Design

信息与网络安全

COMMERCIAL LAW 1 2011/2012 ACADEMIC YEAR LECTURE 1 UGBS, 23 RD AUG 2011

证据与法律推理

ICS 224: Database Management Systems Spring 2011

A Systemic Functional Linguistics Approach to Translation Studies 系统功能语言学视角下的翻译研究

CSE524: Lecture 4

461191 Discrete Mathematics Lecture 3: Algorithms, The Integers, and Matrices

Lecture 1

Welcome!

高分子与环境保护 Polymers and Environmental Protection

CDT314 FABER Formal Languages, Automata and Models of Computation Lecture 12

Materials for Lecture 08

Relational Algebra and My SQL(II)

Guangzhou Auto Show