单体型分析

单体型分析

一、基本概念 1、SNP数据及SNP数据库碱基对(Base Pair,bp):两个碱基(A和T,或者C和G)之间靠氢键结合在一起,形成一个碱基对。DNA的两条链就是靠碱基对之间的氢键连接在一起,形成双螺旋结构。千碱基(kb)或兆碱基(Mb) 1号染色体

任意两个不相关的人的DNA序列有99.9%是一致的，正是剩下的0.1%的差异造成了人与人之间的差异，造成了人们罹患疾病的不同风险和对药物的不同反应。发现这些与常见疾病相关的DNA多态位点，是揭示人类疾病复杂致病原因的最重要途径之一。任意两个不相关的人的DNA序列有99.9%是一致的，正是剩下的0.1%的差异造成了人与人之间的差异，造成了人们罹患疾病的不同风险和对药物的不同反应。发现这些与常见疾病相关的DNA多态位点，是揭示人类疾病复杂致病原因的最重要途径之一。

在基因组中，最普遍的DNA变异就是单个碱基的差异，可以分为转换与颠换、单碱基的插入与缺失等不同类型。在基因组中，最普遍的DNA变异就是单个碱基的差异，可以分为转换与颠换、单碱基的插入与缺失等不同类型。对于其中发生率大于1%的变异被称作单核苷酸多态性（SNPs）。一般都是2态的

ATGATTAGATCGAAAAAGGGGGTC ATGATTAGATCGAAAAAGGGGGTC ATGATTAGATCGAAATAGGGGGTC ATGATTAAATCGAAAAAGGGGGTC ATGATTAGATCGAAATAGGGGGTC ATGATTAGATCGAAAAAGGGGGTC ATGATTAAATCGAAAAAGGGGGTC

SNP数据说明：

SNP数目 人类基因组中SNP的数目还是个未知数，据估计人类所有群体中存在大约1500 万个SNP 位点（稀有SNP 位点的频率至少为1%，平均约每300 ~600 bp ) 存在一个碱基突变。

1、目前SNP做为标记 2、位于编码区的SNP可能会直接导致疾病 SNP分布的广泛性为我们在某个染色体区段内对疾病相关突变进行更精确的扫描提供了可能性。随着人类基因组计划的完成，如何利用人类基因组SNP 多态信息探究遗传性状，特别是复杂疾病与药物反应的遗传机制已经成为当前的研究热点。

应用SNP作为标记寻找疾病基因的思想： 有些SNP的等位基因是真正导致疾病的突变。带有此种等位基因的个体发生相应疾病的风险要比正常人高很多。虽然大部分SNP都不具有这种功能性的变异，但是却可以作为我们寻找致病基因的标志。为了寻找致病基因所在的区域，我们将存在于病人和正常人中的SNP等位基因的频率进行比较，如果病人某些等位基因的频率比正常人高，那么这些SNP就与这一疾病相关，这种SNP与疾病的相关性说明致病基因就可能存在于这些SNP所在的染色体区域中。

SNP数据库

2. 单体型的起源及人类单体型计划 2.1单体型的定义单体型（haplotype）一个染色体区域中所有相关联的SNP等位基因的集合被称为一个单体型（haplotype）

第一个SNP位点有两个等位基因A和G，第二个SNP位点为C和T，对这两个SNP来说，有4种可能出现的单体型：AC、AT、GC和GT，但实际上只有AC和GT是常见的，也就是说，这些SNP相互之间是高度相关的。第一个SNP位点有两个等位基因A和G，第二个SNP位点为C和T，对这两个SNP来说，有4种可能出现的单体型：AC、AT、GC和GT，但实际上只有AC和GT是常见的，也就是说，这些SNP相互之间是高度相关的。 • 当一个新的突变出现时，这一区域的单体型也会发生相应的变化，只有突变和重组才能打破突变位点与它的始祖单体型之间的相关关系

不同民族、不同群体、不同个体的单倍体型类别和频率可能是不同的。不同民族、不同群体、不同个体的单倍体型类别和频率可能是不同的。显然，对单倍体型进行分析为运用SNP信息探究遗传性状尤其是复杂性状的遗传机制提供了一条更加便捷、更加有效的途径。

单体型块 2001年，Daly等的研究表明人类染色体5q31上500kb的片断上，其单倍体型结构可以被分为一系列分离的单倍体域：域的大小为3~92kb；域内有2~4个常见的单倍体型（这些单倍体型包含了所有染色体90％以上的SNP信息）；域的内部几乎不发生重组。

几乎与此同时，Jeffreys等的单精分型（single-sperm typing）实验数据表明，Ⅱ型主要组织相容性复合体（MHC）基因序列的大部分重组都限定在狭窄的重组热点处。这就暗示了一个有趣的假设：基因组可以被重组热点分割为一些高度连锁不平衡的区域。

定义： • 染色体上存在着的连续的、稳定的几乎没有被重组打断的单体型范围称之为单体型块 • 单体型块很可能是遗传的最小单位，在极端情况下，它可以是一个单独的ＳＮＰ，或者是整条染色体。　

Tag SNPs

3.2.1 基于单倍体型多样性 Zhang等（2002，2003）提出了单倍体域分割的动态程序算法，算法的原理是使每个单倍体域中能代表域中大部分性质的标签SNPs达到最少。他们的算法已经被开发为程序HAPBLOCK（http://hto-b.usc.edu /~msms/HapBlock/）。划分 Patil等（2001）首先将单倍体域定义为包括样本中所有单倍体型中80％以上（出现一次以上）的区域。根据这个定义，Patil等提出了获得单倍体域近似分割的贪婪算法。

3.2.2 基于连锁不平衡的定义 Gabriel等（2002）将单倍体域定义为只包含一些常见单倍体型，且几乎没有发生过重组的一套连续的位点，于是在生物学方面确定单倍体域就是检测每个区间内的重组交换方式。

估计成对SNPs重组历史的常用方法就是检测两两位点间连锁不平衡的方法——D’估计成对SNPs重组历史的常用方法就是检测两两位点间连锁不平衡的方法——D’ • 所谓连锁不平衡是指相邻的两个位点的等位基因同时出现在一个单倍体型中的次数多于自由分离重组的期望值。 • 估计染色体区段内两两位点间，依据与预先所确定的域值范围（判断位点间是强连锁不平衡还是曾经发生重组）的关系而进行染色体上单倍体域的分割。 • Gabriel等在不同人群(Nigeria/Yoruba, Asia, African Americans, Europeans)中，分析了51个常染色体片断（共计13Mb），检测了群体内与群体间单倍体域结构的相似性，不同人群中的单倍体域的差异,不仅可以解释其自身独特的历史迁徙情况,也可以解释人群间某些疾病易感性的差异。

依据Gabriel对单倍体域的定义，Philips等使用公共遗传标记数据构建了19号染色体的单倍体型，结果发现染色体的三分之一被单倍体域所覆盖.依据Gabriel对单倍体域的定义，Philips等使用公共遗传标记数据构建了19号染色体的单倍体型，结果发现染色体的三分之一被单倍体域所覆盖. Wang 等（2002）利用四配子检验法（four-gamete test, FGT）提出了另一种单倍体域的算法。算法首先对成对的SNPs进行四配子检验（检测到4个配子就表示曾经发生重组），将两两位点的四配子状态用矩阵表示，有4个配子出现计为1，否则为0；单倍体域被定义为没有重组现象发生的一组有序SNP标记，也就是根据FGT的结果，只要配子数不超过3个，就不断累加SNP到一个域中，直到第k个位点出现4个配子而结束。位点k可作为另一个新域的一个突变起始点。FGT算法的优点之一就是无需预先设定域值。

单体型板块并没有清晰的界限。 首先，重组热点是以区域而不是单个碱基位点的方式存在的。其次，一次重组只能将一个单体型传递下去，要明确区分单体型板块的界限，需要多次重组的发生，但是人类所经历的世代是有限的，有可能重组事件发生的次数还不足以将单体型板块清晰的区分出来。而且，人口统计学以及群体遗传学现象的差异也会使重组的效果受到影响。有事例说明，遗传漂移以及自然选择都可以使单体型的种类减少。所以，单体型板块并不是可以清晰分界的分离实体。

解剖学上的现代人类始祖居住于15万年前的非洲，化石记录和和遗传证据表明现在所有的人都起源于此。因为人类是一个相对年轻的物种，任何现代人群的大多数变异都来自于祖先中就已经存在的多态性。而且，当人类走出非洲的时候，他们带走了部分而不是全部的祖先的遗传多态性。因此，非洲以外的单体型可以看作是非洲单体型的子集。另外，非洲以外的人类的单体型比非洲人的单体型更长，因为非洲人有更长的历史，也就有更多的重组来打破单体型。

4 标签SNP位点 4.1 概念 Patil等（2001）进一步地表明，在一个染色体区域（单倍体域）内尽管可以有很多个SNP位点，但经常只用少数几个SNP就能够反映该区域内大多数的遗传多态模式信息。这少数的几个有代表性的SNP被称为单倍体型标签SNP（htSNP ）。

理论上，研究者通过对全部一千万个SNP位点都进行基因分型，也能够寻找到这样的区域。但是，目前用这种方法进行检定的成本是过于昂贵。理论上，研究者通过对全部一千万个SNP位点都进行基因分型，也能够寻找到这样的区域。但是，目前用这种方法进行检定的成本是过于昂贵。 • 通过单体型图计划将鉴定出20~100万个标签SNP位点，从而提供与一千万个SNP位点大致相同的图谱信息。这样将大幅度地减少成本使研究易于进行。

Tag SNP 500,000 显然，从众多的SNP位点中筛选出有限的htSNP具有重大的实践意义。 HapMap计划的一个目的就是从人类1500万个SNP位点中鉴定出约50万个htSNP位点。 15,000,000

HapMap计划 国际单体型图计划 “国际人类基因单体型图”计划（International HapMAP Project）是继“国际人类基因组计划”之后人类基因组研究领域的又一重大研究计划。如果说基因组序列图为人类提供了一份生命的“说明书”，那么单体型图将是它使用的一本索引目录。此项计划于2002年10月27-29日由HapMap计划第一次会议启动，由美国、加拿大、英国、中国、尼日利亚和日本科学家共同承担，三年完成。

遗传学一直致力于DNA序列变异型与表型之间关系的研究。人与人之间在身高、肤色以及对疾病的易感性、对药物的反应等方面千差万别，但是任意两个人类基因组之间却只存在约0.1%的序列差异，正是这千分之一的差异，使我们有了不同的表现型。进一步解读生命密码，即从这些序列差异入手。遗传学一直致力于DNA序列变异型与表型之间关系的研究。人与人之间在身高、肤色以及对疾病的易感性、对药物的反应等方面千差万别，但是任意两个人类基因组之间却只存在约0.1%的序列差异，正是这千分之一的差异，使我们有了不同的表现型。进一步解读生命密码，即从这些序列差异入手。

单体型计划将以世界三大族群即，亚、非、欧裔人群单体型板块结构的相似点和常见单体型为基础，提供人类基因组单体型板块及其相应SNPs的信息。测定常见单体型及标记它们的tagSNP，将为人类基因组的连锁不平衡分析提供丰富的信息。单体型计划将以世界三大族群即，亚、非、欧裔人群单体型板块结构的相似点和常见单体型为基础，提供人类基因组单体型板块及其相应SNPs的信息。测定常见单体型及标记它们的tagSNP，将为人类基因组的连锁不平衡分析提供丰富的信息。

单体型图的作用 • 单体型图将描述人类常见的遗传多态模式。它包括染色体上具有成组紧密关联SNPs的区域，这些区域中的单体型，以及这些单体型的标签SNPs。同时，单体型图还将标示出那些SNP位点关联不紧密的区域。 • 研究者一般通过比较患者和非患者来发现影响某种疾病例如糖尿病的基因。在两组单体型频率不同的染色体区域，就有可能包含疾病相关基因

单体型计划将以世界三大族群即，亚、非、欧裔人群单体型板块结构的相似点和常见单体型为基础，提供人类基因组单体型板块及其相应SNPs的信息。

所以此项研究选择了来自中国和日本的亚洲人群、被称为约鲁巴的尼日利亚人群、以及来自西欧和北欧的欧裔人群作为抽样的三大族群。所以此项研究选择了来自中国和日本的亚洲人群、被称为约鲁巴的尼日利亚人群、以及来自西欧和北欧的欧裔人群作为抽样的三大族群。 DNA样本共有270份，分别来自 90个尼日利亚Ibadan的Yoruba人（30个三体家系），45个东京的日本人（无关个体）， 45个北京的汉族人（无关个体） 90份CEPH样品（30个三体家系，1980年由CEPH采集并曾用于其他人类遗传图谱研究的北欧和西欧后裔的样品）。

中国在HapMap 项目中做出10% 的贡献。 • HapMap“ 中国卷”的具体内容是构建人3 号、21号染色体和8 号染色体短臂的HapMap 以及提供一半的亚洲样品 • 亚洲一共９０个人，４５个中国人和４５个日本人

6数据结构和下载 • 下载地址：http://www.hapmap.org/downloads/index.html.zh • 数据结构： • I期２７０个个体的130万个SNP基因分型、分布频率及实验数据等有关资料。 • II期２７０个个体的310万个SNP基因分型、分布频率及实验数据等有关资料。

基因型数据 ：递交到数据协调中心（DCC）的单个基因分型数据 • 连锁不平衡数据：使用D'、LOD、R2 对最新的基因分型数据进行连锁不平衡分析。 • phase数据：由第16次公布的数据（即第一阶段数据集）经软件PHASE运算产生 • SNPs 分类：根据若干标准挑选出来优先进行分型的dbSNP库中的参考SNP组群。每条染色体上的SNP数目及更详细内容在名为“00README”的文件中。 • 频率：递交到数据协调中心的等位位点和基因型频率数据汇总。这些数据也已递交至 dbSNP库，可在新版的dbSNP中检索到。 • 重组率和重组热点：通过基因分型数据计算的重组率和重组热点 • SNP 分析实验：递交到数据协调中心的详细实验内容。包括每个 SNP分型平台所有的 PCR引物序列，延伸探针等。

Ⅱ期HapMap • Ⅱ期HapMap描述了来自于四个群体270个个体的3.1M的人类SNP • 通过这些SNP，计算多态间的连锁关系，可以俘获其他的常见SNP（根据群体差异，r2值在0.9-0.96之间） • 现在用于商业的SNP分型产品俘获Ⅱ期HapMap常见SNP的r2值平均为0.8（非洲群体）和0.95（其他群体）

新的SNP测定，对染色体连锁不平衡模式产生了较大的影响新的SNP测定，对染色体连锁不平衡模式产生了较大的影响 • 同一群体中10-30％个体对共享了至少一个祖先区域 • 有1％的SNP处于重组热点而无法被其他SNP代替（untaggable) • 重组率随基因和基因功能的变化产生差异 • 不同的SNP（同义SNP和非同义SNP）经受不同程度的选择压力

HapMap：从Ⅰ期到Ⅱ期 • HapMap计划发起于2002年，致力于开发加快医学遗传学研究的公共资源 • Ⅰ期实现了每5kb一个SNP（总数约1.3M）的分型目标，涉及到四个群体，270个个体 • 30个取自Yoruba Ibadan（非洲, YRI）的母亲－父亲－成年孩子核心家系 • 30个西北欧裔美国Utah州（欧洲, CEU)核心家系 • 45个取自中国北京（CHB）的不相关个体 • 45个取自日本东京（JPT）的不相关个体，和CHB合并为同一个板块研究（亚洲）

HapMap计划的最初目标是开发基因组范围关联研究的设计和分析方法HapMap计划的最初目标是开发基因组范围关联研究的设计和分析方法 • HapMap计划为重组热点的分布和产生原因、染色体结构变异、基因进化提供了新视野 • HapMap计划推动了遗传和分子表型研究，联结序列和功能之间的关系

Ⅱ期HapMap计划测定了同一样本的另外2.1M的SNP，达到每kb一个，占总人类常见SNP（MAF>=0.05）总数（约9-10M）的25-35％Ⅱ期HapMap计划测定了同一样本的另外2.1M的SNP，达到每kb一个，占总人类常见SNP（MAF>=0.05）总数（约9-10M）的25-35％

Ⅱ期HapMap的构架 • Ⅱ期HapMap SNP基因型分型工作主要是由Perlegen amplicon-based platform完成的，这一平台的主要工作原理是PCR扩增后的寡核苷酸芯片杂交试验 • 从dbSNP中初步筛选4,373,926个SNP做为分型对象，从中筛除无法制作芯片探针或不能通过其他选择标准的SNP • 成功分型并通过分型质量控制的SNP中有11,000个非同义SNP、4,500个MHC SNP，并对Ⅰ期中的21,000个定位不确定的SNP进行重新定位

Ⅱ期HapMap获得的所有SNP基因型数据储存在HapMap Data Coordination Center（http://www.hapmap.org)及dbSNP数据库 • 存储数据分为三类（发布版本21a） • Redundant unfiltered：所有测定的基因型数据 • Redundant filtered：通过质量控制的数据 • Non-redundant filtered：每个研究样版中都出现的通过质量控制的SNP • 所有SNP基因型数据的分型精确度达到99.5％

对于每个研究样板的单体型和缺失数据估计采用基于核心家系信息或基于Coalescent model的方法 • 为进行不同群体间的比较，创建了一个一致数据集，总共3,107,620（Ⅰ期中这个数字为931,340）个SNP被选入，这些位点在三个研究样板中都有分布，并且至少在一个样板中是多态形式，并参照黑猩猩和恒河猴基因组定义祖先SNP态（除非特别说明，下文提到的研究分析都是针对这一数据集进行的）

Ⅱ期测定的SNP密度为1.14SNP/kb（平均间距875bp），其中98.6％最小间距小于5kb，但分布密度存在空间的异质性，并与基因分布相关Ⅱ期测定的SNP密度为1.14SNP/kb（平均间距875bp），其中98.6％最小间距小于5kb，但分布密度存在空间的异质性，并与基因分布相关

Ⅱ期测定的SNP间距与Ⅰ期有差别，同时在最小等位频率和连锁不平衡模式上也存在差别Ⅱ期测定的SNP间距与Ⅰ期有差别，同时在最小等位频率和连锁不平衡模式上也存在差别 • Ⅱ期的SNP存在较高的聚集性和较小的最小等位频率 • 连锁不平衡统计量随最小等位频率变化而变化， Ⅱ期的平均r2值小于Ⅰ期，平均D’值大于Ⅰ期 • Ⅱ期计划更易于发现罕见变异 • Ⅱ期中加入一个或几个SNP对单体型造成的影响 • 出现与Ⅰ期相似SNP分布 • 呈现更精细的单体型结构 • 产生新的未发现的单体型，易于新的重组热点定位

图２ Ⅱ期数据的单体型结构和重组率估计

Ⅱ期HapMap用于基因组关联研究 • SNP的间距和频率分布提高了常见变异的覆盖度，能够覆盖绝大多数常见的人类SNP

单体型分析

单体型分析

Presentation Transcript