英国牛津大学大数据研究所研究人员在绘制人类之间的全部遗传关系图方面迈出了重要的一步:一个单一的家谱,可追溯我们所有人的祖先。该研究24日发表在《科学》杂志上。
这个人类遗传多样性的新家谱网络,以前所未有的细节揭示了世界各地的个体如何相互关联。该研究预测了人类共同的祖先,包括他们大致居住的时间和地点,并分析恢复了人类进化史上走出非洲等重大事件。研究的基本方法可能在医学研究中得到广泛应用,例如识别疾病风险的遗传预测因子。
追踪人类遗传多样性的起源,以生成世界各地个体如何相互关联的完整图谱,这一愿景的主要挑战是找到一种方法来组合来自许多不同数据库的基因组序列,并开发算法来处理这种规模的数据。牛津大学大数据研究所研究人员此次发布的新方法可轻松地组合来自多个来源的数据并进行扩展,以适应数百万个基因组序列。
大数据研究所进化遗传学家、论文主要作者之一黄燕博士解释说:“我们基本上已建立了一个巨型家谱,这是一个全人类的家谱,它尽可能准确地模拟了产生所有人类的历史。我们今天在人类身上发现的遗传变异,这个家谱使我们能够看到每个人的基因序列是如何沿着基因组的所有点相互关联的。”
由于单个基因组区域仅从父母一方遗传,无论是母亲还是父亲,基因组上每个点的祖先都可被认为是一棵树。这组树被称为“树序列”或“祖先重组图”,将遗传区域通过时间与首次出现遗传变异的祖先联系起来。
研究人员称:“从本质上讲,我们正在重建我们祖先的基因组和使用它们来形成庞大的关系网络。然后我们可估计这些祖先生活的时间和地点。这个方法的强大之处在于它对基础数据的假设很少,并且还可包括现代和古代DNA样本。
该研究整合了来自8个不同数据库的现代和古代人类基因组数据,包括来自215个人群的总共3609个个体基因组序列。古代基因组包括在世界各地发现的年龄从1000到100000岁不等的样本。算法预测了进化树中必须存在共同祖先的位置,以解释遗传变异的模式。由此产生的网络包含近2700万个祖先。
在这些样本基因组上添加位置数据后,研究人员使用该网络来估计预测的共同祖先居住的地方。结果成功地重现了人类进化史上的关键事件,包括走出非洲。
研究小组计划通过继续整合可用的遗传数据,使家谱图更加全面。由于树序列以高效的方式存储数据,因此数据集可轻松容纳数百万个额外的基因组。
总编辑圈点
这是下一代DNA测序的基础。随着现代和古代DNA样本基因组序列质量的提高,树序列正变得更加准确,最终,科学家能够生成一个单一、统一的图谱,解释我们今天看到的所有的人类遗传变异。另一方面,虽然人类是这项研究的重点,但该方法对大多数生物都有效——从大猩猩到小细菌。其在医学遗传学方面也将发挥功用,将遗传区域和疾病之间的真正关联,从人类共同的祖先历史中“揪”出来。(科技日报记者 张梦然)