近日,研究人员公开了迄今为止世界上最大的谱系图——横跨五个世纪,涵盖约 1300 万人,他们通过亲缘或婚姻关系相互连接着。
这份谱系图不仅向我们展示了基因与长寿间的特定联系,还揭晓了祖先们选择婚姻配偶的原因。
“这项研究成果令人震撼,是众包 (crowdsourcing) 思维应用于科学研究的典型范例。”昆士兰大学遗传学家 Peter Visscher 评论道。
未来,这份谱系图有望帮助科学家研究更多遗传病的遗传机制。
建立谱系图
七年之前,哥伦比亚大学的计算遗传学家、MyHeritage.com 公司现任首席科学家 Yaniv Erlich 正式启动这项研究。
起因是他收到远方堂侄的一封邮件,其中介绍了一个人们自发分享谱系图的网站——Geni.com。他当即决定写信给网站的首席技术官,获准下载了数千万的用户数据,包括姓名、性别、出生地、出生和死亡年月、近亲属的相关信息 (不包含 DNA 数据)。
图丨哥伦比亚大学的计算遗传学家、MyHeritage.com 公司现任首席科学家 Yaniv Erlich
对于研究者来说,要建立起这样一张规模浩大的家族谱系图,实在是相当冗杂且乏味。通常他们需要先从各个教堂、法院搜集记录,然而大多数情况下这些记录都记载于古旧的纸张,要用这样的记录来追踪远距离亲缘关系简直就是一场噩梦。
然而,回报是丰厚的,因为通过追踪人们的亲缘关系,我们可以纵览文化和经济趋势,以及遗传学变化和人口变迁。对于那些将系谱图与遗传、健康相关数据相结合的研究者来说尤为如此。
纽约基因组研究中心(New York Genome Center)的遗传学家 Joanna Kaplanis 与其同事表示,他们已经找到了一种更简单的办法来汇总所需的庞大数据集:将任务“众包”(crowdscource)给各大公众系谱网站。该团队从系谱网站 Geni.com 收集了个人数据,每一份数据都包括了个人的姓名、其与数据集内其他人的关系,以及诸如出生时间、出生地、是否婚嫁、是否死亡之类的其他信息。
该网站的软件能检测每个用户的谱系图分支与其他谱系图是否有重合,然后将这些小谱系图合并为更大的谱系图。这一功能结合起研究者们的分析处理,研究者们最终将这些数据汇集成 530 万份谱系图,其中最大地连接了 1300 万、从 1650 年至 2000 年的 11 代人,绝大多数为欧洲血统,包括著名遗传学家 Sewall Wright、演员 Kevin Bacon 等。
研究的过程中,他们曾将数据和美国佛蒙特州 80000 例死亡案例中的教育背景相匹配 (其中 1000 例也出现在 Geni.com 的数据库),试图证明对谱系学研究感兴趣 (并上传数据的) 人往往家境殷实、学识广博。遗憾的是,研究人员并未发现其中的关联。
经过旷日持久的数据挖掘后,Erlich 的团队于四年前公开了这份谱系图的初稿。时至今日,谱系图不断完善,囊括了多达 8600 万个用户节点。
通过对这份谱系图的观察研究,专家们还从中总结出了不少有关人口增减的动态走向,例如在美国南北战争和两次世界大战期间成年男性的数量一直呈下降趋势,直到进入 20 世纪尤其是二战以后,新生儿的出生率和存活率才开始上扬。
而随着时间的推移,人类在地球上的分布也越来越广泛,在这份谱系图上就明确地标出了世界历史上的主要迁徙事件,例如 1620 年英国清教徒抵达了美洲大陆,登上了如今的马萨诸塞州,以及 1788 年英国殖民者开始将囚犯流放到澳大利亚,等等。
图丨上述谱系图中有 70000 个亲属, 通过婚姻 (红色) 和共同的祖先联系在一起
此次这份谱系图还另辟蹊径,得出了另外一项较为重要的评估成果——我们的寿命与基因的关联程度究竟为多少,科学家们给出的答案是:16%。在北欧地区,这一数字为 25%(研究剔除了双胞胎样本)。
这意味着,自我们每一个个体出生以后,我们能活多长时间主要取决于后天的环境和我们自己的行为,基因对于我们寿命的影响反而变得更小了。
以往的猜测中常常认为,遗传基因对于人的寿命可能有很重要的影响,而今的研究结果却表明,这种论调言过其实。
研究人员调查了谱系图中各个研究对象的寿命——即实际寿命和预期寿命。谱系图中关系复杂,联系众多,研究者排除同一家庭生活下的环境影响,从中寻找由遗传基因主导的那部分模式。
“我们的分析结果表明,以往的研究高估了长寿的遗传性,”他们在文中写到,“因而,我们也许应该降低对从基因组数据中预测寿命的预期。”甚至说,我们根本不应该寄希望于发现与长寿直接相关的基因。
丹麦欧登塞双胞胎登记处的负责人 Kaare Christensen 对此评论道,“北欧地区长期和平的环境使得人们的意外死亡减少,(长寿)基因就开始起作用了。”不过,他也指出,仅仅凭借双胞胎的数据来支持这项研究还是会多少有些不足够。
而那个 16% 的研究数字也意味着,寻找传说中能够“延年益寿”的长寿基因对于科学家来说还是十分困难的事情,起码比我们想象中的要难上很多。
领导此次研究的 Erlich 团队还提出了一个十分有意义的项目——“我的挚爱,你在哪?”(who and where is the love of your life),用以探究历史中基因与我们的婚姻之间的微妙关联。
他们发现,在 18 世纪的时候,人们通常会和 10 公里外“五服内”的家族表亲结婚,而从 1850 年代开始,人们婚姻之间的遗传关系就减少了,专家们往往会认为,出生距离和交通工具的发展结束了近亲结婚。不过,对于这一现象,还出现另外一种解释,文化和文明已经无法接纳这种行为了。
“但不管怎么说,这些都有助于我们理解基因是如何在一定范围的地理区域内传播的,”Erlich 说。
不过,这份谱系图毕竟还只是基于人们的亲缘关系所编织的“人际网络”,一切的分析和应用还是太流于表面,并没有实际上的基因数据的支持。而为了彻底地探究出其中的奥秘,Erlich 的团队已经开始使用一个名为 DNA.Land 的网站对谱系图进行再分析。
其大致的操作过程是,志愿者们利用 23andMe 和 MyHeritage.com 等公司的基因分析服务获取自己的 DNA 数据信息,将这些信息上传到 DNA.Land 上,并填写一份健康调查问卷,然后 Erlich 的团队基于这些数据开始构建基因数据集,同时,这些数据集也会向其它研究人员共享。
不难想象,这些数以万亿计的活着的、死去的人类个体的遗传信息叠加在一起,足以让研究人员们确定遗传因素在疫病、身高等性状中所发挥的作用。
正如冰岛的 deCODE Genetics 公司结合 DNA 和健康数据为全国国民打造的谱系图一样(冰岛全国人口约为 32 万),这 1300 万人的庞大谱系图将会成为科学家们处理人类生育和遗传问题的“强大数据库”。
上述研究 刊登 在了近期出版的《科学》杂志上。
文章来源:序说DNASpeaking
{replyUser1} 回复 {replyUser2}:{content}