在过去的17年间,全球大多数科学家们一直都以来自单个个体的基因组DNA信息集合,作为一种“基线”来比对遗传突变。
比如,人类基因组参考基因组:GRCh38就是来自定期更新的个体DNA序列。但是在一项最新研究中,约翰霍普金斯大学的科学家们发现,910名非洲人后裔的集体基因组中出现了很大一块的缺失——基础参考基因组中缺少了大约3亿bits。
领导这一研究的约翰霍普金斯大学计算生物学中心的Steven Salzberg博士说,“人类的DNA比我们原先想象的要多得多”。
Salzberg博士是生物信息学和计算生物学领域的著名科学家,在基因组组装上经验丰富,曾参与人类基因组计划。自新一代测序出现以来,他和他的团队开发了一系列应用程序,应用广泛。这一研究发现公布在Nature Genetics杂志上。
人体遗传变异
了解不同人群基因组的变异对于研究揭示为什么某些人或群体更易患常见的健康状况,例如心脏病,癌症和糖尿病至关重要,科学家需要建立更多参考基因组来反映不同的种群。
“整个科学界都依赖于一个单一的参考基因组,当一个特定的DNA分析与参考文献不匹配时,我们也许会扔掉那些不匹配的序列,但那些丢弃的DNA实际上可能会有你需要的答案和线索,“Salzberg说。
“如果你正在寻找在特定人群中更为普遍的病症相关的基因组变异,那么就应该将基因组与更能代表该人群的参考基因组进行比较”,文章的一作,约翰霍普金斯大学计算机科学专业的Rachel Sherman说。
世界参考基因组是由少数匿名志愿者的核酸序列组装而成。研究显示,70%的参考基因组来自一个半欧洲半非洲的个体,其余来自多个欧洲人和中国人。
“这项最新研究结果强调了对来自不同背景和祖先的人群进行研究,创建人类基因组全面和包容性的重要性,”NIH心脏病肺病科主任James P. Kiley博士说,“更全面的人类基因组可能会让我们更好地了解不同人群的疾病风险变化。”
更多种群的参考基因组
在最新研究中,Salzberg和Sherman收集了来自910个非洲人后裔的DNA,他们生活在全球20个地区,包括美国,中非和加勒比地区。
之前许多研究人员也在寻找参考基因组与他们正在研究的个体的基因组之间的微小差异,有时只是DNA中化学碱基对的单一变化。这些小变化被称为单核苷酸多态性SNP。
然而,Salzberg的团队专注于基因组中更大的变异。“SNP有助于确定个体的血统,但它们并不能很好地确定可能导致常见病症和疾病的遗传变异。因为一些情况可能是由于基因组较大部分变异造成的。”
在两年的时间里,Salzberg和Sherman分析了910人的DNA序列,寻找至少1000个碱基对中的DNA片段,这些片段与参考基因组不匹配。“这些DNA序列,使个体独特了起来,”Sherman说。
他们组装了这些序列,寻找重叠和冗余,筛选出短于1,000个碱基对的序列,以及可能与细菌相关的DNA,这种细菌在所有人类中都存在。
然后,他们将所有910个个体的组装序列与标准参考基因组进行比较,希望找出Salzberg所说的“你可能有,而我没有的DNA”。
这样,他们发现了3亿个碱基对DNA,这大约是整个人类基因组估计大小的10%。他们发现其中最大的独特DNA长度为152,000个碱基对,但大多数DNA长约1,000-5,000碱基对。
这些DNA序列中的一小部分可能与编码蛋白质或其他细胞功能的基因重叠,但Salzberg说,他们没有找到每个序列的功能。但Salzberg并不气馁:“要想了解什么是有用的,还是先需要了解全面。”
{replyUser1} 回复 {replyUser2}:{content}