投稿问答最小化  关闭

万维书刊APP下载

Nature:用于识别疾病相关变异的扩展基因组数据库

2024/1/16 14:28:25  阅读:70 发布者:

论文ID

题目:A genomic mutational constraint map using variation in 76,156 human genomes

期刊:Nature

IF69.504

发表时间:2023126

通讯作者单位:麻省理工

DOIhttps://doi.org/10.1038/s41586-023-06045-0

主要内容:

一个名为gnomAD的人类基因组数据库的扩展版本,包含76,156个全基因组序列,可以研究基因组非蛋白质编码区域的变异如何影响健康。

长期以来,科学家们一直怀疑,许多致病基因突变存在于基因组的98%中,这些突变不编码蛋白质,特别是在调节基因表达的区域。然而,系统地区分有害突变和中性突变一直具有挑战性,部分原因是研究人员缺乏对非编码基因组的哪些片段对人类健康至关重要的清晰画面。作者为了应对这一挑战,引入了一种工具,可以分析大量人类基因组,以识别突变时最有可能引起疾病的非编码区域。

这项工作代表了基因组聚合数据库(gnomAD)的最新版本,该数据库是人类遗传变异的公开目录。第一个版本,于 2020 年发布,包括来自 125,748 人的蛋白质编码 DNA 15,708 人的全基因组的序列数据。从那时起,该联盟大大扩展了数据库;该资源现在包括来自76,156个不同祖先的个体的全基因组序列,提供了更深入的人类遗传变异图景。

GnomAD已经改变了人类遗传学,特别是在诊断罕见疾病方面。任何个体的基因组都与数百万个位点的其他人的基因组不同。这些遗传变异中的大多数在临床上是无意义的,特别是那些在普通人群中常见的变异。当临床遗传学家分析疑似患有罕见遗传病的人的DNA时,他们必须筛选所有变异,消除常见的变异,以找到最有可能引起疾病的变异。GnomAD使临床医生能够轻松查找一个人的变异,并排除那些在世界范围内或在特定遗传祖先中常见的变异。在最新版本的gnomAD中,全基因组数量更大,祖先更多样化,这将使科学家能够更容易地识别非编码基因组中哪些变异是罕见的,因此更有可能与疾病有关。

gnomAD等大型数据集还使研究人员能够开发“不耐受指标”,以检查在大量人群样本中观察到的基因中有多少蛋白质改变变异,与在进化过程中随机出现的预计数量相比。这些措施有助于确定哪些基因不耐受遗传变异。变异小于预期的基因更不耐受,并且更有可能与疾病相关,而不是具有与偶然预期一样多或更多的变异的基因。

越来越多的人努力将不耐受指标扩展到包括人类基因组的非编码部分。Chen 等使用一种称为 Gnocchi 的方法添加到此工具列表中(图 1)。虽然蛋白质编码基因具有明确的边界,但非编码区域则不那么方便地划分为功能单元。为了规避这个问题,作者将基因组划分为1000个碱基对窗口,并计算了每个窗口的不耐受性。

虽然在概念上与其他非编码不容忍分数相似,但 Gnocchi 的主要进步在于它如何计算每个窗口中理论上预期的变异数量。突变率在整个基因组中差异很大,受局部序列背景和通过添加甲基修饰 DNA 的方式等因素的影响。Chen及其同事引入了一个包含这些不同特征的统计模型,以更好地估计每个窗口中的突变率。    

作者验证了面疙瘩以多种方式识别基因组相关区域的能力。首先,他们表明,平均而言,蛋白质编码区域比非编码区域更不耐受变异,这与预期一致。其次,他们发现非编码基因组中最不耐受的区域富含基因调控元件,如启动子和增强子。第三,他们证明面疙瘩可以区分假定的良性变异和非编码基因组中致病突变的精选列表。第四,他们表明,被诊断患有发育障碍的个体比健康人更有可能在基因组的不耐受区域出现拷贝数变异(导致DNA重复或缺失的大变异)。

Chen及其同事还证明,面疙瘩可用于支持传统的基因水平不耐受评分。他们将基因的非编码增强子对变异的不耐受性(使用面疙瘩测量)与基因编码区域对破坏其正常功能的变异的不耐受性(使用称为LOEUF的单独指标测量)进行了比较。这两个指标通常一致,但在某些情况下,似乎可以耐受功能丧失的基因具有不耐受的增强子。这些事件主要发生在小基因上,基因水平不耐受评分的准确性目前受到样本量的限制。将基因的 LOEUF 评分与其增强子的 Gnocchi 评分相结合,改善了对小蛋白质编码基因的总体不耐受估计。

之前在将基因水平的不耐受分数与测量基因非翻译区域不耐受的分数相结合时显示出类似的性能提升(转录成信使RNA但未翻译成蛋白质的区域)。通过结合每个基因及其所有邻近和遥远的调控序列的不耐受指标,可以在未来的工作中进一步完善这些方法。

值得注意的是,Gnocchi在识别非编码、疾病相关变异的能力方面似乎优于现有指标,其中包括去年使用近两倍的基因组序列开发的指标,这些基因组序列可通过一个名为UK Biobank的公开存储库获得。Gnocchi的更好表现可能是由于其分数的制定方式和突变如何产生的模型的差异。然而,与英国生物样本库相比,gnomAD中基因组序列的收集包括更多的非欧洲血统的个体这一事实也可以解释一些性能差异。值得称赞的是,近一半的gnomAD基因组样本来自非欧洲血统的个体,但研究人员必须继续努力寻找更大、更多样化的人类参考集,以提高不耐受指标的准确性并改善健康公平性。

gnomAD联盟在第一次迭代中为数据聚合和共享设定了黄金标准,并在这方面继续堪称典范。在gnomAD联盟的强有力领导下,这一资源将继续增长,该联盟明确表示,当务之急是不断扩大数据库,使其更能代表全球人口。通过这样做,它将为科学家提供更多的工具来揭示我们基因组中隐藏的秘密。

原文链接:https://www.nature.com/articles/s41586-023-06045-0

转自:“生物医学科研之家”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com