背景:
自2007年发表第一个癌症全基因组关联研究以来,已经发现了数千个与癌症风险相关的常见等位基因。与单个变异体相关的相对危险度较小,且临床意义有限。然而,通过多基因评分(PGSs)捕获的多个风险变异体的合并效应可能要大得多,因此提供了在临床上有用的风险区分。我们回顾了过去15年在开发PGSs的统计方法及其在大规模全基因组关联研究中应用的大量研究工作,以开发各种癌症的PGSs。
简介:
2023年7月21日,来自美国Cedars-Sinai医疗中心计算生物医学系的Paul D. P. Pharoah教授课题组在Nat Rev Cancer(IF: 78.5)杂志上发表题为“Polygenic scores in cancer”的文章[1]。本文总结了多基因评分(PGSs)的预测性能以及目前限制PGSs临床应用的多重挑战。尽管如此,在临床试验和临床实施研究中,PGSs正开始被纳入临床多因素风险预测模型,以对风险进行分层。
主要结果:
遗传度和多基因风险。
遗传度和疾病发病率是支撑多基因评分(PGSs)预测能力的两个关键因素之一,因为PGS最多只能在其可遗传的程度上预测疾病风险。遗传度是指通过遗传或生殖细胞系遗传变异解释的性状或表型的变异比例。GWAS的出现使“芯片遗传度”的测量成为一种估计遗传度的方法;这是通过GWAS芯片上基因分型的SNP变异体数量可以捕获的人群中表型变异的比例。它很接近被称为狭义遗传度的遗传度的一个组成部分。估计芯片遗传度的方法包括需要个体水平基因型数据的限制性最大似然估计和基于汇总关联统计的LD评分回归分析。在PGSs的背景下,芯片遗传度是一个重要的概念,因为在名义上的全基因组显著性识别的变异体只捕获大多数癌症类型的总遗传度的一部分;芯片遗传度表示基于常见变异体的多基因模型(PGM)性能的上界。
开发多基因模型的方法。
开发PGM涉及两个关键步骤:选择要包括的SNP集和分配SNP特定的权重。一些方法需要个体水平的基因型数据,而另一些方法可以应用于SNP水平的汇总关联统计。硬阈值法根据关联阈值的p值选择SNP,并为每个SNP分配权重作为效应量估计值。需要考虑SNP之间的相关性,以便从每组高度相关的SNP中只选择一个SNP。这可以使用逐步回归或连锁不平衡(LD)丛生和修剪等方法来实现。其他方法包括一个更大的SNP集和应用某种“收缩”的SNP特定的效应大小。这些方法可以通过考虑SNP之间的LD结构来包括来自同一基因座的多个相关SNP。LDpred、多基因风险评分-连续收缩、确定性贝叶斯稀疏线性混合模型和正态混合模型等贝叶斯方法使用之前的预期效应量和LD结构分布来应用收缩。替代方案应用收缩使用标准的惩罚回归方法,如套索回归,脊回归或极小-极大凹惩罚回归。选择和收缩算法专门选择较少的SNP被包括在PGS中,并在效应大小上放置收缩
PGSs和高外显率基因。
多项研究表明,中危和高危癌症易感基因的致病变异体携带者的癌症风险因癌症家族史而异。这些提示,遗传性遗传因素和其他家族性因素改变了致病变异体携带者的癌症风险。迄今关于风险的个体遗传修饰因子的大多数证据是针对BRCA1和BRCA2基因致病变异体的携带者,并且来自大型研究,如BRCA1/ 2修饰因子研究联盟(Consortium of Investigators of modifiers of BRCA1/ 2, CIMBA)开展的研究。这些研究表明,常见的乳腺癌和卵巢癌易感变异体改变了致病变异体携带者的相应癌症风险。对于BRCA1或BRCA2以外的癌症易感基因的致病变异体携带者,GWASs通常太小,无法具有识别个体遗传修饰因子的统计学功效。
由于致病性变异体携带者发生癌症的风险已经增加,因此即使是常见的低危变异体的存在也可能导致发生疾病的绝对风险出现巨大差异。然而,当通过PGS考虑SNP修饰因子的综合效应时,获得的绝对风险差异要大得多。最好的例子之一来自对BRCA1和BRCA2致病变异携带者进行的CIMBA研究,这些研究用于预测女性携带者患乳腺癌和卵巢癌的风险,以及男性携带者患乳腺癌和前列腺癌的风险。
PGS与非遗传危险因素。
对癌症的易感性是多因素的;除遗传危险因素外,已知若干生活方式、人体测量、激素、生殖和影像学危险因素与各种癌症的发生风险相关。将这些危险因素(包括PGSs)组合成多因素风险预测模型,可以实现更个体化的癌症风险预测和癌症风险分层。我们需要了解PGSs与其他流行病学危险因素和癌症易感基因中的罕见致病性变异体之间的相互作用,从而开发这样的多因素模型。大多数个体风险SNPs和PGSs已被证明在相对风险量表上与流行病学危险因素相乘交互作用。包括PGSs在内的几个经过验证的多因素癌症风险预测模型已经发表。
肿瘤PGS的临床应用。
PGSs在肿瘤中的潜在临床应用是一个正在进行的研究和争论的领域。最有可能的应用是在风险分层中,即通过人群范围的遗传筛查确定患癌症的绝对风险最高的人群,然后进行早期检测和风险分层预防。风险分层的效用取决于癌症特异性遗传度和人群中的疾病发病率。因此,风险分层不太可能对罕见癌症有用。14种癌症的全基因组遗传结构模型提示,乳腺癌、前列腺癌和结直肠癌具有足够的遗传度和发病率组合,因此可以进行充分的多基因风险分层。然而,这些模型表明,目前针对这三种癌症的GWAS样本量必须至少增加4倍,才能识别出足够多的变异体,以解释目前识别出的80%以上的芯片遗传度,并最大限度地提高鉴别能力。这强调了更大的癌症GWAS的必要性,以推动更好的PGM的开发用于临床应用。
风险分层预防或早期检测的应用方式是针对癌症的,不仅取决于对PGM和癌症发病率的区分,而且还取决于是否有有效的干预措施。此外,确定风险临界值以确定患者是否符合接受特定预防性干预措施的条件可能很困难。手术在降低乳腺癌、结直肠癌、卵巢癌和胃癌等癌症的发病率和死亡率方面非常有效,但由于手术的费用和危害,手术仅提供给绝对风险非常高的个体。即使是最常见的具有最具分辨力的PGM的癌症,高危个体也只占人群的一小部分。例如,英国国家卫生和医疗质量优化研究所(National Institute For Health and Care Excellence, NICE)指南建议为终身患乳腺癌风险超过30%的女性提供可降低风险的乳房切除术。
不同人群的PGS。
在GWAS中,欧洲血统的个体存在明显的过度代表。使用这些数据开发的PGSs在其他祖先中的性能往往降低,随着与欧洲祖先(南亚人、东亚人和非洲人)的遗传距离的比例,预测准确性越来越差。例如,与来自英国生物样本库(UK Biobank)的欧洲血统个体的表型方差相比,使用欧洲血统个体开发的245个性状的PGSs分别解释了南亚、东亚和非洲血统个体的65%、49%和18%的表型方差。
预测准确性的损失主要是由于等位基因频率的跨谱系差异,以及GWASs检测的真正因果变异体和相关标记变异体之间的祖先特异性LD差异。此外,为欧洲血统人群设计的基因分型阵列无法很好地捕获在非欧洲血统中常见,但在欧洲血统中等位基因频率较低的变异体,因此检测效能较低。由于使用了基于大多数欧洲血统个体样本测序的参考组,这可能会加剧这一情况。然而,最新的TopMed参考组是基于超过15万个基因组,其中41%是欧洲人,31%是非洲人,28%是其他血统。几乎没有证据表明因果变异体的效应量在不同血统之间有差异。
结论和展望:
15年的癌症易感性GWASs为开发用于确定癌症风险的PGSs奠定了坚实的基础。包含关联生殖细胞系遗传信息、电子健康记录和流行病学数据的更大纵向队列的出现,使评估用于癌症风险预测的PGSs成为可能,可以单独评估,也可以结合已知的癌症行为、生活方式和环境风险因素,以及中等外显率和高外显率的癌症风险等位基因。乳腺癌、前列腺癌和结直肠癌具有较大的GWASs,以及足够的发病率和遗传度因素,使PGSs在这些肿瘤的临床应用成为可能。然而,未来癌症GWASs的预测效用和普适性将需要更大的癌症GWASs,特别是在不同祖先人群中的癌症GWASs。
目前有几种用于推导多基因风险模型的统计学方法,但最终应用于临床需要就每种癌症的最佳模型构成以及在个体中生成PGSs的技术和基础设施达成共识。多种癌症类型和非癌症疾病的PGS可一次性测量,因此PGS测量在现代医疗系统中尤其具有吸引力。综上所述,PGSs为改善癌症风险分层提供了一种有前景的新方法,它可能使预防和早期检测干预措施更有针对性地针对癌症高危人群,同时使非常低危的人群免受此类干预措施的不良影响。
原文链接:https://pubmed.ncbi.nlm.nih.gov/37479830/
参考文献:
[1] Yang X, Kar S, Antoniou AC, Pharoah PDP. Polygenic scores in cancer. Nat Rev Cancer. 2023 Jul 21. doi: 10.1038/s41568-023-00599-x. Epub ahead of print. PMID: 37479830.
转自:“生物医学科研之家”微信公众号
如有侵权,请联系本站删除!