背景:
机器学习和实验生物学的最新进展为长期以来被认为难以解决的蛋白质结构预测等问题提供了突破性的解决方案。然而,尽管T细胞受体(TCR)在协调健康和疾病中的细胞免疫中发挥着关键作用,但通过计算重建从TCR到其同源抗原的可靠图谱仍然是系统免疫学的圣杯。目前的数据集局限于可能的TCR-配体对中微不足道的一小部分,而且当应用于超出这些已知结合物的范围时,最先进的预测模型的性能会下降。
简介:
2023年2月8日,来自英国牛津大学Weatherall分子医学研究所的Hashem Koohy教授课题组在Nat Rev Immunol(IF: 108.5)杂志上发表题为“Can we predict T cell specificity with digital biology and machine learning?”的文章[1]。在这篇文章中,作者提出了重新进行和协调的跨学科努力,以解决预测TCR-抗原特异性的问题。作者阐述了抗原结合预测模型的一般要求,强调了关键挑战,并讨论了单细胞技术和机器学习等数字生物学的最新进展如何提供可能的解决方案。最后,作者描述了预测TCR特异性如何有助于我们理解抗原免疫原性这一更广泛的谜题。
主要结果:
T细胞通常通过MHC蛋白家族成员表面表达的高度多样化异二聚体T细胞受体(tcr)识别提呈的抗原(图1)。这些抗原通常是8个或更多残基的短肽片段,其提呈在很大程度上由MHC等位基因1的结构偏好决定。脂质、代谢物和寡糖T细胞抗原也有报道。TCR通常通过其6个互补决定环(CDRs)中的1个或多个与抗原-MHC复合物结合,CDRs由TCR二聚体的每条链贡献3个。
当前发展状况。
从深化我们对疾病机制的理解,到为加速开发更安全、个性化的疫苗和疗法提供途径,构建TCR-抗原相互作用的完整图谱的理由令人信服。我们现在探讨了迄今为止在实验和计算方面取得的一些进展,强调了为什么TCR结合特异性的普遍预测仍然是一项艰巨的任务的可能解释。
实验性方法。
重组抗原-MHC多聚体检测法的开发已被证明在TCR-抗原特异性分析方面具有变革性,使研究者能够追踪和研究各种条件和疾病背景下的T细胞群。然而,仍有一些关键的局限性阻碍了TCR-抗原特异性的高通量测定。
抗原-MHC多聚体可使用批量(混合)T细胞群或较新的单细胞方法来确定TCR特异性。批量法应用广泛且相对便宜,但不能提供关于αβ TCR链配对或功能的信息。因此,单链TCR序列在公共数据集中占主导地位(图2)。然而,α链和β链均有助于抗原识别和特异性。我们将在后面讨论这对建模方法的影响。多模态单细胞技术可在细胞分辨率下深入了解链配对以及转录组和表型特征,但仍然昂贵,每次返回的TCR序列少于批量实验,并且对高特异性的TCR显示出显著偏倚。
图1:TCR的结构和功能
计算方法。
广义地说,目前的模型可以分为两类,我们称之为监督预测模型(SPMs)和无监督聚类模型(UCMs),因为它们分别使用了监督学习和无监督学习。
监督预测模型(SPMs)。SPMs是指在已知TCR -肽对的训练数据集的情况下,尝试学习一种函数,该函数将正确预测未知特异性的给定输入TCR的同源表位。在过去两年中,旨在利用深度神经网络(DNNs)解决这一挑战的出版物不断增多。虽然有许多可能的方法来比较SPM性能,但最常用的方法是受试者工作特征曲线下面积(ROC-AUC)。假设负和正对的比例平衡,我们可以从二元任务(绑定或非绑定)中的随机猜测中观察到50%的ROC-AUC。
对于少数由MHC i类提供的“可见的”免疫优势病毒表位,该指标的性能超过80%的ROC-AUC。然而,代表性并不能保证性能:据报道,HLA-A2* 01-CMV-NLVPMVATV44的ROC-AUC达到60%,这可能是由于不同的tcr对这一免疫优势抗原的识别。关键是,很少有模型使用可比的数据集明确评估训练过的预测因子对未见表位的性能。Weber等在VDJdb和COVID-19数据集的未见表位参考数据集中,TITAN的平均ROC-AUC为62±6%,而ImRex为50%。在随后的一篇来自Meysman组的论文中,TITAN和ImRex的数值分别为56±5%和55±3%。
无监督聚类模型(UCMs)。与SPMs不同,UCMs不依赖标记数据的可用性,而是学习对TCR、抗原或HLA输入进行分组,以反映数据的基础统计学变化。应用于TCR库,UCMs以单个或配对的TCR CDR3氨基酸序列作为输入,带有或不带有基因使用信息,并返回序列到独特集群的映射。聚类是通过确定输入序列之间的相似性来实现的,使用“手工制作”的特征,如序列距离或短子序列的富集,或通过比较DNNs学习到的抽象特征。
聚类为孤儿TCRs的特异性推断提供了多种途径。表位特异性可以通过假设一个未标记的TCR与已知特异性的受体相似,它将结合相同的表位来预测。也可以将未标记的和标记的TCRs共聚在一起,并将模态或最丰富的表位分配给聚在一起的所有序列。最后,DNNs可以用来生成“蛋白质指纹”,复杂变量输入序列的简单固定长度的数值表示,可以作为第二个监督模型的直接输入。
图2:目前已知TCR-抗原对的情况
关键的挑战。
尽管未标记免疫组库数据呈指数级增长,且近年来数据科学和人工智能领域取得了前所未有的突破,但定量免疫学仍缺乏一个系统性和可推广性推断孤儿TCRs T细胞抗原特异性的框架。对这些失败最合理的解释是数据的局限性、方法学的空白和基础免疫学模型的不完整。
数据。
模型开发的一个最重要限制是高质量TCR和抗原-MHC对的可用性。对未得到充分表达的抗原、由频率较低的HLA等位基因呈递的抗原以及表位特异性和T细胞功能的连锁的需求最为迫切。与此同时,单细胞多模态技术产生了数亿个未标记的TCR序列,这些序列与转录组学、表型和功能信息相关。然而,这些未标记的数据并非没有显著的局限性。值得注意的是,不同研究的生物学因素(如年龄、性别、种族和疾病环境)不同,并且可能影响免疫组库。
模型。
来自单细胞技术的孤儿TCR数据呈指数增长,以及人工智能和机器学习的前沿进展,使TCR -抗原特异性推断成为人们关注的焦点。然而,作者认为,在实现广义表位特异性推断的解决方案之前,必须解决几个关键的空白。
首先,TCR序列输入仅限于使用β链CDR3环和VDJ基因编码的模型只可能讲述抗原识别的一部分,而单链配对在多大程度上足以描述TCR -抗原特异性仍然是一个未解决的问题。为了训练模型,需要阴性和阳性样本的平衡集。在没有实验阴性的情况下,阴性的例子可以通过洗牌或从健康的供体库中随机抽取产生。然而,这些方法假设,一方面,TCRs没有交叉反应,另一方面,健康供体的基因库不包括对感兴趣的表位有反应的序列。最后,开发人员应该利用越来越多的带功能注释的孤儿TCR数据,通过迁移学习(transfer learning)来提高性能:迁移学习是一种在大量未标记或部分标记的数据上训练模型的技术,从这些数据集中学习到的模式用于通知第二个预测任务。该技术已被广泛应用于计算生物学,包括T和B细胞受体的预测任务。
免疫学。
现在很明显,T细胞与其同源配体相互作用的潜在免疫学相关因素是高度可变的,而且仅部分了解,这对模型设计有重要影响。重要的是,TCR -抗原特异性推断只是抗原免疫原性预测的一部分,我们将其归纳为三个阶段:MHC处理和呈递抗原、TCR识别和T细胞反应。
抗原处理和提呈途径已被广泛研究,预测与某些MHC等位基因尤其是ⅰ类HLAs结合的多肽亲和力的计算模型对常见等位基因达到了近乎完美的ROC-AUC。然而,这一问题远未得到解决,尤其是对于频率较低的MHCⅰ类等位基因和MHCⅱ类等位基因。
推广TCR特异性推断的一个关键挑战是TCR对具有特定基序的抗原既具有特异性,又具有相当多的杂合性。这一矛盾可以通过TCR CDR环中保守的“热点”残基与抗原中相应的2-3个残基簇的特异性相互作用来解释,并通过对其他位置氨基酸变异的更大耐受来平衡。TCRs也可以使用替代对接拓扑结合不同的抗原-MHC复合物。
图3:筛选和计算方法
结论和展望:
总之,数据可用性、方法学和免疫学背景的局限性在机器学习和数字生物学时代的T细胞免疫学领域留下了显著空白。我们相信,通过利用单细胞数据中出现的大量未标记的TCR序列,应用数据增强技术来抵消标记数据中的表位和HLA失衡,结合序列和结构感知特征,并应用基于丰富功能和结合数据的前沿计算技术,我们完全可以改进可推广的TCR -抗原特异性推断。
这项任务的规模和复杂性意味着我们需要跨学科联盟的方法,以系统地纳入组织水平对细胞免疫的最新免疫学认识,以及人工智能和数据科学领域的前沿发展。这应该包括实验和计算免疫学家、机器学习专家以及转化和工业合作伙伴。考虑到蛋白结构预测系列关键评估的成功,我们鼓励采用类似的方法来解决短期内TCR特异性推断的巨大挑战,并最终解决整合T和B细胞免疫原性的预测。参照蛋白质结构预测中值得赞扬的例子,相互竞争的模型应该免费供研究使用。
原文链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9908307/
转自:“生物医学科研之家”微信公众号
如有侵权,请联系本站删除!