投稿问答最小化  关闭

万维书刊APP下载

AI机器学习 | 北京大学生物医学前沿创新中心高歌课题组提出跨模态表征学习新方法

2023/2/24 15:42:10  阅读:121 发布者:

细胞中的生物过程涉及到DNARNA、蛋白质等多种不同层次的调控,它们相互影响,共同发挥作用,因此,整合不同组学数据对应的多模态信息是全面表征细胞生理/病理状态的前提与关键。

近年来单细胞多组学技术的发展使得生物学家可以同时在一个细胞中测得不同的模态/组学信息(SHARE-seq3, Sci-Car4, InCite-seq5, 10X multiome),有了对同一个系统的不同模态的认识,可以进一步加深对重要生命过程的理解,比如疾病,胚胎发育。但是这些多组学技术相较于之前的单组学技术,实际应用更困难,花费成本更高,得到的数据质量也更差。因此开发一种计算方法,来利用这些单细胞的多组学数据作为监督信号,整合目前已有的大量高质量的单模态数据将会对这个领域提供巨大的帮助(1)

 图1:在单细胞组学研究中的跨模态表征学习

针对这一问题,北京大学生物医学前沿创新中心(BIOPIC)高歌课题组提出了跨模态表征学习下的交联表征学习框架(Cross-linked Unified Embedding)1,相关论文被人工智能领域顶会NeurIPS 2022 接受,并获邀请做专题亮点报告(oral presentation) ,相关论文和代码均已开源。

单细胞多模态数据整合的常见范式是通过每个模态特有的编码器,将来自不同特征空间的数据投影到低维空间中,在通过学习匹配函数 (alignment methods) ,利用来自多组学技术的配对监督信号将模态特异的低维表征整合到一起。但是这些方法都有一个共同的局限,他们没有考虑到不同模态之间的分辨率是不同的,比如免疫细胞在表面蛋白这个模态上拥有更细致的表征,但是在整体基因表达上差异相对较小。因此在整合过程中,低分辨率的基因表达空间会影响高分辨的蛋白空间,从而损失这些模态特异性的信息。换言之,这些不同模态之间会相互掣肘,而不是共同促进。

为了解决这个问题,CLUE 引入模态特异的表征子空间,对每个模态有一个对应的子空间来学习对应模态的信息,从而消除不同模态之间由分辨率不同产生的互相限制。与此同时,CLUE进一步针对不同模态使用自模态编码器(self-encoder),来学习单个模态中的原始信息,利用跨模态编码器(cross-encoder)学习不同模态之间的信息,进而通过多模态之间的映射将这些来自不同模态的表征整合到一起(2)

2CLUE模型框架示意图

除此之外, CLUE也引入了对抗学习(Adversarial learning)以此消除不同模态之间的表征差异,以及借助多组学的监督信号来优化配对多模态表征的均方误差(mean square error),从而进一步提高整合的准确性。

在首届NeurIPS多模态单细胞数据整合竞赛中,CLUE在包括单细胞染色质开放组/转录组/表面蛋白组在内的所有整合类别跨模态整合中均以压倒性优势取得了冠军(3)10。与此同时,CLUE在于MultiVI, Cobolt, Bridge-integration等尚未参加比赛的整合方法的比较中也取得了最优的表现。

3CLUE 在单细胞染色质开放组,转录组,表面蛋白组上的整合结果

CLUE 在单细胞多组学中的相关模型已经整合入高歌课题组此前开发的基于Python的开源软件包 GLUE (https://github.com/gao-lab/GLUE)11中。值得注意的是,CLUE的设计并不局限于单细胞多组学数据,原则上可以被扩展应用至图像/文本/音频等多种模态领域。

开源代码:

https://github.com/gao-lab/GLUE

来源;北京大学生物医学前沿创新中心

论文链接:

https://openreview.net/pdf?id="Tfb73TeKnJ-

转自:“威斯腾生命科学研究院”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com