论文ID
题目:Dissecting cell identity via network inference and in silico gene perturbation
期刊:Nature
IF:69.504
发表时间:2023年2月8日
通讯作者单位:华盛顿大学
DOI:https://doi.org/10.1038/s41586-022-05688-9
主要内容:
一个名为CellOracle的计算工具可以预测在胚胎发育过程中基因网络如何相互作用以规划细胞身份。该工具应有助于磨练了解发育如何被调节的努力。
随着动物的发育,其数千甚至数万亿的细胞中的每一个都必须被编程,以采用许多可能的细胞身份之一。这种编程是由一组蛋白质和编码它们的基因控制的,它们被统称为发育调节器。在《自然》杂志上,Kamimoto等人提出了一种计算方法来预测如果个别发育调节器的水平被改变,将会发生的细胞特性的转变。他们的系统方法有望帮助研究人员确定最值得进一步研究的调节器,节省宝贵的资源,并提出以前可能被忽略的生物现象。
发展的关键过程是基因组的不同表达。尽管存在于所有的细胞中,但许多基因只在一种或几种细胞类型中表达,在那里它们赋予身份或特定功能。这种差异性表达主要由转录因子驱动,它与特定的DNA序列结合,促进或抑制目标基因的表达。许多这些目标基因本身也编码转录因子,形成一个复杂的、相互作用的调节网络。
几十年的工作使人们对控制发育的基因调控网络有了深入了解,主要是通过艰苦的实验改变单个基因的表达。识别这个网络的新面孔将提高我们了解致病突变的能力,并开发涉及特殊身份的细胞的再生医学方法。考虑到这一目标,Kamimoto及其同事开发了一个名为CellOracle的计算工具,预测潜在的调节作用和破坏调节器的影响。
作者的方法需要来自数千个单细胞的野生型基因表达数据。这些数据可以选择补充有关基因组区域的 "可及性 "的信息,这可以表明一个区域是否可供转录因子结合到它。CellOracle首先使用这些数据来确定哪些转录因子可能调节每个基因的表达,方法是在与基因相关的可访问DNA中寻找转录因子的首选结合序列。然后,该工具根据转录因子和它们可能调节的基因的相关表达,对这些潜在的调节关系集进行修剪,选择在每种细胞类型中活跃的关系。
然后CellOracle的用户可以通过改变模型中选定的转录因子的表达来研究基因调控网络的扰动的影响。该因子所确定的目标基因的表达量也会相应地发生变化,然后重复这一过程(因为目标基因经常编码针对其他基因的转录因子)。CellOracle将最终转变状态的基因调控网络与原始数据中存在的状态进行比较,以预测变化的后果。例如,通过一个发育过渡期的进展可能会异常快速、缓慢或受阻,或者可能发生细胞特性的异常变化。
CellOracle加入了一个用于调节网络推断的计算工具群。其中一些需要携带基因突变的细胞的基因表达数据,但CellOracle只需要野生型的数据,减少了开始所需的实验工作。此外,许多这类工具的目的主要是确定一个基因调控网络,但CellOracle的重点是预测破坏该网络中的调节器的结果。
作者首先通过使用已发表的单细胞基因组数据集证实了CellOracle的工作,这些数据集描述了小鼠和人类血液和免疫细胞的形成(在这种发育环境中,许多关键的调节因子已经被人所知)。CellOracle预测为血液或免疫特性的潜在调节因子的大多数基因,其功能以前已被报道,并与该工具的预测相一致。
作者接下来将CellOracle系统地应用于斑马鱼(Danio rerio)的所有胚胎转录因子,同样使用已发表的数据。其目的是预测该物种发育过程中所有细胞身份决定的调节器。然后,研究小组集中研究了遗传调节器在形成一种叫做轴向中胚层的组织中的作用,该组织沿着胚胎的躯干运行。在这个组织中,一个轴向中胚层祖细胞类型产生了一对后代细胞类型--脊索和脊索前板细胞(图1a)。这两种细胞类型共同发出信号,使其他组织(如脊髓和大脑)形成模式,并提供一个信号屏障,将胚胎分为左右两部分。
遗传筛选已经确定了几个赋予脊索身份的调节器,包括基因noto,该基因的缺失使脊索祖细胞转变为肌肉祖细胞。CellOracle预测noto的缺失也会使轴突中胚层祖细胞转向脊柱前板的身份(图1b),Kamimoto等人通过实验证实了这一点。该工具还预测,基因lhx1a的缺失将抑制早期轴突中胚层的分化(图1c)。事实上,研究人员发现,缺乏lhx1a的斑马鱼胚胎有较少的轴状中胚层的成熟衍生物,并且表达的基因与早期、不成熟的状态有较强的关联。
CellOracle并非没有局限性。例如,它没有预测一些已知的调节器中断的影响(如基因pu.1的丢失导致红细胞祖细胞的耗竭),也没有识别一些已知的调节器(如轴系中胚层的基因foxa3)。此外,该工具只预测了向不同 "正常 "细胞身份的转变;它不能预测扰动是否会产生混乱或非正常细胞状态。最后,它目前不能模拟更复杂的结果,因为可能发生的突变不只是增加或减少转录因子的表达(这种改变包括 "错义 "突变,它用蛋白质的一个氨基酸替代另一个氨基酸)。
然而,从这样的方法中要求完美的准确性是无益的。正如Kamimoto及其同事所强调的那样,这种方法的价值在于加强假设,并确定优先次序或指导未来的实验。将随机突变引入基因组的筛选已经确定了许多发育调节器(并从根本上告诉我们发育调节器是如何工作的),但有些调节器在这些方法中是隐藏的--例如当两个调节器必须同时丧失后才能在发育中发生可观察的变化。
此外,观察这些变化需要以正确的方式,在正确的地方,在正确的时间进行观察。CellOracle和相关的计算方法(包括SCENIC+)可以从通常已有的数据中提出可能被忽略的调节器和感兴趣的性状变化。此外,由于CRISPR-Cas9等基因编辑工具和越来越便宜的单细胞基因组检测,测试该工具的预测比以往更容易。
即使在研究充分的轴突中胚层,CellOracle也发现了以前未知的调节器,并预测了以前确定的调节器的新作用。作者的预测可以在线浏览,他们的工具可以免费使用(www.celloracle.org)。作者已经用它来确定一个叫做内胚层的组织中细胞重编程的调节器。其他小组已经用它来预测免疫细胞特性的调节器;进一步探索胸腺、免疫系统、软骨和骨骼中细胞类型形成的已知调节器;以及研究一种称为神经胚层的胚胎组织的祖先。
像CellOracle这样的方法将加速我们对决定细胞特性的调节网络的理解。让我们希望,在这样做的过程中,它们将加速操纵这些网络的医疗干预措施的发展。但未来的用户要注意:正如希腊神话中阿波罗必须杀死蟒蛇才能在德尔菲建立他的神谕一样,必须在使用CellOracle之前征服蟒蛇(在这里是指脚本语言)。
原文链接:https://www.nature.com/articles/s41586-022-05688-9
转自:“生物医学科研之家”微信公众号
如有侵权,请联系本站删除!