来自Streptococcus pyogenes的Cas9(spCas9)及其变体的 Cas9已被广泛用于动植物的基因组编辑。在体内基因组编辑中,腺相关病毒(AAV)载体经常被用于基因组编辑工具的高效传递。然而,由于AAV的携带量大小有限(~4.5 kb),通常需要两个AAV 载体来递送编码 SpCas9及其sgRNA的序列。因此,使用较小的Cas9,例如来自Staphylococcus aureus的Cas9 (SaCas9)。最近,各种小型Cas9直系同源物和变体已被报道用于体内递送应用。尽管小型 Cas9特别适合于这种用途,但是选择最佳的小型 Cas9用于特定的靶序列仍然具有挑战性。
近日,来自韩国延世大学的Hyongbum Henry Kim团队在国际著名杂志Nature methods杂志上发表了一篇题为“Massively parallel evaluation and computational prediction of the activities and specificities of 17 small Cas9s”的研究文章,文章对17种小型 Cas9的活性和特性进行大规模评估和计算预测。
根据报道,已有多个研究小组鉴定或评估了许多小型Cas9直系同源物,如St1Cas9, Nm1Cas9, SaCas9, CjCas9, Nm2Cas9, SauriCas9, 和SlugCas9。然而,即使使用这些直向同源物,由于对PAM序列的需求,相对较低的活性或潜在的脱靶位点的意外活性,小型Cas9的应用有时受到限制。为了克服这些问题,具有扩大的PAM偏好或改善的特异性或活性的小型Cas9变体,如KKH-SaCas9(以下简称 SaCas9-KKH)和 sRGN3.1已经被开发出来。然而,在给定的目标序列上选择使用哪种小型Cas9通常需要对这些小型Cas9同源物和变异体进行耗时和劳力密集的实验测试。
在这项分析中,研究者们对17个小型Cas9: St1Cas9, Nm1Cas9, SaCas9, SaCas9- kkh36, eSaCas9, CjCas9, Nm2Cas9, SaCas9-hf37, SaCas9-kkh-hf37, SauriCas9, SauriCas9-kkh34, efSaCas9, SlugCas9, SlugCas9-hf35, Sa-SlugCas9, sRGN3.1和enCjCas9在数千个靶序列上的活性,特异性和PAM相容性进行了高通量评估。此外,还使用深度学习开发了计算模型,可以预测这些小型Cas9在目标序列和不匹配的目标序列上的活动,从而为特定目的选择最优的小型Cas9提供指导。
研究者们首先产生稳定表达这些小型 Cas9的细胞系。然后通过病毒感染反应这些小型 Cas9的表达变化。结果显示,除了enCjCas9, Sa-slugCas9和Nm1Cas9表现出相对较高的表达水平,以及 Nm2Cas9, SaCas9-HF和slugCas9-HF表现出相对较低的表达水平外,表达水平整体上相当(enCjCas9 ≥ Sa-SlugCas9和Nm1Cas9 ≥ sRGN3.1和St1Cas9≥ SauriCas9,eSaCas9和SauriCas9-KKH ≥ SaCas9, CjCas9, efSaCas9, SaCas9, SaCas9-KKH, SaCas9-KKH-HF和SlugCas9≥ Nm2Cas9, SaCas9-HF和SlugCas9-HF)。接下来,研究者们确定了这些小型 Cas9的相对活性是否受到PAM的影响。葡萄球菌衍生的小型 Cas9s(sRGN3.1, SlugCas9, SaCas9, SauriCas9, Sa-SlugCas9, SaCas9, SaCas9-KKH, eSaCas9, efSaCas9, SauriCas9-KKH, SlugCas9-HF, SaCas9-H和SaCas9-KKH-HF)的活性与Campylobacter jejuniderived衍生的 Cas9s (enCjCas9和 CjCas9)的活性之间的 Pearson 相关系数相对较高,而所有其他病例表现出较差的相关性。这些发现表明,在特定的靶序列上,小型 Cas9的相对活性不一定与上述一般活性等级一致(图一)。
图一、小型 Cas9细胞活性的大规模评估
接下来,研究者使用高通量分析,测试了候选PAM序列,这些序列至少比先前表征的PAM序列长一个核苷酸。根据观察到的indel 频率,确定了 PAM 的相容性,并将 PAM 序列分为主要的或次要的。尽管观察到的 PAM 兼容性与先前报道的结果大体一致,但是仍然存在一些显著的差异。例如,发现sRGN3.1, SlugCas9, SauriCas9, Sa-SlugCas9和SlugCas9-HF将NNGA识别为次级PAM, 发现SauriCas9-KKH 将NNVA 和NNCG识别为次级PAM。Nm1Cas9将NNNNGACT和NNNNGYTT识别为次级PAM,而Nm2Cas9分别将NNNCCA 和 NNNNCCB 识别为主要和次要 PAM。然后研究者比较了这些小型 Cas9直系同源物的几种 sgRNA 表达格式。发现(G/g) N20是SaCas9 , SauriCas9和 St1Cas9的最有效的sgRNA 表达格式,尽管该格式与第二最有效的 sgRNA 表达格式之间的差异。接下来为了比较小型Cas9s和SpCas9的保真度,确定了小型Cas9s 和 SpCas9在不匹配的目标序列中归一化为匹配目标的频率时诱导的插入缺失的相对频率。Cas9s 的一般活性和特异性的比较揭示了含有 sRGN3.1, SlugCas9, SaCas9, SpCas9, SauriCas9, Sa-SlugCas9, SaCas9-KKH, eSaCas9和 efSaCas9的高活性组和含有 SauriCas9-KKH, SlugCas9-HF, SaCas9-KKH-HF, St1Cas9, Nm1Cas9, enCjCas9, CjCas9和 Nm2Cas9的低活性组。最后,研究者开发了计算模型来预测17个小 Cas9在匹配和不匹配靶序列上的活性。将来自研究的所有类型的 PAM (主要,次要和非活性 PAM)的匹配目标和具有错配,插入或缺失的目标的小型 Cas9诱导的 indel 频率的数据随机分成训练和测试数据集。然后,利用训练数据集开发了七个传统的基于机器学习的模型和一个基于深度学习的计算模型,预测每个小 Cas9的匹配和不匹配目标序列的活动(图二)。
图二、预测小型 Cas9细胞活动的计算模型的评估
原文链接:
https://www.nature.com/articles/s41592-023-01875-2
转自:“植物生物技术Pbj”微信公众号
如有侵权,请联系本站删除!