Genome Biology | 利用上千份重测序数据鉴定的杂合位点揭示拟南芥中大量的重复序列特征
2023/3/14 10:59:07 阅读:178 发布者:
由于技术限制,基因组中存在许多未被检测的结构变异。这些变异可能会导致我们在将测序reads比对回参考基因组的处理中得到虚假的结果。2023年03月09日,来自奥地利科学院格雷戈尔孟德尔研究所的Magnus Nordborg团队在Gnome Biology杂志上发表了题为 “Extensive sequence duplication in Arabidopsis revealed by pseudo-heterozygosity” 的研究论文。在本文中,研究人员使用1001份拟南芥重测序数据鉴定SNP,并鉴定到330万(44%)个杂合性SNP,最终证明这些杂合SNP反映了基因组上隐蔽的拷贝数变异。
作者在1001份拟南芥的重测序数据中观察到了大量(44%)的杂合SNP,超过100万个杂合SNP在至少5个拟南芥材料中共享。在大量材料中,连续的杂合SNP构成的较短(约1Kb)的杂合区段。拟南芥是高度自交的植物,近期杂交产生的后代基因组中通常会存在大片段的、个体特异性的杂合区段,这与实际的观测结果不符,因此,作者推断近期杂交并非这些杂合SNP发生的原因。作者猜测,这些杂合SNP实际上是由于比对错误导致的“伪杂合SNP”(图1)。
假设杂合SNP的出现是因为参考基因组中存在隐蔽的重复序列,作者使用SNP的杂合性作为表型进行GWAS分析,以定位基因组中隐蔽的重复序列 (图2)。在2570个具有杂合SNP的基因中(杂合SNP落在gene body区),有2511个基因鉴定到了显著(P < 10-20)的关联位点。其中708个基因鉴定到了跨基因的关联位点(基因与关联位点相距大于50Kb),175个基因鉴定到了同基因的关联位点(基因与关联位点相距小于50Kb),1628个基因同时鉴定到了同基因与跨基因的关联位点。为了验证这些结果,作者利用长读长测序技术PacBio测序并组装6个非参考基因组。在GWAS预测存在重复序列的403个基因中,有84%发现了重复序列的证据,60%与预测情况完全相同。
综上所述,作者证明拟南芥中鉴定到大部分杂合位点都是由于比对错误导致的“伪杂合位点”,通过GWAS方法揭示出“伪杂合位点”背后,参考基因组上隐蔽的重复序列,并利用长读长测序技术证明了重复序列的存在。这些结果对于未来的基于基因组组装的分析具有重要的启示意义。
原文链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-023-02875-3
转自:“植物生物技术Pbj”微信公众号
如有侵权,请联系本站删除!