发布需求
请登录 注册

Nat. Biotechnol|基于全局基因特征向量整合单细胞转录组数据的新算法

发布时间:2023-02-09 15:31:27 I 企业名称:桔园平台 I 作者:测序中国
背 景 介 绍
当前,单细胞转录组测序技术已经成为解析细胞异质性的重要工具,被广泛应用于生物医学领域。然而,随着单细胞转录组测序数据的持续积累,不同样本、不同单细胞转录组测序平台、不同建库方式产生的数据之间会存在不可避免的批次效应,因此,整合这些具有样本间异质性的单细胞转录组数据集显得尤为重要,也是领域内极具挑战性的科学问题。 
在过去几年中,研究人员也开发了多种用于去除批次效应的工具,其中包括基于典型性相关分析(Canonical Correlation Cnalysis,CCA)将所有数据集进行整合,也有那些基于共有的细胞类型对数据集进行整合等。这些方法各有优势,但是在进行多个数据集的整合时,它们主要的局限在于缺乏一个一致的全局参考空间。 
为了克服这个问题,来自阿尔伯特·爱因斯坦医学院的研究人员在Nature Biotechnology发表了题为“Robust integration of multiple single-cell RNA sequencing datasets using a single reference space”的文章,报道了一种名为RPCI(Reference Principal Component Integration)的新算法,与经典的主成分回归算法不同,RPCI引入了一个新的元素,即利用参考数据集的基因特征向量来建立全局的参考框架,并以此来校准细胞相似性。通过使用模拟和真实的scRNA-seq数据集对其进行基准测试,与其它11种去批次方法相比,RPCI在各种场景下均表现出优异的性能。 
图片
文章发表在Nature Biotechnology 
主 要 内 容
 
RPCI基本原理
 
RPCI的基本原理如图1所示,研究人员将三个不同批次的、包含异质性细胞群体的数据分别标为X、Y、Z,对于像CCA这样的批次处理策略,通过极大的交叉协方差,X、Y中的所有细胞会被整合,然后得到一个新的数据集N,然后再次通过相同的策略使N与Z进行整合,最终达到X、Y、Z三者整合的目的,如图1b。因此,Z不能直接与X或Y进行比较,这就会导致每一个渐进分析都会使整个数据变形,而且这种变形会随着数据集的增多而更加明显。同样的,对于那些根据相同细胞类型进行整合的策略来说,如果软件无法准确识别相同细胞类型,或者某个数据集中存在比较稀有的特有细胞群体,那么这种策略就无法进行有效的批次效应矫正。 
与上述算法不同,RPCI内置的算法首先从基因表达方差中提取基因特征向量构建全局参考框架,然后基于此将不同数据集中的同一细胞类型进行匹配。因此,当用参考基因特征向量分解两个或多个单细胞基因表达矩阵时,相同的细胞类型将有相似的细胞特征向量,而不同的细胞类型则不会,换言之,RPCI可以使用全局参考基因特征向量分解所有数据集。 
图片
图1. RPCI基本原理,图片来源:Nature Biotechnology 
 
RPCI性能的评估及其优势
 
为了显示RPCI和其它工具之间的关键差别,研究人员借助“Symsim”软件生成异质性数据集,包括四种细胞类型,其中两种细胞类型存在异质性(b/b′和c/c′),另外还有一个只有20个细胞的群体d。一个好的方法不仅需要将相同细胞群结合在一起,而且能够识别出罕见细胞群体,同时还能区分b/b '和c/c '之间的微弱差异。
如图2e所示,RPCI能够将三个批次产生的数据集进行很好的整合,不仅保证了相同细胞群被整合在一起,而且b/b '或c/c '中的微弱差异也被准确地保留下来,同时也将罕见细胞群识别了出来。与其它方法相比,RPCI表现出了最优的整合效果。
图片 
图2. RPCI在集成模拟数据集中的性能评估,图片来源:Nature Biotechnology 
接下来,他们使用已发表的存在遗传背景差异的样本数据测试了RPCI的性能。在数据整合前,野生型细胞(WT)和雌激素相关受体α/γ敲除细胞(称为ERR KO)在细胞特征向量的第4个主成分中可以观察到差异,而细胞类型信息可以在第2-3个主成分中看到(图3a)。 
然后,RPCI及其它工具被用来整合WT和ERR KO的单细胞转录组数据集。结果显示,只有RPCI能够准确识别并区分WT和ERR KO种的心肌细胞类型,而这种差异也正是原始文章中的重要结论:发育中的和成熟的心肌细胞(dCMs和mitoCMs)是受ERR KO影响最大的细胞亚群。 
图片
图3. RPCI在真实数据集中的性能评估,图片来源:Nature Biotechnology 
 
RPCI具有反映发育轨迹的性能 
 
多个发育位点的单细胞转录组数据的整合通常会被用来分析发育轨迹,而这是非常具有挑战性的,因为在不同的发育位点,相同的细胞类型并不会有很多。那么RPCI是否可以在整合数据的同时也能反映细胞的发育轨迹?为此,研究人员使用了已发表的小鼠胚胎E3.5到E7.5共17位点的数据。 
首先,RPCI成功地将多个时间点的数据集进行了整合,而且将重复的样本点聚集在一起,同时,主要胚胎发育相关的细胞群:内脏内胚层(VE),外胚层(EPI)和胚胎外胚层(ExE) 也能很好地区分开。更重要的是,结合时间点(E4.5-E7.5)和细胞类型, RPCI能正确地沿发育时间点排列细胞,同时还能正确地区分不同的细胞类型。这些数据有力地支持了RPCI可以正确地整合具有高度异质性的数据集,同时还能提供对细胞谱系发育的新见解,后者可能是其他软件所不具备的。  
图片
图4. RPCI正确区分细胞类型的同时反映发育轨迹,图片来源:Nature Biotechnology 
研 究 总 结
综上所述,在该研究中,研究人员开发并验证了一种用于集成单细胞转录组数据集的新方法—RPCI,通过对其进行广泛的评估,并将其性能与许多现存的且使用频率较高的方法进行了比较,发现RPCI均有非常好的效果。 
RPCI的两个关键特点在于:不依赖于共享的细胞类型;不对数据集之间的相似性做出任何假设,这也就保证了最大程度依据真实数据集进行整合。不过,值得注意的是,RPCI方法使用内参基因特征向量作为整合框架,因此,选择一个最优的内参是RPCI的重要步骤。 
参考文献:
1、Liu, Y., Wang, T., Zhou, B. et al. Robust integration of multiple single-cell RNA sequencing datasets using a single reference space. Nat Biotechnol (2021).
2、Nawy, T. Single-cell sequencing. Nat. Methods 11, 18 (2014).
3、Wang, Y. & Navin, N. E. Advances and applications of single-cell sequencing technologies. Mol. Cell 58, 598–609 (2015).
4、Butler, A., Hoffman, P., Smibert, P., Papalexi, E. & Satija, R. Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nat. Biotechnol. 36, 411–420 (2018).
5、Haghverdi, L., Lun, A. T. L., Morgan, M. D. & Marioni, J. C. Batch effects in single-cell RNA-sequencing data are corrected by matching mutual nearest neighbors. Nat. Biotechnol. 36, 421–427 (2018).

咨询

我们尊重知识产权,如您认为本平台所载文章、图片、视频等内容侵犯您的合法权益,请您及时联系我们,我们将依据相关法律法规、平台规则予以处理。
关键字
  • 196
  • 点赞
  • 复制链接
  • 举报