|
利用宏基因组测序分析细菌流行病学和菌株作者:Davide Albanese & Claudio Donati来源:Natrure 微生物群落通常由同一物种的多个菌株组成的复杂混合物,具有广泛的基因组和表型变异性。在微生物生态学中,为了充分发挥宏基因组测序的潜能,从传染病流行病学到微生物定植的动态界定 ,找到能够识别、量化和分类样品中不同的菌株的计算方法是最根本的。 在这里,我们提出了一种计算方法,使用可用的基因组数据,从宏基因组测序重建复杂的菌株图谱,量化不同菌株的丰度,根据物种的种群结构对它们编目。 我们利用合成数据集对该方法进行了验证,并将其应用于实际样品中几种重要细菌菌种的菌株分布表征界定,展示了该应用对微生物群落结构和复杂性的新见解。 然而,为了充分利用宏基因组学在临床和流行病学的应用潜力,需要一种新的计算技术,在同种菌株之间的表型和基因组变异水平已知的情况下,在物种水平分辨率之上,分析微生物群落。 目前广泛使用的是基于标记的计算方法,该方法通过基因组测序数据,采集基因组标记,分析宏基因组样品的分类组成。 在这里,我们提出一个新的宏基因组测序数据分析方法,StrainEst,基于引用的方法,利用所选择的菌种的可用基因组的单核苷酸变异(SNV)分析,来确定共存的菌株的身份和数量,以及他们在混合宏基因组样品中的相对丰度。 除了做为一种可以同时界定所有物种的通用的工具, StrainEst利用SNV分析聚类,定义菌种结构,着重于相关的菌种。 利用惩罚优化程序分解独立的组件,StrainEst识别并量化样品种所有相关菌种,提高目前菌株识别方法的分辨率。 此外,通过使用具有代表性的基因组测序预定义数据库对组成分类,StrainEst允许大型荟萃分析编辑 ,包括无关研究的样本,是流行病学研究中,广泛使用宏基因组学的基础。 StrainEst 概述 a. 给定相关菌种的基因草图和完整图(G1,G2...),菌种代表(SR),计算出两两的Mash距离。SR中Mash的距离大于0.1的基因组被剔除,剩下的聚集一起,去除冗余序列。 对于每个聚类,选择与其他成员平均距离最小的基因组作为代表(R1,R2,…)。 b. SR using MUMmer ( nucmer command with default parameters), 用nucmer(MUMmer软件)对比SR,映射代表序列,删除模糊映射。 c. 每个代表的变异位点的位置(P1,P2,…)被识别,SNV数据被提取。数据保持99%的一致性,保证它们的代表性。 d. 考虑到该物种的变异,为宏基因组读取队列设置参数组,为宏基因组队列步骤(A1, A2, …)选择基因组。 e. 对比SR,映射。 f. 对于每个宏基因组(MG),用Bowtie 2让读取与选定的基因组一致。 g. 按步骤明确的不同位置上(C)的等位基因变异的频率,从BAM文件提取。 根据用户定义的滤波参数过滤低覆盖率的位点;最后通过套索回归推断相对丰度。 参考文献 Strain profiling and epidemiology of bacterial species from metagenomic sequencing Davide Albanese & Claudio Donati 相关阅读 |