转录软件最走心(转录比对软件基因组数据)「转录工具」

数据产生文章对蓝莓二倍体VA和四倍体VC分别进行Illumina测序，分别得到270 Mb和582 Mb双端reads
在数据处理的第一步，文章首先使用Rcorrector对RNA-seq数据进行纠错，接着又用Trimmomatic和Skewer二者之一去除低质量
本研究中每个文库数据的平均纠错率为0.7％，这一比例超出了Illumina预期的 0.1％错误率，这说明了测序数据的可变性
使用Skewer对纠错（_cor）和未纠错（_Uc）的数据用宽松参数进行处理后，保留了99.6%的数据，平均长度为99.8 bp
与之对应的，用Skewer较严谨的参数进行处理后，保留了77.2%的数据,平均长度为93.8 bp
结果说明，数据是否经过纠错，对后续的质控分析影响较小
由此，得到四组处理过的数据用于后续分析（纠错+skewer、不纠错+skewer、纠错+trimm、不纠错+trimm），详细见图1：图1 数据分析基因组组装通常运用到的软件包括：Trinity，SOAPdenovo-Trans和Trans-ABySS
在实验中，把每个物种分成三组reads（实验组A，对照组B，实验组对照组结合组F），并对这三组数据分别进行如上文描述的数据处理，共产生24组数据（详细见图2），并对这24组数据分别用以上三种软件进行组装
图2对组装结果进行多方面评估和比较，包括：转录本总数，N50，GC含量， Denote评估软件打分，map上的比例，完整ORF的比列，BUSCO评估的完整性等
详见图3，图4：图3 图4总的来说，这些结果说明了数据纠错、质控和组装软件对转录组组装结果是存在一定影响的
纠错有助于组装得到数目更多、完整性更高、并且GC含量更低的转录本；对于Trinity和Trans-ABySS，纠错促使了更高的N50和ORF含量，同时reads回比率降低
使用Skewer处理后的reads会使SOAPdenovo-Trans结果更差，例如转录本数量减少，N50降低，Detonate评分降低，reads比对率降低，鉴定ORF数量显著降低，完整性降低等
同时作者也观察到VA和VC转录组的些许差异，比如VA有更高的N50和ORF数目，VC则有更高的BUSCO完整性，实验组和对照组虽然有更高的Detonate评分，但是结合组却有更高的BUSCO完整性
组装结果聚类通常来说植物有约37,000个蛋白，但是通过不同方法组装出来的转录本数目却都远远大于这个数目，所以文章借助了一些软件来去冗余
CD-HIT和Rapclust两款软件在文章中被用来选择代表性的转录本和去除冗余的转录本
在用这两款软件进行处理后，文章再次对组装结果进行了比较（如上文所述）
总的来说，使用CD-HIT进行聚类可有效降低Trinity和Trans-ABySS中转录组组装的冗余，而不会对组装质量有太大影响
SOAPdenovo-Trans结果在经过CD-HIT聚类后几乎没有任何变化，这表明组装的转录本中的同类型数量较少或者片段化程度较低
相比之下，所有三个组装软件组装的转录本在经过RapClust处理后都有数量上的减少
SOAPdenovo-Trans组装结果在经过RapClust聚类和选择最长转录本作为代表后，N50和ORF含量均降低，但reads支持率，Detonate评分和完整性无变化
对于Trans-ABySS组装的转录本，用RapClust处理后，reads支持率，Detonate评分和完整性无变化，但N50和ORF含量上升，表明长度较短、非编码的转录本有所减少
对于Trinity，N50和ORF含量无变化，但reads支持率、Detonate评分和完整性降低，表明RapClust可以对所有长度的转录本进行处理
聚类结果的生物学一致性总体的比对效果来说，Trinity整体优于其他两款软件
为了进一步探究聚类会对组装结果造成什么影响，文章选择了VC的二倍体基因组进行比对评估
VC二倍体基因组是VA较远亲缘物种，同时是VC四倍体的不同倍体水平
转录本通过比对分为了四种类型：唯一比对（uniq）,多处比对（mutl）, 比对错位（tranloc）和未必对上（out）
根据比对上的结果，又通过同源注释分为未注释（map）, 只有部分CDS比对（cds）,完整CDS比对（blast）
通过比较发现，使用CD-HIT或RapClust进行聚类（使用每个聚类的单一代表性序列），尽管影响了转录本的总数，但在每个作图类别中保持了相似的转录本比例
使用Rap-Clust聚类对cds和blast的唯一比对和错位比对结果比例具有积极影响
图6同时，文章又进行了几个方面的对比
使用BUSCO工具进行完整性评估，并将结果分为complete和fragment进行比较（图7A）；BUSCO结果的单拷贝和多拷贝对比（图7B）
作者发现聚类（尤其是RapClust软件进行的聚类）会减少可变剪切和转录本片段数目、降低完整性，表明两个物种中相同的基因型可能发生了删除，并且四倍体VC同源性降低
此外，文章还比较了如图7C中 Jaccard评估得分的分布和如图7D中参考基因组覆盖度和组装转录本覆盖度的对比，发现RapClust在长转录本分析中优势明显，而CD-HIT在较小的转录本上表现得更好
在数据预处理方面，Trimmomatic和未经纠错的reads通常能得到更好的组装结果
图7 Reads比对到参考基因组文章用五款比对软件（GSNAP，STAMPY，STAR，HISAT2，Bowtie2）将Reads比对到发表的参考基因组上（如下图8），作者发现STAMPY和GSNAP比对上的Reads最多，而HISAT2和Bowtie2较少；数据纠错对比对率影响较小
图8此外重复性也是衡量结果好坏的一方面，通过皮尔森相关性系数（如图9），相关性结果显示：软件结果相关性也是和他们各自不同算法有关，Bowtie2和HISAT2用FM-index，而GSNAP，STAMP和STAR是运用哈希表和后缀数组算法
图9 Reads比对到从头组装转录本文章又将reads比对到从从头组装且CD-HIT聚类的转录本上（如图10），其中增加了Salmon比对软件
同样的STAMP和GSNAP表现最好，而 Reads的纠错对最终结果并无显著影响
图10为了测试其他不同软件的重复性，计算并比较了皮尔森相关系数（如图11），二倍体显示了较高的相关性，而四倍体VC的结果总体上差异不大
同时Salmon转录物定量可能更适合较简单的基因组
图11讨论通过跳过从头组装和相关步骤简化RNA-seq分析，使用具有亲缘关系较远的二倍体或多倍体物种的参考基因组可以得到可靠的结果
在所研究的两个物种中，使用Skewer质控，使用参考基因组或组装转录组作为参考，使用多个样品组合以提升组装质量，Stampy或GSNAP软件比对，形成了一个能够产生具有可比性、高质量结果的流程
该流程的目的是最大限度地从RNA-seq中留下更多可用reads，且适用于样本和参考基因组不是来自同一个组织的特定情况
更多生信分析需求请加微信：13120220117