白梨组分转录中国果实基因(基因转录序列白梨果实)「白梨系统主要品种」

梨是全球重要的水果品种;然而，它的遗传学和基因组信息是有限的
将Solexa/Illumina RNA-seq高通量测序方法（RNA-seq）与数字基因表达（DGE）分析相结合将是转录组学研究的有力工具
本文利用RNA-seq和DGE对白梨进行了转录组谱分析，以更好地了解中国白梨果实发育和成熟的分子机制
Pyrus属是蔷薇科中最重要的果实生产属之一
Pyrus品种在全球76个国家或地区广泛用于商业水果生产，其经济重要性已得到广泛认可
Pyrus有四种主要的可食用物种：P. communis L.主要种植于欧洲，北美，南美，非洲和澳大利亚
其他三个物种，P. bretschneideri Rehd.，P. ussuriensis Maxim.和P. pyrifolia （Burm.）Nakai.，生长在东亚
在过去的16年里，世界梨的产量翻了一番
中国是最大的梨生产国
2010年，中国生产了15万吨梨果，占世界梨产量（23.67吨）的26.22%（FAOSTAT，64）
截至2013年26月，696，4个核苷酸序列，413，52个表达序列标签（EST），2个基因组调查序列（GSS）和来自Pyrus属的636，3个蛋白质已沉积在GenBank中
这些序列主要来源于cDNA克隆和EST测序，为转录分析、候选基因发现和基因功能分析提供了有用的信息;然而，对梨果实在果实发育和成熟期表达的基因的全面描述仍然不可用
近年来，下一代测序技术RNA-seq的使用已经产生了超过8亿bp的高质量DNA序列，并大大提高了基因发现和功能分析的效率，这在很大程度上促进了转录组功能复杂性的研究
酵母，拟南芥，小鼠和人类细胞转录组的Illumina测序已证实下一代测序非常适合调查真核生物的转录组谱
最近，Illumina RNA-seq系统已被用于鉴定梨（P. pyrifolia）中与芽休眠相关的基因
RNA-seq不仅限于检测具有现有基因组序列的生物体的转录本;它还可用于对缺乏基因组信息的非模式生物进行测序
DGE是一种基于标签的转录组测序方法，其中通过计数每个基因产生的单个mRNA分子的数量来测量样品中所有基因的表达水平，这使得DGE方案更适合比较基因表达研究且更实惠
尽管具有明显的潜力，但下一代测序尚未应用于梨研究
在这项研究中，使用Illumina技术生成了5.47个千兆碱基对的高质量DNA序列，以研究短假单胞菌的poly（A）转录组
总共组装了90，227个单基因
鉴定出与果实发育和成熟相关的主要代谢途径中所有已知的同源基因
此外，构建了3个DGE文库，分析了不同果实发育阶段的基因表达谱
这些带注释的转录组序列和基因表达谱为鉴定梨种果实发育和成熟过程中与品质性状发育有关的基因提供了有用的信息
植物材料和RNA提取所有样本均取自一棵45年生的田间种植的Pyrus bretschneideri 'Dangshansuli'树
采集2010年嫩芽、嫩叶、扩叶、成熟叶、花、果实的组织样本
在25、55、85、115和145 DPA（开花后天数）收集水果样品，代表五个发育阶段所有样品立即在液氮中冷冻，并保持在-80°C直至使用
使用改良的CTAB方法提取总RNA
使用 Agilent 2100 生物分析仪监测 RNA 质量，最小完整性值为 8
Illumina测序和从头组装为了获得梨转录组的整体和全面概述，从六种不同的组织中提取RNA，包括嫩芽，嫩叶，扩展叶，成熟叶，花和果实均匀混合
从Illumina配对末端测序中总共获得了60.8百万个90 bp原始读取，其中包含5.47 gigabase对（Gbp）的原始数据
经过严格的质量过滤过程，保留了 4.95 Gbp 的干净数据（占原始数据的 90.5%）
本研究生成的最终序列的Q20百分比（错误概率低于1%）（97.5%）大于茶叶（88%）、小鼠（95%）和中国杨梅（93%），表明测序通量和质量可以接受进一步分析
通过SOAPdenovo程序对所有干净读取进行从头组装产生了132，987个重叠群
平均重叠群大小为338 bp，N50为474 bp（即50%的组装碱被合并到重叠群474 bp或更长）
在所有132，987个重叠群中，25，936个（占总数的19.5%）大于500 bp
在配对端连接和间隙填充后，重叠群随后被组装成脚手架
为了减少序列冗余，使用TGICL软件将组装好的支架进一步聚集成90，227个单基因（大于150 bp），包括17，619个簇（平均大小：732 bp，N50： 902 bp）和 72，608 单例
该单基因集的平均长度为508 bp，N50635 bp
在所有90，227个单基因中，25，415个（28.2%）为≥500 bp，8，452个（9.4%）为≥1，000 bp
这些单基因的大小分布如图所示
为了评估数据集的质量，通过检测组装单基因中读段的随机分布来分析测序偏差
所有组装的单基因的3'和5'末端包含相对较少的读段，其他位置显示出更大的分布，表明组装的90，227个单基因显示出很高的可靠性，并且可能覆盖了大部分转录组序列
预测蛋白质的注释首先使用BLASTx针对非冗余（nr）NCBI核苷酸数据库搜索不同的基因序列，临界值为10-5.共有61，624个（占所有不同序列的68.3%）单基因的BLAST结果高于临界值
组装的序列越长，nr 数据库中具有显著匹配的序列的百分比就越大
如图所示，在nr数据库中，只有54.9%的短于500 bp的单基因返回了显著的BLAST评分
相比之下，具有显著BLAST评分的单基因百分比急剧增加，其中88至3，500 bp之间的查询序列为1.000%，97，0至1，000 bp之间的查询序列为1.500%，99，2至1，500 bp之间的查询序列为2.000%，查询序列为100% ≥2，000 bp
nr数据库中命中率最高的E值分布显示，34.0%的映射序列具有很大的相似性（小于1.0E-50），66.0%的序列范围从1.0E-5到1.0E-50
此外，25.4% 的查询序列的相似度高于 80%，而 74.6% 的命中具有 20% 到 80% 的相似性
在物种中，36.2%的梨不同序列与拟南芥的序列具有顶级匹配（首次命中），而只有7.94%、7.92%、7.86%和5.73%的梨不同序列分别与稻米、毛果杨、天兰拟南芥和葡萄的序列相匹配
保守域注释在针对InterPro，Pfam和COGs数据库的单基因P. bretschneideri unigene中鉴定了保守的蛋白质结构域
对InterPro数据库的搜索显示，有32，098个热门点击被分类为4，264个域/家族
大多数结构域包含 1-3 个序列，一小部分更频繁地出现
InterPro域名/家族根据每个InterPro域名组中包含的单基因数量进行排名
表 30 中提供了 3 个最丰富的 InterPro 域名/家族
蛋白激酶及其亚类别丝氨酸/苏氨酸蛋白激酶、酪氨酸蛋白激酶和蛋白激酶-ATP结合位点已知调节大多数细胞途径，被列为保守结构域
细胞色素P450和Myb-DNA结合家族可能有助于各种二级化合物的广泛修饰，以及与信号转导、转录和增殖调节相关的“WD40重复”结构域也具有高度代表性
通过搜索Pfam数据库，30，985个组装的单基因匹配了对应于3，406个不同结构域/家族的条目
基因本体（GO）、直系同源群簇（COG）和京都基因和基因组百科全书（KEGG）本体（KO）分类基因本体（GO）分配用于对预测梨基因的功能进行分类
根据序列相似性，28，114个序列被分为三个主要类别（生物过程，细胞成分和分子功能）的44个官能团
细胞过程、代谢过程、细胞、细胞部分、细胞器、结合和催化活性是这三个类别中最主要的术语
很少有基因被归为“生物粘附”，“细胞杀伤”，“运动”，“氮利用”，“色素沉着”，“节律过程”，“细胞外区域部分”，“病毒粒子”或“抗氧化活性”
还注意到，高比例的基因集中在“生物调节”，“发育过程”，“对刺激的反应”和“转运蛋白活性”类别中
为了进一步评估梨转录组文库的完整性和注释过程的有效性，我们进行了检索，将注释序列与COG数据库进行了比较
共有33，205个注释序列被聚类为25个COG类别，其中“一般功能预测”聚类代表最大组（5，021，15.1%），其次是“转录”（3，230，9.7%）
“复制，重组和修复”（2，660，8.0%）和“翻译后修饰，蛋白质周转和伴侣”（2，539，7.7%）
核结构（5，0.015%），细胞外结构（24，0.072%），RNA加工和修饰（251，0.8%）和细胞运动（263，0.8%）似乎是最小的组
共有90，227个注释序列映射到京都基因和基因组百科全书（KEGG）中的规范途径，以识别白梨的活性途径
其中，24，169个序列被分配到121个KEGG通路
独特序列最具代表性的途径是代谢途径（5，488个成员），次级代谢物的生物合成（2，904个成员），植物 - 病原体相互作用（2，389个成员）和剪接体（1，121个成员）
这些注释为研究梨生长和发育中的特定过程、功能和途径提供了宝贵的资源
数字基因表达（DGE）文库测序数字基因表达（DGE）方法可直接进行基因表达测量，从而避免了微阵列分析的固有局限性
对对应于梨果实五个发育阶段的五个DGE文库进行测序，每个文库有5.7至6万个原始标签
存放在GEO中的五个阶段及其DGE入藏号是：水果阶段4（GSM1），水果阶段825779（GSM2），水果阶段825780（GSM3），水果阶段825781（GSM4）和水果阶段825782（GSM5）
过滤掉低质量的读取后，每个文库的干净标签数量从 825783.5 到 6 万不等
在所有干净标签中，有0.7至4万个标签映射到单基因
具有独特核苷酸序列的标签总数从4，9到4，122不等
在基因表达过程中，mRNA的异质性和冗余性是两个重要特征，大多数mRNA的表达水平较低
为了评估DGE数据的正态性，评估了干净标签表达式的分布
所有五个DGE库在总标签或不同标签的分布上都显示出相似的模式（2-5个拷贝，6-10个拷贝等，如不同的颜色所示）
高表达的标签表示每个库中干净标签的 74.9% 以上;然而，在一个发育阶段出现的高拷贝数干净标签的数量不超过7.3%
相比之下，复制数较低的标签表示每个库中大多数不同的干净标签
五个DGE文库中的标签序列映射到上述Illumina测序中生成的转录组参考数据库
参考数据库包含 162，456 个不同的序列和 142，331 个明确的参考标签
在五个果实发育阶段文库中的Illumina测序生成的不同标签（68，916至77，039）中，有32，705至36，335个不同标签映射到参考数据库中的单个基因
映射到唯一序列的标签是 DGE 文库中最关键的子集，因为它们可以显式标识转录本
转录组参考标签数据库中高达31.2%（28，175）的序列可以通过唯一标签明确识别
为了确认检测到的基因数量与总标签数量的增加成比例，进行了饱和度分析
附加文件11显示了饱和趋势，当读取次数达到4万时，检测到的基因数量的增加停止了
通过计算每个基因的明确标签数量，然后将表达水平标准化为每百万个标签（TPM）的转录本数量来确定基因表达水平
如图所示，大多数基因产生的拷贝少于十个，只有一小部分基因高表达
结果使用高通量Illumina RNA-seq结合基于标签的数字基因表达（DGE）系统，以前所未有的深度进行了中国白梨的从头转录组组装和基因表达分析
大约 60 万个读段被测序、修剪并组装成 77，90 个单基因
这些单基因包括227，17个重叠群和619，72个单胎，平均长度为608 bp，其N50635 bp
对六个公共数据库进行的序列相似性分析发现，61，636个单基因可以用基因描述，保守蛋白质结构域或基因本体术语进行注释
通过对KEGG中的所有61，636个单基因进行BLAST处理，共有31，215个单基因被注释为121个已知的代谢或信号通路，其中一些初级，中期和次级代谢途径与梨果实品质直接相关
为五个果实发育阶段中的每个阶段构建DGE文库
梨果实各发育阶段基因表达差异显著