天坛标准化脑血管病经验分析数据(分析样本天坛数据变异)「北京天坛医院脑血管专家排名」

引言对脑血管病分子机制的研究有助于发现潜在的药物靶标,开发新的治疗方案。
多组学是融合了基因组、转录组、表观遗传组、蛋白质组、代谢组、宏基因组等多个组学的综合性学科。
在大样本量队列中展开多组学分析,不仅能从多个维度揭示疾病的分子机制,也能更清楚地确定生物标志物、药物靶标和疾病结局的因果关系。
更为重要的是,人类遗传资源是公众健康和生命安全的战略性、基础性资源,也是疾病转化医学研究、精准医疗战略实施、创新药械研发的基石。
因此,高通量组学数据和样本的管理要遵照《中华人民共和国生物安全法》《中华人民共和国人类遗传资源管理条例》等法律、法规、条例的规定,与时俱进地实施人类遗传资源管理和生物安全战略。
多组学研究成本巨大而且风险较高,因此,在多组学研究中需要进行良好的顶层设计。
天坛医院通过文献复习、专家咨询、数据库和在线工具调研等方法,调研和梳理临床科研需求,梳理脑血管病基因组学研究中常用且稳定的分析方案,按照研究目标和分析内容的不同,对生物信息学流程进行模块化设计。
以中国国家卒中登记Ⅲ(CNSR-Ⅲ)研究产生的基因组学数据为测试集,在高性能运算集群(浮点运算能力375万亿次/秒)进行分析流程的测试和优化,搭建了标准化的生物信息学分析流程,以期为脑血管病的临床和基础研究奠定数据平台基础。
该流程主要包括组学大数据质控和预处理、群体遗传学质控和样本清理、临床相关位点解析等部分,各部分又按照研究目的和功能、使用软件和软件组合的不同,细分为不同模块(图1),且不同模块之间可以自由组合,兼具兼容性和普适性。
视频加载中...视频加载中...1 检测技术选择原则①数据质量可靠,稳定性、重复性好,认可程度高;②样本消耗量适中,兼顾数据和样本用于后续其他研究的可能;③个体化订制检测方案需要进行预试验,评估检测体系运转情况和数据质量;④检测方法一旦确定,不宜中途调整,检测试剂和仪器也应确保是同一型号、相同批次,避免出现批次效应。
2 原始数据预处理与质量评估①高通量测序数据:由专业检测机构或实验室完成,以测序原始数据(FASTQ格式)和检测报告形式反馈。
在复制、传输、备份的全部环节,均需核对数据完整性,每复制一次,检测原文件和复制本的MD5码并确保完全一致。
按照GATK最佳实践进行预处理,同时完成微生物污染(GC含量)、人源污染等方面的评估。
②分型数据:通量较高的全基因组SNP分型使用芯片厂家指定的软件,如GenomeStudio(Illumina)和 Genotyping Console(Affymetrix)进行预处理。
如果样本在全基因组上被成功分型的位点数目低于芯片全部预设位点数目的95%,则剔除,剩余样本组如果一个位点有超过3%的样本没有分型成功,这些位点也需剔除。
通量较低的候选SNP位点分型,如TaqMan、Agena Bioscience、KASPar®等,分型成功率的阈值可降低到80%。
③污染样本:污染主要来自微生物和人源DNA,被污染的样本需要删除。
微生物污染样本,可通过全基因组测序数据预处理、计算GC含量来判断;人源DNA污染可使用VerifyBamID软件判断。
3 群体遗传学质控用于关联分析、连锁分析的样本,需要进行群体遗传学质控。
使用RelPair、KING等软件,分析样本间的亲缘关系以及样本有无重复。
遗传背景的离群值和人群亚分层使用主成分分析。
使用GCTA软件进行主成分分析,使用STRUCTURE软件评估人群遗传结构。
4 变异功能注释①蛋白编码区注释:选取VEP和ANNOVAR软件,对基因编码区的变异进行注释,使用dbscSNV数据库和SpliceAI软件对可变剪切位点的变异功能进行注释和预测。
②表达调控区注释:表达调控区变异的注释,主要通过检索RegulomeDB、GTEx、GeneHancer等数据库来完成。
③变异致病性评估:单基因病的致病性评估,采用软件评估和数据库检索两种方案进行。
软件预测采用InterVar等软件,按照美国医学遗传学与基因组学学会(ACMG)标准进行。
数据库检索是从ClinVar、OMIM、Orphanet等数据库中检索。
5 连锁分析在具有亲缘关系的家系样本中展开。
可使用的软件包括Merlin、Haplo2Ped等。
6 关联分析①常见变异关联分析:采用广义线性模型对遗传数据和性状信息进行线性拟合,对于数量性状和质量性状,分别采用线性回归和logistic回归的方法。
使用PLINK软件开展,使用IMPUTE2软件及其相应的参考人群数据完成基因型填补。
②低频变异关联分析:使用SKAT、rvtests等软件,以基因组区段为单位进行。
③荟萃分析:使用METAL和RARE METAL软件进行常见变异荟萃分析和低频变异荟萃分析。
7 跨组学研究应用跨组学分析证明因果关系或者中介因素,以实现临床转化。
本流程设计基于CIT包的因果推断检验,以及基于TwoSampleMR包的孟德尔随机分析。
8 总结脑血管病的大规模测序研究,建议先对单基因病型脑血管病患者进行致病性评估和连锁分析,为临床诊断定位可能的致病突变。
在关联分析中,优先保留多因微效型脑血管病患者资料,增强样本遗传架构的一致性和研究的统计效力。
该流程的模块化设计,能够满足研究所需的单基因病评估、关联分析、连锁分析、跨组学分析等功能,可以根据不同的研究目的,有选择地使用不同模块。
需继续优化:①除了基因组DNA遗传变异,对其他组学数据,如转录组、表观遗传组、蛋白质组、代谢组等研究产出数据,搭建分析流程。
②本流程适合于基因组DNA发生的种系变异,不适用于体细胞变异的分析。
③在临床科研实际操作中,需要根据临床和生物学知识,调试相应参数以获取合理的分析结果。
文章来源:许喆,程丝,刘阳,石延枫,李昊.脑血管病基因组学数据分析流程建设[J]. 中国卒中杂志, 2022, 17(3): 217-226.文:段淑娟
天坛标准化脑血管病经验分析数据(分析样本天坛数据变异)
(图片来源网络,侵删)

联系我们

在线咨询:点击这里给我发消息