性状动植物定位GWAS(性状群体动植物定位结构)「性状的类型」

大家好,元元又和大家见面了。
之前元元介绍了GWAS进行动植物性状定位的详细案例,从本期开始,元元将和大家分享GWAS分析的相关内容。
从2003年人类的第一个基因组数据的测序完成,到2005年第一篇关于人类复杂疾病的GWAS研究,到目前为止,大约有3700个GWAS相关研究,涉及3500多个性状。
随着测序技术的发展,GWAS的应用越来越广,不仅在人类复杂疾病发挥着重要作用,对动物和植物的复杂性状研究也存在着至关重要的作用。
1. GWAS是什么?全基因组关联分析(Genome-wide association study,GWAS),是指基于全基因组范围内找出的序列变异,如单核苷酸多态性(SNP)、InDel、CNV 等,并利用关联分析方法从中筛选出与目标性状相关的变异位点。
2、GWAS分析背景随着GWAS方法的应用,许多的重要基因或位点被挖掘出来,但是GWAS存在假阳性和假阴性的问题。
由于GWAS的概念是以群体遗传学的概念为基础的,所以其统计效应受样本量及群体结构等的影响。
目前动植物的发表文章,GWAS研究的样本数从100-5000不等,文献[1]的观点认为能检测到显著关联结果的最小的样本量是基因分型(SNP array plus imputation or WGS),allele frequency 以及effect size的函数。
如图1。
图1群体结构指的是不同的亚群间同一等位基因频率差异显著。
理想的GWAS研究应该是单因素实验,而群体间个体间的差异往往受群体结构和局部亲缘关系的因素影响,如图2。
图2-III 群体存在群体明显的群体结构,图2-V的群体结构更是错综复杂,所以在前期实验设计的时候,应尽量避免群体遗传关系过于复杂的材料,但是想要得到如图2-I那样均一的群体几乎是不可能的。
图23、GWAS的分析算法既然有些因素是无法消除的,那么可以将这些因素当做实验因素进行控制。
因此研究者开发出了GWAS不同的算法模型。
如:(1)GLM(General linear model),表型是因变量,其他品种、性别、群体结构和基因型数据是自变量。
在医学和生物领域得到了广泛的应用。
(2)MLM(The mixed linear model)加入了亲缘矩阵K。
(3)CMLM(Compressed mixed linear model)将QTL效应作为固定效应,并利用聚类分析将品种分组。
(4)FarmCPU(Fixed and random model circulating probability unificatiob)通过交替使用一个固定效应模型和一个随机效应模型来解决模型中的混杂问题,且利用bin的思想大大节省了存储空间。
好了,元元这次就讲到这里了。
关于GWAS的具体软件使用,后续我们将详细介绍。
欢迎大家关注。

参考文献[1] Visscher P M , Wray N R , Zhang Q , et al. 10 Years of GWAS Discovery: Biology, Function, and Translation[J]. The American Journal of Human Genetics, 2017, 101(1):5-22.[2] Xiao Y , Liu H , Wu L , et al. Genome-wide Association Studies in Maize: Praise and Stargaze[J]. Molecular Plant, 2016, DOI: 10.1016/j.molp.2016.12.008(3).
性状动植物定位GWAS(性状群体动植物定位结构)
(图片来源网络,侵删)

联系我们

在线咨询:点击这里给我发消息