干货动植物经典技术软件GWAS(干货动植物软件经典技术)「讲动植物知识的app」

做功能基因定位的生物狗基本都知道，经过10来年的发展，关联分析与连锁分析一样，已经成为一项基本工具，广泛应用于动植物功能基因挖掘中
在动植物（尤其是植物）的关联分析中，TASSEL软件是最早出现的开源软件，相对于其他软件，TASSEL也是使用的最广泛的，您想不想知道在您有了表型、基因型之后，怎么使用TASSEL进行关联分析呢？往下看吧，小编教你啊~先给软件的下载地址 http://www.maizegenetics.net/tassel在拿到表型和基因型（我们以vcf为例）后，完成GWAS分析，你只需要5步
第一步数据质控内容包括：1）按分型百分比条件过滤，多数文章剔除缺失率在20%以上的位点，样本量较大的群体中，可以将缺失率小于50%的位点都保留；2）按等位基因频率过滤，通常去除最小（或第二）等位基因频率小于5%的位点，样本量较大的群体中，可以降低到1%；3）多等位位点的过滤（当软件无法接受时）；4）有时候还会去除缺失数据太多的样本（基因型缺失比例大于20%或更高）；5）哈迪温伯格平衡过滤，一般在无法使用较为复杂的统计模型的情况下使用，如人类的Case/Control GWAS中一般将不符合哈迪温伯格平衡的位点过滤掉，动植物GWAS中一般不过滤；6）表型极端值去除，用Excel从小到大排一下序看看就知道了
如果你熟悉plink软件（https://www.cog-genomics.org/plink2），那么第1）到第5）点就变得非常easy了，一条命令行即可以搞定：./plink --vcf ./test.vcf --maf 0.05 --geno 0.2 --mind 0.2 --hwe 0.001 --biallelic-only --recode vcf-iid --out test.bia.maf0.05.int0.8.ind0.8.hwe0.001 --allow-extra-chr--vcf 表示输入的文件为vcf文件--maf 控制第二等位基因频率的，我们这里设置为不小于5%--geno 控制位点基因型的缺失比例的，我们这里设置为20%，即缺失比例大于20%的位点都会过滤掉--mind 控制样本基因型缺失比例的，我们这里设置为20%，即基因型缺失比例大于20%的位点都会被过滤掉--hwe 哈迪温伯格平衡显著性阈值的，我们这里设置为0.001，即哈迪温伯格平衡检验p值小于0.001的位点都会被过滤掉--biallelic-only 表示只保留二等位位点--recode 把基因编码为某种格式，我们这里还是输出为与输入文件一样的vcf，所以选vcf-iid，另外还有十几种格式，有需要的生物狗狗们可以到plink的官网上看看--out 给定输出文件的前缀--allow-extra-chr 允许存在22+X+Y以外的染色体，非人类数据建议都把这一项给上我们要讲的TASSEL软件，也可以完成一些过滤，导入数据vcf数据后（File -- open），选中导入的基因型文件，点击Filter菜单操作就行了，具体如下图
第二步群体结构分析群体结构分析的内容其实是很丰富的，包括系统发育树的构建（用于直观地看出样本的亚群分化情况）；基于模型的（model-base）群体结构分析，可以使用的软件包括STRUCTURE、Admixture等，分析结果可以获得Q矩阵，用于关联分析；数学降维的主成分分析，也就是我们常说的PCA分析，获得样本的主成分得分表，也可以作为Q矩阵用于关联分析
本帖小编带领大家用TASSEL进行PCA分析，获得的结果作为Q矩阵用于关联分析，系统发育树的构建（各种树）方法可以参考百迈客云课堂（http://live.biocloud.net/course/21）相关的课程，STRUCTURE的使用介绍见今天下午的直播课程或者云课堂
PCA分析：导入vcf后，选中导入的基因型文件，依次选择Analysis--Relatedness--PCA即可
获得的结果包括样本在各个PC（上面选返回多少个就显示多少个的信息）的得分表以及每个PC的特征值列表；如下两图：第三步亲缘关系分析亲缘关系衡量的是两两样本间的相关关系（可能是血缘的或者其他的）的数值，计算的方法很多（具体介绍见云课堂GWAS生信培训班），亲缘关系矩阵（K）在MLM模型中作为随机效控制关联结果的假阳性
在TASSEL中，基于分子标记，获得亲缘关系矩阵有两种方法，一种是计算Distance Matrix（Analysis -- Distance Matrix），另一种是计算Kinship（Analysis -- Kinship），两种途径获得的结果都可以用于关联分析，没有说非要用哪一种才是最好的
我们以计算Kinship为例，操作图示如下，OK以后即可得到结果
第四步关联分析获得Q矩阵，K矩阵后，导入性状数据，我们就可以进行关联分析了，关联分析之前，我们需要将基因型、性状、Q矩阵合并：按Ctrl键，鼠标依次选择基因型列表、样本在前5个PC的得分矩阵、性状列表，选择Data--Intersect jion完成合并
终于进入正题了，下面的操作将教会大家如何用TASSEL完成GLM和MLM/CMLM的关联分析
GLM：选中性状+基因型+PC列表；Analysis--Genotype/Phenotype Association--GLM；选择输出路径，填写输出文件名，然后点击OK即可
MLM/CMLM：选中性状+基因型+PC列表和亲缘关系列表，Analysis--Genotype/Phenotype Association--GLM；选择输出路径，填写输出文件名，然后点击Okay即可
结果如下第五步绘图展示把结果文件导入TASSEL中，选中导入的文件，Results--Manhattan plo/QQ plot即可绘出相关图形（TASSEL自带绘图功能画出来的图，小编真心觉得挺丑）；想知道漂亮的图怎么画出来的吗，请参加今天下午的直播课程吧，小编手把手教你，包教包会
通过上面的学习，相信大家已经学会了都动植物经典关联分析软件TASSEL的使用，以上展示的是该软件界面版的使用方法，界面版的软件在数据量比较小的时候操作起来比较顺畅，但是，如果数据量比较大的话，界面版的可能hold不住了，这时您可能想起要用命令行版的，那命令行版该怎么使用呢，请参加下午四点半的直播培训，我们一一为您讲解
TASSEL目前只能实现GLM/MLM/CMLM三种模型，其他常用模型如EMMAX、FaST-LMM（样本间亲缘关系对结果的影响比较大的时候建议选择这两种模型）等的使用方法以及GAPIT、Admixture软件的使用方法，请看百迈客云课堂GWAS生信专题培训班的内容（http://live.biocloud.net/course/21）
想要参加今天下午的直播培训的老师们，请下载演示数据，链接: https://pan.baidu.com/s/1nv9TFM5 密码: up8d；并提前配置好Java环境，安装好以下软件：STRUCTURE：https://web.stanford.edu/group/pritchardlab/structure.htmlCLUMMP：https://rosenberglab.stanford.edu/clumpp.htmlR：https://www.r-project.org/Pophelper：http://royfrancis.github.io/pophelper/CMplot：https://github.com/YinLiLin/R-CMplot