(图片来源网络,侵删)
遗传关联研究1、前言噪声是生活中最普遍的环境污染之一(Yuen,2014)。长期暴露于噪声中可能 会导致噪声性听力损失(Noise-induced hearing loss,NIHL)。全球约有5%的人口遭受工业,军事或娱乐性噪声的困扰,数百万人暴露在有害的噪声环境中(Oishi&Schacht,2011)。NIHL严重影响了个人的生活质量,给社会造成了巨大 的经济损失(Seidman&Standring,2010)。听力下降被认为是遗传因素和环境因素共同作用所导致的结果(Konings et al.,2009)。已知的环境因素包括噪音、吸烟、接触有机溶剂、高血压、胆固醇升 高等(Rabinowitz et al.,2008;Wu et al.,2017)。动物研究证实遗传因素与听力下降 有关(Davis et al.,2001;Li,1992;Sliwinska-Kowalska&Pawelczyk,2013)。例如, 基因敲除小鼠(如Pmca2-/-、Sod1-/-、Gpx1-/-和Cdh23+/-)相比于同窝野生型小鼠,更容易受到噪声的影响,导致听力下降(Sliwinska-Kowalska&Pawelczyk,2013)。人类双胞胎研究也表明,遗传因素在NIHL的发展中起着重要作用(Johnson et al., 2017)。候选基因研究已发现多个单核苷酸多态性(Single nucleotide polymorphisms,SNPs)与NIHL的风险显著相关。这些SNPs所标记的候选基因 主要分为以下四类(Sliwinska-Kowalska&Pawelczyk,2013):(i)氧化应激基因, 如CAT,SOD1和SOD2;(ii)内耳钾离子循环通路基因,如KCNQ4和KCNE1; (iii)HSP基因,如HSP70;(iv)单基因性耳聋基因,如PCDH15、MYH14。 最近,一项针对包含25例听力下降病例和23例听力正常对照者的欧洲人群GWAS显示,核蛋白(Nucleoprotein,NCL)基因上的一个SNP(rs7598759)与 NIHL的风险显著相关(Grondin et al.,2015)。然而,这些发现并不足以解释NIHL 全部的遗传度。此外,已发表的NIHL的GWAS样本量有限,且在中国人群中 从未有NIHL的GWAS报道。为了在中国人群中发现与NIHL易感性相关的基因,我们对89例NIHL患 者(病例)和209例听力正常的受试者(对照组)开展了GWAS分析,然后在 包含53例NIHL病例和360例对照的独立人群中进行验证分析。结果发现, 7q11.22的rs35075890和7q36.3的rs10081191是新的NIHL易感位点。这些发现 扩展了我们对NIHL遗传学基础的理解。2、材料与方法我们在中国人群中开展了一个两阶段的GWAS研究,共包含了711例中国 男性。发掘阶段包含298例受试者,验证阶段包含413例受试者(表1-2-1)。研 究对象均来自某省某市某单位2018年3月至2019年9月职业性噪声暴露环 境的作业人员。这些作业人员每天暴露在超过100分贝(Decibels,dB)的噪音 中8小时(Hour,h)以上。所有受试者均无与听力相关的并发症、耳外伤,也未患有某些药物或毒素所致的耳毒性以及中耳炎。纯音测听由训练有素的医生根据标准程序使用Madsen Voyager 522测听仪(Kastrup,丹麦)在测听室对每个受 试者进行检测。在最后一次接触工作场所噪声至少12 h后进行纯音测听,以避 免暂时性阈值偏移。在250 Hz、500 Hz、1,000 Hz、2,000 Hz、4,000 Hz、8,000 Hz的频率下,测试研究对象双耳能听到最小声音的听力阈值。根据世界卫生组织的分类,如果受试者两侧耳朵的最小听力阈值大于25 dB,则该受试者可视为NIHL (Lohler et al.,2019)。此外,还采用结构问卷的方式收集研究对象的人口统计学因素、噪声暴露时间、噪声暴露强度和双耳听力阈值等信息。根据这一标准,发掘阶段共计89例病例和209例对照,验证阶段共计53例病例和360例对照。发掘阶段人群:该人群共包含298例参与者,包括89例病例和209例对照。 所有研究对象均是在2018年3月从安徽省蚌埠市职业噪声暴露环境中的男性工 作者中招募的受试者。病例和对照组的平均年龄(标准差)分别为23.8(1.5) 岁和23.3(1.6)岁。所有研究对象均采用Illumina Infinium Asian Screening Array-24(v1.0)进行基因分型。验证阶段人群:该人群共包含413人,包括53例病例和360例对照。研究 对象均为2018年8月至2019年9月安徽省蚌埠市职业噪声暴露环境中的男性工 作者。病例和对照组的平均年龄(标准差)分别为26.5(5.7)岁和24.5(2.5) 岁。总的来说,在发掘阶段和验证阶段,病例的平均年龄显著大于对照组(P分 别为0.07和6.00×10-3)。在所有的基因分型实验中,研究人员均不知道所有参 与者的病例/对照状态。发掘阶段的基因分型和质量控制发掘阶段的病例和对照样本使用Illumina Infinium Asian Screening Array-24 (v1.0)芯片进行基因分型,该芯片包含659,184个SNPs位点。我们对样本和 SNPs进行了严格的质量控制,以保证后续可靠地的遗传关联分析(Li et al.,2016; Li et al.,2018)。简单地说,如果样本满足以下条件则被排除:(i)样本个体基因 分型率<90%;(ii)样本性别信息缺失;(iii)样本出现重复或亲缘关系(PI_HAT> 0.025),或是(iv)被认定为异常样本个体。使用全基因组复杂性状分析软件 (Genome-wide Complex Trait Analysis software,GCTA)进行主成分分析(Principal component analysis,PCA)用于检测离群值(Yang,Lee,Goddard,& Visscher,2011)。SNPs被排除的条件是:(i)SNPs分型率<90%;(ii)次等位基 因频率(Minor allele frequency,MAF)<0.05;(iii)位于性染色体上;(iv)在 发掘阶段,人群中的哈迪-温伯格平衡测试的P值小于1.00×10-4。在完成质量控 制之后,共有89例病例和209例对照以及302,253个SNPs留待后续分析。SNPs的基因插补为了增加发掘阶段数据集中SNPs的覆盖范围,我们使用SHAPEIT软件 (Version 2)和IMPUTE2软件(Version 2.2.2)对发掘阶段的SNPs进行了基因 插补。千人基因组计划数据(第3版)被用作参考数据集。将由SHAPEIT软件 构建的单倍型直接导入IMPUTE2软件。我们将推算结果中后验概率大于0.6的 SNPs纳入后续的分析。为保证后续分析的质量,我们对推算出来的SNPs进行 了质量控制,保留满足以下质量控制条件的SNPs,包括:(i)SNPs分型率大于 90%;(ii)MAF大于0.05;(iii)哈迪-温伯格平衡测试的P值大于1.00×10-4。剔除多等位基因的SNPs(四等位基因SNPs和三等位基因SNPs)。最后,我们 在89例患者和209例对照中总共获得3,830,413个SNPs。发掘阶段的全基因组遗传关联分析我们使用PLINK(Version 1.90)进行SNPs与表型的遗传关联分析 (Mostowska et al.,2018;Renteria,Cortes,&Medland,2013)。我们在加性模型下进 行logistic回归分析,并校正年龄和噪声暴露时间。曼哈顿图-log10(P)和分位 数(Quantile-quantile,Q-Q)图是使用R(Version 3.5.0)生成的。使用λ膨胀系数评估关联研究是否存在系统性偏差。2.6验证阶段的基因分型、质量控制和遗传关联分析我们筛选发掘阶段P≤1.0×10-4的SNPs,共选择了262个SNPs。这262个 SNPs被导入到Haploview(v4.2)软件中。通过设置连锁不平衡(Linkage Disequilibrium,LD)阈值(r2<0.05),将强LD的SNPs归为一个基因座。结果 发现,这262个SNPs分别位于29个基因座。然后,选择每个基因座中的一个 SNP用于随后的验证。我们优先考虑那些直接通过基因分型的所产生的SNPs, 而不是通过基因插补出来的SNPs,因为即使较低的推算错误率也可能对后续的 分析产生重大影响(Li,Willer,Sanna,&Abecasis,2009;Marchini&Howie, 2010)。最终,我们共筛选出29个SNPs。我们采用Sequenom基因分型法,对候 选SNPs进行基因分型。简单地说,位点特异性聚合酶链反应和引物是使用 MassARRAYAssay Design 3.0软件(Sequenom,Inc.,USA)设计的。每个样本 约15 ng的基因组DNA用于SNPs基因分型。使用多重PCR扩增DNA,并将产物用于位点特异性单碱基延伸反应。将所得产物脱盐并转移到384元素光谱芯片 阵列中。采用MALDI-TOF-MS进行等位基因检测。对Sequenom基因分型法得到的基因型数据进行聚类分析,并使用肉眼检查以确认其质量良好。对验证阶段的基因型数据进行与发掘阶段相同的质量控制。由于rs56328361未能成功进行 基因分型,最终得到了28个分型成功的SNPs。在验证研究中,随机抽取5%的 个体重复基因分型,基因分型结果一致率为100%。最终,在验证阶段发现, rs35075890和rs10081191显著关联(P<0.05),且效应方向与发掘阶段相同。由 于19例参与者的噪声暴露时间在验证阶段缺失,因此我们用验证阶段所有参与 者的平均噪声暴露时间(2.4年)进行替换,作为缺失数据的补充。随后,我们 使用PLINK(version 1.90)在加性模型条件下对验证阶段中的样本进行遗传关联分析,并且校正了年龄和噪声暴露时间。通路分析在发掘阶段,利用多标记分析基因组注释软件(Multi-marker Analysis of GenoMic Annotation,MAGMA)在全基因组遗传关联基础上进行通路富集分析 (de Leeuw,Mooij,Heskes,&Posthuma,2015)。该通路富集分析是一种新的有效策 略,可以检测到传统GWAS缺失的遗传关联,并探索疾病的生物学机制(de Leeuw et al.,2015)。MAGMA用F检验计算基因P值,然后用回归模型进行基 因集分析。本研究中参考的数据集共包括了186个京都基因与基因组百科全书 (Kyoto Encyclopedia of Genes and Genomes,KEGG)数据集、289个BioCarta 基因数据集,196个通路相互作用(Pathway Interaction Database,PID)数据集 和1499个人类生物学反应及信号通路数据集(Human Biological Response andSignal Pathway Database,Reactome)。采用本杰米尼·霍奇伯格 (Benjamini-Hochberg,BH)法进行多重检测校正,错误发现率(False discovery rate,FDR)小于0.05被认为有统计学意义。3、讨论在本研究中,我们对NIHL进行了GWAS。据以往的文献调研,这是我国首 次针对NIHL的GWAS研究。我们在7q11.22(rs35075890)和7q36.3(rs10081191) 确定了两个新的位点,这两个位点有助于了解NIHL的易感性。4、总结本文基于全基因组遗传关联研究策略,以发现噪声暴露后两种重要疾病(噪 声性听力下降和噪声性耳鸣)的遗传易感基因。我们的研究将有望为噪声环境听 觉疾病的防诊治提供新的理论基础。基于全基因组遗传关联研究策略,我们通过发掘和验证阶段共计142例噪声 性听力下降病例和569例听力正常对照的研究,发现7q11.22(标记SNP位点 rs35075890)和7q36.3(标记SNP位点rs10081191)是噪声性听力下降的遗传易 感区域。e QTL分析显示,7q11.22区域的rs35075890在多种脑组织中与AUST2 基因的表达显著相关,而7q36.3区域的rs10081191在多种脑组织中与该区域的 PTPRN2和WDR60基因的表达显著相关(P<0.05)。LocusCompare在线工具的 共定位分析表明,NIHL显著相关的SNP-rs35075890信号与脑组织中7q11.22基 因座的e QTL数据之间具有显著共定位信号,而另一个NIHL显著相关的 SNP-rs10081191信号与脑组织中的PTPRN2基因座(7q36.3)的e QTL数据间具 有显著共定位信号,但是与脑组织中的WDR60基因座(7q36.3)的e QTL数据间不具有显著共定位信号。综上,我们发现与噪声性听力下降相关的三个候选易感基因AUST2、PTPRN2和WDR60。
0 评论