肺癌是全球最常见的恶性肿瘤之一,也是恶性肿瘤致死的首要原因,每年约200万确诊病例和176万人因肺癌死亡[1]。氧化应激(oxidative stress,OS)被定义为氧化剂和抗氧化剂之间的失衡,导致氧化还原信号传递和控制的破坏以及分子损伤[2]。抗氧化能力异常被认为是肿瘤恶变的一个潜在机制[3]。多个OS基因参与肺癌的进展。AK4通过在缺氧状态下增加细胞内活性氧(reactive oxygen species,ROS)水平来增加缺氧诱导因子-1α(hypoxia-inducible factor-1α,HIF-1α)蛋白表达,诱导上皮间充质转化(epithelial mesenchymal transition,EMT),从而促进肺癌转移[4]。KEAP1/NRF2通路被公认为是氧化还原平衡的关键调节因子,在肺癌中,NRF2的过度激活会导致其侵袭性和耐药性的增加,以及对转移的易感性[5]。此外,DNA甲基化通过调控ZDHHC1、NFE2L2及相关基因的表达来调节氧化还原稳态[6-7]。研究OS基因的潜在机制可能有助于确定肺癌的潜在致病因素和氧化还原相关的治疗靶点。
孟德尔随机化(Mendelian randomization,MR)是一种使用遗传变异作为工具变量(instrumental variable,IVs)来探索暴露和结果之间潜在因果关系的方法。在MR中,使用等位基因的随机分配避免了未观察到的混杂因素(如生活方式和环境因素)带来的偏差,以及反向因果关系的问题[8]。两样本MR分析可用于评估来自不同人群的工具变量与暴露和结局的关联[9]。基于汇总数据的孟德尔随机化(summary data-based Mendelian randomization,SMR)方法作为MR的延伸,将GWAS数据与基因表达、DNA甲基化进行整合,为鉴定基因表达或甲基化介导的因果效应提供了条件[10]。并采用HEIDI测试进行异质性检验,将潜在的因果关系与基因组中的广泛连锁不平衡(linkage disequilibrium,LD)区分开来[11]。本研究旨在通过SMR分析,探讨OS基因与肺癌之间的潜在因果关系。
1 资料与方法
1.1 研究方法和数据来源
从GeneCards数据库中获得OS相关基因(
然后,从eQTLGen联盟中获取了OS基因在血液中表达量调控位点(eQTLs)的信息。eQTLGen联盟是一个提供大规模血液eQTLs汇总统计数据的在线资源,包括来自37个数据集的31684例样本基因表达的遗传数据[15]。使用P<1×10-5作为显著水平,筛选出与OS基因表达相关的eQTLs。
最后,从McRae等[16]提供的在线资源中获取了OS基因在血液中DNA甲基化水平调控位点(mQTLs)的信息。该资源基于2个欧洲队列的Meta分析:布里斯班系统遗传学研究(n=614)和洛锡安出生队列(n=1366)[17]。使用P<1×10-5作为显著水平,筛选出与OS基因DNA甲基化水平相关的mQTLs。目前的研究关注顺式-eQTLs和顺式-mQTLs,即距离基因起始位点和终止位点1 Mb范围内的单核苷酸多态性(single nucleotide polymorphisms,SNPs)[18]。
1.2 统计分析
本研究主要采用了SMR分析和共定位分析两种方法,以探索OS基因与肺癌风险之间的因果关系。
作为MR的扩展,SMR被用来估计遗传决定性状(例如,基因表达、DNA甲基化作为暴露)和感兴趣的性状(例如疾病表型)之间的关联。SMR分析的优势是它可以同时利用GWAS和eQTL/mQTL数据,避免了样本重叠和混杂因素的影响。使用PLINK软件对GWAS SNPs、eQTLs和mQTLs进行质量控制,去除缺失率>0.05、未映射到人类参考基因组hg19的SNPs。使用SMR软件进行了SMR分析和HEIDI检验,并对多重假设检验进行FDR校正。HEIDI检验是用来检测异质性的一种方法,它的原理是比较每个SNP对暴露和结果的效应大小是否一致。如果一个SNP对暴露和结果的效应大小不一致,那么它可能是一个异质性SNP,也就是说它可能同时影响暴露和结果,但不是通过因果关系。HEIDI检验可以帮助我们筛选出那些可能存在混杂因素或者水平混杂的SNP,从而提高SMR分析的有效性和准确性。FDR校正是用来控制多重假设检验中错误发现率的一种方法,它的原理是根据P值大小进行排序和校正,从而得到每个假设被错误拒绝的概率。FDR校正可以帮助我们在保持较高统计功效的同时,避免过多的假阳性结果。
共定位分析是一种基于贝叶斯理论的方法,旨在研究不同性状在给定区域内是否共享同一个因果变异。共定位分析可以帮助我们判断两个性状是否有共同的遗传机制,并为后续的功能验证提供候选变异。我们使用coloc R软件包进行了共定位分析,使用PPH4>0.8作为两个性状之间共享遗传变异的阈值。PPH4是共定位分析中用来衡量两个性状是否共享同一个因果变异的概率的一种指标,它的原理是计算给定区域内存在一个共同因果变异的后验概率。Giambartolomei等[19]认为PPH4>0.8作为阈值可以在保证较高灵敏度和特异度的同时,减少假阳性和假阴性结果。
2 结果
2.1 氧化应激相关基因的顺式eQTLs与肺癌风险的SMR分析
从GeneCards数据库中获得1188个与OS相关基因。首先通过SMR分析,得到与肺癌相关的工具变量。进行FDR校正(FDR<0.05),确定具有强相关性的SNP,然后进行HEIDI检验(PHEIDI>0.01),排除多效性的干扰。识别出2个基因与肺癌具有因果关系,进一步进行共定位分析,如果在基因表达和肺癌之间存在共同因果变异的后验概率(PPH4)>0.8,则存在肺癌GWAS和eQTL共定位的证据。因果估计效应用OR值表示,AGER表达增加与肺癌风险增加相关[OR=1.944,95%CI(1.431,2.640),P<0.001],ATF6B表达增加也与肺癌风险增加相关[OR=1.508,95%CI(1.287,1.767),P<0.001](图1a)。

a:OS相关基因表达与肺癌风险之间的SMR分析结果;b:OS基因甲基化与肺癌风险之间的SMR分析结果;OS:氧化应激;SMR:基于汇总数据的孟德尔随机化
2.2 氧化应激相关基因的顺式mQTLs与肺癌风险的SMR分析
位于启动子或增强子的DNA甲基化通常会影响疾病相关靶基因的调控。对于OS基因的DNA甲基化与肺癌预后之间的因果关系,进行SMR分析,同时进行FDR校正(FDR<0.05)和HEIDI检验(PHEIDI>0.05)。在ATF6B基因中发现10个甲基化位点与肺癌的预后相关(图1b)。
3 讨论
本研究探讨了OS相关的遗传决定因素对肺癌的潜在因果效应,并确定了AGER和ATF6B两个与此有关的关键基因。这为连接遗传位点、基因表达和甲基化与肺癌的潜在机制提供了初步证据。
AGER基因编码一种细胞表面受体,它是免疫球蛋白超家族成员之一。此基因具有多种单核苷酸多态性(SNPs),这些变异可能会影响编码蛋白的功能[20]。在乳腺癌和其他许多癌症组织中,AGER的过表达已得到证实[21-22]。同时,AGER被视为促进癌症恶病质特征的潜在分子决定因素,因此,以AGER为目标的治疗策略可能具有对抗恶病质综合征的潜力[23]。ATF6是一种受内质网(endoplasmic reticulum,ER)应激调控的转录因子,ATF6B是ATF6的一种亚型[24]。ATF6B基因的遗传变异与乳腺癌的风险有关[25],并且与结直肠癌的风险也存在关联[26]。在本研究中,我们发现ATF6B基因的表达与肺癌之间存在潜在的因果关系。
本研究的一个显著优势是,我们探讨了所有OS相关基因与肺癌之间的因果关系,从而避免了之前研究中可能存在的选择偏见。我们选择了SMR作为主要的分析方法,并进行了共定位分析,这使我们的研究结果更为可靠。本研究也存在一些局限性。首先,由于当前分析方法和可用数据集的限制,我们只关注了OS基因的顺式区域,未能考虑反式eQTL可能对调控网络产生的广泛影响[15]。未来研究中,探索反式eQTL的作用将是理解OS基因与肺癌关系的重要补充。其次,我们采用的贝叶斯共定位方法主要依赖于两个性状共享的单个因果变异。虽然这种方法被广泛应用于多项研究中,并在探索基因表达和疾病关联方面显示出有效性[11,18]。但我们承认,当存在多个因果变异时,这种方法可能无法准确反映复杂的遗传交互作用。Wallace等[27]在PLOS Genetics上发表的研究提出了一种考虑多因果变异的共定位分析方法。尽管我们当前的分析没有采用这种方法,但我们认为这是未来研究的重要发展方向,并计划在后续工作中探索这些新方法的应用。
综上所述,尽管我们使用SMR分析发现AGER和ATF6B与肺癌存在潜在的因果关系,但这些发现仍然需要进一步验证。SMR分析有其局限性。因此,我们的发现可以视为一个初步的探索,并不能作为确定性的证据。未来的研究可以进一步探索这些基因在肺癌发病机制中的具体作用,以及它们作为潜在药物靶点的可能性。
利益冲突:无。
作者贡献:周嗣丁负责论文设计,数据整理与分析,论文初稿撰写等;肖洪璧、高铭骏负责数据整理与分析;汪梦梦负责论文校对和修改;王霄霖、束余声负责论文设计、审阅与修改。
肺癌是全球最常见的恶性肿瘤之一,也是恶性肿瘤致死的首要原因,每年约200万确诊病例和176万人因肺癌死亡[1]。氧化应激(oxidative stress,OS)被定义为氧化剂和抗氧化剂之间的失衡,导致氧化还原信号传递和控制的破坏以及分子损伤[2]。抗氧化能力异常被认为是肿瘤恶变的一个潜在机制[3]。多个OS基因参与肺癌的进展。AK4通过在缺氧状态下增加细胞内活性氧(reactive oxygen species,ROS)水平来增加缺氧诱导因子-1α(hypoxia-inducible factor-1α,HIF-1α)蛋白表达,诱导上皮间充质转化(epithelial mesenchymal transition,EMT),从而促进肺癌转移[4]。KEAP1/NRF2通路被公认为是氧化还原平衡的关键调节因子,在肺癌中,NRF2的过度激活会导致其侵袭性和耐药性的增加,以及对转移的易感性[5]。此外,DNA甲基化通过调控ZDHHC1、NFE2L2及相关基因的表达来调节氧化还原稳态[6-7]。研究OS基因的潜在机制可能有助于确定肺癌的潜在致病因素和氧化还原相关的治疗靶点。
孟德尔随机化(Mendelian randomization,MR)是一种使用遗传变异作为工具变量(instrumental variable,IVs)来探索暴露和结果之间潜在因果关系的方法。在MR中,使用等位基因的随机分配避免了未观察到的混杂因素(如生活方式和环境因素)带来的偏差,以及反向因果关系的问题[8]。两样本MR分析可用于评估来自不同人群的工具变量与暴露和结局的关联[9]。基于汇总数据的孟德尔随机化(summary data-based Mendelian randomization,SMR)方法作为MR的延伸,将GWAS数据与基因表达、DNA甲基化进行整合,为鉴定基因表达或甲基化介导的因果效应提供了条件[10]。并采用HEIDI测试进行异质性检验,将潜在的因果关系与基因组中的广泛连锁不平衡(linkage disequilibrium,LD)区分开来[11]。本研究旨在通过SMR分析,探讨OS基因与肺癌之间的潜在因果关系。
1 资料与方法
1.1 研究方法和数据来源
从GeneCards数据库中获得OS相关基因(
然后,从eQTLGen联盟中获取了OS基因在血液中表达量调控位点(eQTLs)的信息。eQTLGen联盟是一个提供大规模血液eQTLs汇总统计数据的在线资源,包括来自37个数据集的31684例样本基因表达的遗传数据[15]。使用P<1×10-5作为显著水平,筛选出与OS基因表达相关的eQTLs。
最后,从McRae等[16]提供的在线资源中获取了OS基因在血液中DNA甲基化水平调控位点(mQTLs)的信息。该资源基于2个欧洲队列的Meta分析:布里斯班系统遗传学研究(n=614)和洛锡安出生队列(n=1366)[17]。使用P<1×10-5作为显著水平,筛选出与OS基因DNA甲基化水平相关的mQTLs。目前的研究关注顺式-eQTLs和顺式-mQTLs,即距离基因起始位点和终止位点1 Mb范围内的单核苷酸多态性(single nucleotide polymorphisms,SNPs)[18]。
1.2 统计分析
本研究主要采用了SMR分析和共定位分析两种方法,以探索OS基因与肺癌风险之间的因果关系。
作为MR的扩展,SMR被用来估计遗传决定性状(例如,基因表达、DNA甲基化作为暴露)和感兴趣的性状(例如疾病表型)之间的关联。SMR分析的优势是它可以同时利用GWAS和eQTL/mQTL数据,避免了样本重叠和混杂因素的影响。使用PLINK软件对GWAS SNPs、eQTLs和mQTLs进行质量控制,去除缺失率>0.05、未映射到人类参考基因组hg19的SNPs。使用SMR软件进行了SMR分析和HEIDI检验,并对多重假设检验进行FDR校正。HEIDI检验是用来检测异质性的一种方法,它的原理是比较每个SNP对暴露和结果的效应大小是否一致。如果一个SNP对暴露和结果的效应大小不一致,那么它可能是一个异质性SNP,也就是说它可能同时影响暴露和结果,但不是通过因果关系。HEIDI检验可以帮助我们筛选出那些可能存在混杂因素或者水平混杂的SNP,从而提高SMR分析的有效性和准确性。FDR校正是用来控制多重假设检验中错误发现率的一种方法,它的原理是根据P值大小进行排序和校正,从而得到每个假设被错误拒绝的概率。FDR校正可以帮助我们在保持较高统计功效的同时,避免过多的假阳性结果。
共定位分析是一种基于贝叶斯理论的方法,旨在研究不同性状在给定区域内是否共享同一个因果变异。共定位分析可以帮助我们判断两个性状是否有共同的遗传机制,并为后续的功能验证提供候选变异。我们使用coloc R软件包进行了共定位分析,使用PPH4>0.8作为两个性状之间共享遗传变异的阈值。PPH4是共定位分析中用来衡量两个性状是否共享同一个因果变异的概率的一种指标,它的原理是计算给定区域内存在一个共同因果变异的后验概率。Giambartolomei等[19]认为PPH4>0.8作为阈值可以在保证较高灵敏度和特异度的同时,减少假阳性和假阴性结果。
2 结果
2.1 氧化应激相关基因的顺式eQTLs与肺癌风险的SMR分析
从GeneCards数据库中获得1188个与OS相关基因。首先通过SMR分析,得到与肺癌相关的工具变量。进行FDR校正(FDR<0.05),确定具有强相关性的SNP,然后进行HEIDI检验(PHEIDI>0.01),排除多效性的干扰。识别出2个基因与肺癌具有因果关系,进一步进行共定位分析,如果在基因表达和肺癌之间存在共同因果变异的后验概率(PPH4)>0.8,则存在肺癌GWAS和eQTL共定位的证据。因果估计效应用OR值表示,AGER表达增加与肺癌风险增加相关[OR=1.944,95%CI(1.431,2.640),P<0.001],ATF6B表达增加也与肺癌风险增加相关[OR=1.508,95%CI(1.287,1.767),P<0.001](图1a)。

a:OS相关基因表达与肺癌风险之间的SMR分析结果;b:OS基因甲基化与肺癌风险之间的SMR分析结果;OS:氧化应激;SMR:基于汇总数据的孟德尔随机化
2.2 氧化应激相关基因的顺式mQTLs与肺癌风险的SMR分析
位于启动子或增强子的DNA甲基化通常会影响疾病相关靶基因的调控。对于OS基因的DNA甲基化与肺癌预后之间的因果关系,进行SMR分析,同时进行FDR校正(FDR<0.05)和HEIDI检验(PHEIDI>0.05)。在ATF6B基因中发现10个甲基化位点与肺癌的预后相关(图1b)。
3 讨论
本研究探讨了OS相关的遗传决定因素对肺癌的潜在因果效应,并确定了AGER和ATF6B两个与此有关的关键基因。这为连接遗传位点、基因表达和甲基化与肺癌的潜在机制提供了初步证据。
AGER基因编码一种细胞表面受体,它是免疫球蛋白超家族成员之一。此基因具有多种单核苷酸多态性(SNPs),这些变异可能会影响编码蛋白的功能[20]。在乳腺癌和其他许多癌症组织中,AGER的过表达已得到证实[21-22]。同时,AGER被视为促进癌症恶病质特征的潜在分子决定因素,因此,以AGER为目标的治疗策略可能具有对抗恶病质综合征的潜力[23]。ATF6是一种受内质网(endoplasmic reticulum,ER)应激调控的转录因子,ATF6B是ATF6的一种亚型[24]。ATF6B基因的遗传变异与乳腺癌的风险有关[25],并且与结直肠癌的风险也存在关联[26]。在本研究中,我们发现ATF6B基因的表达与肺癌之间存在潜在的因果关系。
本研究的一个显著优势是,我们探讨了所有OS相关基因与肺癌之间的因果关系,从而避免了之前研究中可能存在的选择偏见。我们选择了SMR作为主要的分析方法,并进行了共定位分析,这使我们的研究结果更为可靠。本研究也存在一些局限性。首先,由于当前分析方法和可用数据集的限制,我们只关注了OS基因的顺式区域,未能考虑反式eQTL可能对调控网络产生的广泛影响[15]。未来研究中,探索反式eQTL的作用将是理解OS基因与肺癌关系的重要补充。其次,我们采用的贝叶斯共定位方法主要依赖于两个性状共享的单个因果变异。虽然这种方法被广泛应用于多项研究中,并在探索基因表达和疾病关联方面显示出有效性[11,18]。但我们承认,当存在多个因果变异时,这种方法可能无法准确反映复杂的遗传交互作用。Wallace等[27]在PLOS Genetics上发表的研究提出了一种考虑多因果变异的共定位分析方法。尽管我们当前的分析没有采用这种方法,但我们认为这是未来研究的重要发展方向,并计划在后续工作中探索这些新方法的应用。
综上所述,尽管我们使用SMR分析发现AGER和ATF6B与肺癌存在潜在的因果关系,但这些发现仍然需要进一步验证。SMR分析有其局限性。因此,我们的发现可以视为一个初步的探索,并不能作为确定性的证据。未来的研究可以进一步探索这些基因在肺癌发病机制中的具体作用,以及它们作为潜在药物靶点的可能性。
利益冲突:无。
作者贡献:周嗣丁负责论文设计,数据整理与分析,论文初稿撰写等;肖洪璧、高铭骏负责数据整理与分析;汪梦梦负责论文校对和修改;王霄霖、束余声负责论文设计、审阅与修改。