引用本文: 彭庆慧, 赵健, 林奕蝶, 姚强, 李紫君, 朱彩蓉. 生育史与女性激素相关癌症的因果关联:孟德尔随机化研究. 中国循证医学杂志, 2024, 24(8): 879-886. doi: 10.7507/1672-2531.202311171 复制
乳腺癌、卵巢癌及子宫内膜癌被称为女性激素相关癌症[1,2]。国际癌症研究机构发布的全球癌症数据[3]显示,全球2020年女性激素相关癌症新发病例约300万例,占女性癌症新发病例的三分之一;同年死亡病例约10万例,占女性癌症死亡病例的五分之一。
近年来,生育史在激素相关癌症发生中的作用越来越受到关注[4,5]。既往证据提示,妇女在怀孕期间会经历雌激素、孕激素等激素水平急剧增加[6],这些变化可能会打破或重塑雌激素和孕激素平衡状态,继而影响激素相关癌症的发生[7,8]。生育史通常采用生育子女数量和首次生育时间进行测量,目前关注生育史与激素相关癌症的流行病学研究的结果并不一致。部分研究表明首次生育年龄大是乳腺癌[9]和卵巢癌[10]的潜在危险因素,生育子女数量增加可降低乳腺癌[11]、卵巢癌[12]及子宫内膜癌[13]的发生风险;有研究却认为首次生育年龄与乳腺癌[14]、卵巢癌[15]和子宫内膜癌[16]无关。生育史与某种激素相关癌症的相关性已日渐被重视,在此基础上,本研究拟进一步探讨生育史与三种激素相关癌症的因果关联。
随着全基因组关联研究(genome-wide association study,GWAS)的发展,应运而生的孟德尔随机化(Mendelian randomization,MR)研究能够利用大样本量的GWAS汇总数据进行因果推断,为探讨此问题提供了新机会。近期一项多变量MR研究显示,生育子女数量增加会导致子宫内膜癌发生风险降低[17]。然而,该研究利用的GWAS数据未区分不孕与正常生育妇女。由于不孕与正常生育妇女在遗传基础和激素相关癌症的发生风险等方面存在明显不同[18,19],如果不对其进行区分,可能会导致以下问题:首先,在研究中引入混杂偏倚;其次,使得该MR研究只能采用同一组工具变量(instrumental variable,IV)代表不孕与正常生育妇女的生育子女数量特征,从而降低MR估计的准确性,使结果难以解释[20]。
一项2023年发布的生育子女数量GWAS数据,针对不孕与正常生育妇女分别进行了GWAS分析,为在不孕与正常生育妇女中,探讨生育子女数量对激素相关癌症的影响提供了可能。考虑到既往研究的不足,本研究拟以生育子女数量和首次生育年龄作为暴露因素,以乳腺癌、卵巢癌及子宫内膜癌这三种可能存在与激素相关的共同致癌机制的激素相关癌症[21]作为结局,基于新的GWAS汇总数据并通过MR方法,全面地探讨生育史与女性激素相关癌症的因果关联。
1 资料与方法
1.1 暴露数据
暴露因素为生育史,通过生育子女数量和首次生育年龄进行测量。生育子女数量指女性活产子女数量,在不孕妇女(指有不孕史且在问卷调查时仍无子女的女性)中为无子女(二分类变量,以正常生育妇女作为参照),在正常生育妇女中则为曾生育子女数量(连续型变量),其GWAS数据来自剑桥大学的Apollo数据库(表1)[22]。首次生育年龄(连续性变量)指女性首次分娩的年龄,其GWAS数据来自GWAS Catalog数据库[23]。

1.2 结局数据
结局为三种女性激素相关癌症,即乳腺癌、子宫内膜癌及卵巢癌。乳腺癌的GWAS数据[24]可在国际乳腺癌研究联盟官网获取;子宫内膜癌的GWAS数据来自GWAS Catalog数据库[25];上皮性卵巢癌的GWAS数据[26]可在国际卵巢癌研究联盟官网获取(表1)。
1.3 IV选择
在MR中IV需满足三个假设:与暴露密切相关(相关性假设)、独立于研究中的潜在混杂因素(独立性假设)及仅通过暴露与结局相关(排他性假设)。为满足相关性假设,选择与生育子女数量(无子女、曾生育子女数量)和首次生育年龄显著相关(P<5×10−8)的单核苷酸多态性(single nucleotide polymorphism,SNP)作为候选IV。为满足排他性假设,去除连锁不平衡以及可能存在水平多效性影响的SNP(PhenoScanner 数据库)。在分析过程中,去除回文SNP以及提示反向因果的SNP(MR Steiger过滤法[27]),以确保获得有效的IV。如果SNP在结局数据中无法匹配,使用LDlink识别r2>0.8的替代SNP并进行匹配。此外,整合曾生育子女数量和首次生育年龄的IV集,去除连锁不平衡后,作为多变量孟德尔随机化(multivariable Mendelian randomization,MVMR)分析的IV集。
1.4 统计分析
1.4.1 单变量MR分析
本研究采用单变量MR方法,调查无子女、曾生育子女数量及首次生育年龄与女性激素相关癌症的因果关联。根据MR操作指南[28,29]的建议,本研究将采用乘法随机效应的逆方差加权法(inverse-variance weighted,IVW)[30]作为主要分析方法,通过对每个SNP的Wald比值进行逆方差加权获得效应估计值。相较其他方法,如果IV满足不存在水平多效性的假设,IVW法能够提供最准确的因果估计且拥有最高的统计功效。为证明主要分析结果的稳健性和可靠性,本研究还将采用三种基于不同的假设以获得可靠的结果的敏感性分析方法:MR-PRESSO[31]、MR-Egger[32]和加权中位数[33]。
1.4.2 MVMR分析
由于既往研究提示生育子女数量与首次生育年龄相关[22],本研究拟采用MVMR方法[34],在正常生育妇女中,进一步调查曾生育子女数量、首次生育年龄对女性激素相关癌症的直接因果效应。该方法可以通过考虑暴露因素之间的关联,获得各个暴露对结局的直接因果效应。
1.4.3 软件信息
在R 软件(4.2.3 版)中,采用TwoSampleMR R软件包(0.5.6 版)进行单变量MR分析,采用MVMR R软件包(0.3 版)进行MVMR分析。
1.5 可靠性检验
为检验相关性假设,本研究在单变量MR中使用F统计量,MVMR中使用条件F统计量,来评估存在弱IV偏倚的可能性。为检验排他性假设,研究通过MR-Egger回归截距检验和MR-PRESSO检验来探索是否存在潜在水平多效性及其程度,并通过Cochran’s Q统计量来检验异质性程度。使用留一法评价单个SNP对暴露与结局关系的影响程度。
2 结果
2.1 IV选择结果
通过研究流程(附件图1),确定了3、11及33个SNP分别作为无子女、曾生育子女数量及首次生育年龄的候选IV(表2),并在分析过程中进一步去除了回文SNP、反向因果SNP以及没有替代SNP的IV,以得到有效IV集。

2.2 单变量MR分析
与正常生育妇女相比,不孕妇女(无子女)的乳腺癌发生风险更高[OR=1.07,95%CI(1.05,1.09),P<0.01],但子宫内膜癌和卵巢癌发生风险没有明显差异。此外,没有观察到曾生育子女数量和首次生育年龄与三种激素相关癌症的因果关联(图1、图2)。敏感性分析结果与IVW结果一致(附件图2)。


a:无子女与乳腺癌;b:无子女与卵巢癌;c:无子女与子宫内膜癌;d:曾生育子女数量与乳腺癌;e:曾生育子女数量与卵巢癌;f:曾生育子女数量与子宫内膜癌;g:首次生育年龄与乳腺癌;h:首次生育年龄与卵巢癌;i:首次生育年龄与子宫内膜癌。
2.3 MVMR分析
在正常生育妇女中,考虑首次生育年龄的影响后,曾生育子女数量增加会导致乳腺癌发生风险降低[OR=0.61,95%CI(0.43,0.85),P<0.01]。然而,曾生育子女数量对卵巢癌和子宫内膜癌无直接因果效应。控制曾生育子女数量后的首次生育年龄对三种激素相关癌症均无直接因果效应(表3)。

2.4 可靠性检验
在单变量MR中,SNP的F统计量范围在29.8~49.6之间,表明受弱IV偏倚影响的可能性较小;在MVMR中,曾生育子女数量和首次生育年龄的条件F统计量在6.8~12.7之间,表明可能存在弱IV偏倚的影响;Cochran’s Q统计量、MR-Egger截距和MR-PRESSO全局检验提示,曾生育子女数量与子宫内膜癌以及首次生育年龄与子宫内膜癌的因果估计,可能受异质性和水平多效性的影响;其余的因果估计受异质性和水平多效性影响的可能性较小(表4)。

3 讨论
本研究结果表明,相比于正常妇女,不孕妇女(无子女)的乳腺癌发生风险更高。在正常生育妇女中,曾生育子女数量增加可能会降低乳腺癌发生风险。未发现首次生育年龄与激素相关癌症以及生育子女数量与卵巢癌、子宫内膜癌存在因果关联。首次生育年龄和曾生育子女数量与子宫内膜癌的关联分析可能受到异质性和水平多效性影响。
相对于正常生育妇女,不孕妇女(无子女)面临更高的乳腺癌风险。实验研究表明,不孕症患者往往存在激素代谢紊乱,伴随较低的孕激素水平[35]。然而,无孕激素拮抗的雌激素可能促使乳腺癌发生[8,36]。本研究为此结论提供了基于大样本人群的因果证据。一项基于欧洲妇女的大型队列研究发现,不孕症与乳腺癌的发生不存在关联[37]。结论差异可能是由于这项队列研究未将无子女和有子女的妇女区分开,导致其结果受到生育情况的影响。
正常生育妇女中,生育子女数量增加可能会导致乳腺癌发生风险降低。究其原因,可能是生育多个子女的妇女经历多次怀孕和哺乳,这期间的停经减少了妇女暴露于高水平雌激素的时长[38],而且由于泌乳需要,乳腺细胞趋于分化成熟,从而降低乳腺癌发生的风险[39]。一项2019年发表的日本队列研究也发现,生育多个子女是乳腺癌发生风险的保护因素[40],但该研究受限于随访数据较早(早于2000年)且未将不孕和正常生育妇女区分开。本研究在欧洲正常生育妇女中验证了该结论,为生育子女数量与乳腺癌的关联提供了更多证据。
首次生育年龄与乳腺癌的发生无关。一项利用英国生物银行GWAS数据进行的MR研究发现[14],首次生育年龄与乳腺癌发生无因果效应,与本研究结论一致。然而,一项1970年基于亚洲妇女的病例-对照研究提示,与未生育妇女相比,首次生育年龄低于34岁的妇女乳腺癌发生风险无明显差异,首次生育年龄高于35岁的妇女面临更高的乳腺癌发生风险[41],提示首次生育年龄对乳腺癌发生的影响可能是非线性的,该关联有待使用非线性方法进一步探究。此外,有研究者认为,乳腺癌发生的影响因素应为从月经初潮到首次生育的间隔时间,而非首次生育年龄[42,43],该观点尚待进一步确证。
生育子女数量与卵巢癌、子宫内膜癌可能无因果关联。既往研究提示,生育多个子女可能降低卵巢癌[12]和子宫内膜癌[13]的发生风险,但观察性研究潜在的选择偏倚及残余混杂等可能影响结果的可靠性。一项MR研究发现生育子女数量与子宫内膜癌有因果关联,但该研究未将不孕症妇女与正常生育妇女区分开,误用IV[17],从而导致结果不可靠。
为了确保结果的可靠性,本研究不仅采用了严格合理的IV筛选流程,还检验了MR的三个关键假设。尽管检验结果提示绝大部分的因果估计未受到明显的异质性和水平多效性影响,敏感性分析结果进一步证明,即使存在异质性和水平多效性影响,本研究结果仍稳健且可靠。本研究存在一定的局限性:① 所使用GWAS研究为欧洲人群,限制了研究结论的外推;② 受限于数据可获得性,研究未探讨生育史与激素相关癌症的潜在非线性关系,以及生育史与三种激素相关癌症亚型的因果关系。
综上所述,本研究首次采用单变量和多变量MR方法,利用新的GWAS汇总数据,在不孕和正常生育妇女中,为生育子女数量与乳腺癌的因果关系提供了更多证据,并提示适量生育有利于预防乳腺癌。
乳腺癌、卵巢癌及子宫内膜癌被称为女性激素相关癌症[1,2]。国际癌症研究机构发布的全球癌症数据[3]显示,全球2020年女性激素相关癌症新发病例约300万例,占女性癌症新发病例的三分之一;同年死亡病例约10万例,占女性癌症死亡病例的五分之一。
近年来,生育史在激素相关癌症发生中的作用越来越受到关注[4,5]。既往证据提示,妇女在怀孕期间会经历雌激素、孕激素等激素水平急剧增加[6],这些变化可能会打破或重塑雌激素和孕激素平衡状态,继而影响激素相关癌症的发生[7,8]。生育史通常采用生育子女数量和首次生育时间进行测量,目前关注生育史与激素相关癌症的流行病学研究的结果并不一致。部分研究表明首次生育年龄大是乳腺癌[9]和卵巢癌[10]的潜在危险因素,生育子女数量增加可降低乳腺癌[11]、卵巢癌[12]及子宫内膜癌[13]的发生风险;有研究却认为首次生育年龄与乳腺癌[14]、卵巢癌[15]和子宫内膜癌[16]无关。生育史与某种激素相关癌症的相关性已日渐被重视,在此基础上,本研究拟进一步探讨生育史与三种激素相关癌症的因果关联。
随着全基因组关联研究(genome-wide association study,GWAS)的发展,应运而生的孟德尔随机化(Mendelian randomization,MR)研究能够利用大样本量的GWAS汇总数据进行因果推断,为探讨此问题提供了新机会。近期一项多变量MR研究显示,生育子女数量增加会导致子宫内膜癌发生风险降低[17]。然而,该研究利用的GWAS数据未区分不孕与正常生育妇女。由于不孕与正常生育妇女在遗传基础和激素相关癌症的发生风险等方面存在明显不同[18,19],如果不对其进行区分,可能会导致以下问题:首先,在研究中引入混杂偏倚;其次,使得该MR研究只能采用同一组工具变量(instrumental variable,IV)代表不孕与正常生育妇女的生育子女数量特征,从而降低MR估计的准确性,使结果难以解释[20]。
一项2023年发布的生育子女数量GWAS数据,针对不孕与正常生育妇女分别进行了GWAS分析,为在不孕与正常生育妇女中,探讨生育子女数量对激素相关癌症的影响提供了可能。考虑到既往研究的不足,本研究拟以生育子女数量和首次生育年龄作为暴露因素,以乳腺癌、卵巢癌及子宫内膜癌这三种可能存在与激素相关的共同致癌机制的激素相关癌症[21]作为结局,基于新的GWAS汇总数据并通过MR方法,全面地探讨生育史与女性激素相关癌症的因果关联。
1 资料与方法
1.1 暴露数据
暴露因素为生育史,通过生育子女数量和首次生育年龄进行测量。生育子女数量指女性活产子女数量,在不孕妇女(指有不孕史且在问卷调查时仍无子女的女性)中为无子女(二分类变量,以正常生育妇女作为参照),在正常生育妇女中则为曾生育子女数量(连续型变量),其GWAS数据来自剑桥大学的Apollo数据库(表1)[22]。首次生育年龄(连续性变量)指女性首次分娩的年龄,其GWAS数据来自GWAS Catalog数据库[23]。

1.2 结局数据
结局为三种女性激素相关癌症,即乳腺癌、子宫内膜癌及卵巢癌。乳腺癌的GWAS数据[24]可在国际乳腺癌研究联盟官网获取;子宫内膜癌的GWAS数据来自GWAS Catalog数据库[25];上皮性卵巢癌的GWAS数据[26]可在国际卵巢癌研究联盟官网获取(表1)。
1.3 IV选择
在MR中IV需满足三个假设:与暴露密切相关(相关性假设)、独立于研究中的潜在混杂因素(独立性假设)及仅通过暴露与结局相关(排他性假设)。为满足相关性假设,选择与生育子女数量(无子女、曾生育子女数量)和首次生育年龄显著相关(P<5×10−8)的单核苷酸多态性(single nucleotide polymorphism,SNP)作为候选IV。为满足排他性假设,去除连锁不平衡以及可能存在水平多效性影响的SNP(PhenoScanner 数据库)。在分析过程中,去除回文SNP以及提示反向因果的SNP(MR Steiger过滤法[27]),以确保获得有效的IV。如果SNP在结局数据中无法匹配,使用LDlink识别r2>0.8的替代SNP并进行匹配。此外,整合曾生育子女数量和首次生育年龄的IV集,去除连锁不平衡后,作为多变量孟德尔随机化(multivariable Mendelian randomization,MVMR)分析的IV集。
1.4 统计分析
1.4.1 单变量MR分析
本研究采用单变量MR方法,调查无子女、曾生育子女数量及首次生育年龄与女性激素相关癌症的因果关联。根据MR操作指南[28,29]的建议,本研究将采用乘法随机效应的逆方差加权法(inverse-variance weighted,IVW)[30]作为主要分析方法,通过对每个SNP的Wald比值进行逆方差加权获得效应估计值。相较其他方法,如果IV满足不存在水平多效性的假设,IVW法能够提供最准确的因果估计且拥有最高的统计功效。为证明主要分析结果的稳健性和可靠性,本研究还将采用三种基于不同的假设以获得可靠的结果的敏感性分析方法:MR-PRESSO[31]、MR-Egger[32]和加权中位数[33]。
1.4.2 MVMR分析
由于既往研究提示生育子女数量与首次生育年龄相关[22],本研究拟采用MVMR方法[34],在正常生育妇女中,进一步调查曾生育子女数量、首次生育年龄对女性激素相关癌症的直接因果效应。该方法可以通过考虑暴露因素之间的关联,获得各个暴露对结局的直接因果效应。
1.4.3 软件信息
在R 软件(4.2.3 版)中,采用TwoSampleMR R软件包(0.5.6 版)进行单变量MR分析,采用MVMR R软件包(0.3 版)进行MVMR分析。
1.5 可靠性检验
为检验相关性假设,本研究在单变量MR中使用F统计量,MVMR中使用条件F统计量,来评估存在弱IV偏倚的可能性。为检验排他性假设,研究通过MR-Egger回归截距检验和MR-PRESSO检验来探索是否存在潜在水平多效性及其程度,并通过Cochran’s Q统计量来检验异质性程度。使用留一法评价单个SNP对暴露与结局关系的影响程度。
2 结果
2.1 IV选择结果
通过研究流程(附件图1),确定了3、11及33个SNP分别作为无子女、曾生育子女数量及首次生育年龄的候选IV(表2),并在分析过程中进一步去除了回文SNP、反向因果SNP以及没有替代SNP的IV,以得到有效IV集。

2.2 单变量MR分析
与正常生育妇女相比,不孕妇女(无子女)的乳腺癌发生风险更高[OR=1.07,95%CI(1.05,1.09),P<0.01],但子宫内膜癌和卵巢癌发生风险没有明显差异。此外,没有观察到曾生育子女数量和首次生育年龄与三种激素相关癌症的因果关联(图1、图2)。敏感性分析结果与IVW结果一致(附件图2)。


a:无子女与乳腺癌;b:无子女与卵巢癌;c:无子女与子宫内膜癌;d:曾生育子女数量与乳腺癌;e:曾生育子女数量与卵巢癌;f:曾生育子女数量与子宫内膜癌;g:首次生育年龄与乳腺癌;h:首次生育年龄与卵巢癌;i:首次生育年龄与子宫内膜癌。
2.3 MVMR分析
在正常生育妇女中,考虑首次生育年龄的影响后,曾生育子女数量增加会导致乳腺癌发生风险降低[OR=0.61,95%CI(0.43,0.85),P<0.01]。然而,曾生育子女数量对卵巢癌和子宫内膜癌无直接因果效应。控制曾生育子女数量后的首次生育年龄对三种激素相关癌症均无直接因果效应(表3)。

2.4 可靠性检验
在单变量MR中,SNP的F统计量范围在29.8~49.6之间,表明受弱IV偏倚影响的可能性较小;在MVMR中,曾生育子女数量和首次生育年龄的条件F统计量在6.8~12.7之间,表明可能存在弱IV偏倚的影响;Cochran’s Q统计量、MR-Egger截距和MR-PRESSO全局检验提示,曾生育子女数量与子宫内膜癌以及首次生育年龄与子宫内膜癌的因果估计,可能受异质性和水平多效性的影响;其余的因果估计受异质性和水平多效性影响的可能性较小(表4)。

3 讨论
本研究结果表明,相比于正常妇女,不孕妇女(无子女)的乳腺癌发生风险更高。在正常生育妇女中,曾生育子女数量增加可能会降低乳腺癌发生风险。未发现首次生育年龄与激素相关癌症以及生育子女数量与卵巢癌、子宫内膜癌存在因果关联。首次生育年龄和曾生育子女数量与子宫内膜癌的关联分析可能受到异质性和水平多效性影响。
相对于正常生育妇女,不孕妇女(无子女)面临更高的乳腺癌风险。实验研究表明,不孕症患者往往存在激素代谢紊乱,伴随较低的孕激素水平[35]。然而,无孕激素拮抗的雌激素可能促使乳腺癌发生[8,36]。本研究为此结论提供了基于大样本人群的因果证据。一项基于欧洲妇女的大型队列研究发现,不孕症与乳腺癌的发生不存在关联[37]。结论差异可能是由于这项队列研究未将无子女和有子女的妇女区分开,导致其结果受到生育情况的影响。
正常生育妇女中,生育子女数量增加可能会导致乳腺癌发生风险降低。究其原因,可能是生育多个子女的妇女经历多次怀孕和哺乳,这期间的停经减少了妇女暴露于高水平雌激素的时长[38],而且由于泌乳需要,乳腺细胞趋于分化成熟,从而降低乳腺癌发生的风险[39]。一项2019年发表的日本队列研究也发现,生育多个子女是乳腺癌发生风险的保护因素[40],但该研究受限于随访数据较早(早于2000年)且未将不孕和正常生育妇女区分开。本研究在欧洲正常生育妇女中验证了该结论,为生育子女数量与乳腺癌的关联提供了更多证据。
首次生育年龄与乳腺癌的发生无关。一项利用英国生物银行GWAS数据进行的MR研究发现[14],首次生育年龄与乳腺癌发生无因果效应,与本研究结论一致。然而,一项1970年基于亚洲妇女的病例-对照研究提示,与未生育妇女相比,首次生育年龄低于34岁的妇女乳腺癌发生风险无明显差异,首次生育年龄高于35岁的妇女面临更高的乳腺癌发生风险[41],提示首次生育年龄对乳腺癌发生的影响可能是非线性的,该关联有待使用非线性方法进一步探究。此外,有研究者认为,乳腺癌发生的影响因素应为从月经初潮到首次生育的间隔时间,而非首次生育年龄[42,43],该观点尚待进一步确证。
生育子女数量与卵巢癌、子宫内膜癌可能无因果关联。既往研究提示,生育多个子女可能降低卵巢癌[12]和子宫内膜癌[13]的发生风险,但观察性研究潜在的选择偏倚及残余混杂等可能影响结果的可靠性。一项MR研究发现生育子女数量与子宫内膜癌有因果关联,但该研究未将不孕症妇女与正常生育妇女区分开,误用IV[17],从而导致结果不可靠。
为了确保结果的可靠性,本研究不仅采用了严格合理的IV筛选流程,还检验了MR的三个关键假设。尽管检验结果提示绝大部分的因果估计未受到明显的异质性和水平多效性影响,敏感性分析结果进一步证明,即使存在异质性和水平多效性影响,本研究结果仍稳健且可靠。本研究存在一定的局限性:① 所使用GWAS研究为欧洲人群,限制了研究结论的外推;② 受限于数据可获得性,研究未探讨生育史与激素相关癌症的潜在非线性关系,以及生育史与三种激素相关癌症亚型的因果关系。
综上所述,本研究首次采用单变量和多变量MR方法,利用新的GWAS汇总数据,在不孕和正常生育妇女中,为生育子女数量与乳腺癌的因果关系提供了更多证据,并提示适量生育有利于预防乳腺癌。