引用本文: 李华玉, 李浩, 孙少华, 周文波. 乳腺大汗腺癌患者总生存预测列线图: 基于SEER数据库及内外部验证. 中国普外基础与临床杂志, 2024, 31(3): 337-342. doi: 10.7507/1007-9424.202310094 复制
乳腺大汗腺癌(breast apocrine carcinoma,BAC)在2019年版世界卫生组织乳腺肿瘤分类中的定义是由90%以上的肿瘤细胞表现为大汗腺细胞形态;通过免疫组织化学染色检查定义的BAC为雄激素受体阳性、雌激素受体和孕激素受体均为阴性[1]。在2012年版世界卫生组织乳腺肿瘤分类中,将任何具有大汗腺细胞特点的浸润性癌归为具有大汗腺分化的癌,包括多数浸润性癌中局灶显示的大汗腺分化以及广泛的大汗腺分化(单纯性BAC),后者较为罕见,其发病率约占全部乳腺浸润性癌的4%[2]。国内外多为个案及小样本报道,专门针对BAC患者的随机前瞻性对照试验仍然有限[3]。因此,亟需一种方便、准确的方法来预测BAC患者的生存情况。近年来列线图已应用于肝癌、肺癌等一系列癌症[4-6]中。本研究基于美国国家癌症研究所监测、流行病学和最终结果(Surveillance,Epidemiology,and End Results,SEER)数据库,采用单因素和多因素回归分析筛选了影响BAC总生存情况的风险因素,基于这些风险因素建立了列线图预测模型,以评估它对BAC患者总生存情况的预测效能,以进一步提高对此特殊类型乳腺癌的认识及更好地预测患者的预后。
1 资料与方法
1.1 研究对象及分组
本研究的数据来源于国药东风总医院和SEER数据库。使用SEER*Stat软件识别BAC患者,具体标准如下:① BAC患者肿瘤部位的代码和名称符合SEER数据库的管理手册及国际对于肿瘤通用的形态编码,ICD-O-3标准编码为8401/3:apocrine adenocarcinoma;② 经病理诊断为乳腺癌;③ 临床资料无缺失值;④ 符合美国癌症联合委员会第6版乳腺癌分类系统[7]。排除标准:① 患者相关信息不完整;② 生存时间不足1个月的患者。随访时间为2010年1月1日至2016年12月31日。SEER数据库中纳入符合条件的患者按7∶3比例使用R软件基础包中的“set.seed()”函数随机选取分配为训练集和内部验证集。同时收集2010年1月1日至2018年12月31日期间国药东风总医院的BAC患者作为外部验证集,纳入和排标准同SEER数据库中的病例。随访终止日期为2022年6月1日。总生存期(overall survival,OS)定义为从诊断到因任何原因死亡或最后一次随访的时间[8]。
1.2 变量选择
包括患者的婚姻状况、年龄、肿瘤位置、肿瘤分化程度、偏侧性、TNM分期、手术情况、放射治疗(简称 “放疗” )、化学药物治疗(简称 “化疗” )以及雌激素受体、孕激素受体和人表皮生长因子受体2(human epidermal growth factor receptor 2,HER2)情况。
1.3 统计学方法
比较训练集、内部验证集和外部验证集中患者的临床病理特征。临床病理特征均采用分类变量分析(其中患者诊断时的年龄采用X-tile软件确定其最佳分界值,依据最佳分界值将年龄转换为分类变量[9],最佳分界值为57和75,以此分为 ≤57岁组、58~74岁组及 ≥75岁组),采用卡方检验或Fisher精确概率法进行比较。采用Kaplan-Meier法绘制患者的OS曲线;采用单因素和多因素Cox回归方法分析影响BAC患者OS的风险因素,根据风险因素采用R3.5.1中的rms程序包构建预测BAC患者总生存情况的列线图模型,对该列线图分别在训练集、内部验证集和外部验证集中进行验证。采用C指数和受试者操作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)评价列线图的区分能力,C指数在0.71~0.90之间时提示区分能力中等,>0.90提示区分能力强;AUC值介于0.5~1.0,在0.7~0.9之间时提示有一定的准确性,>0.90提示区分能力强。采用校准曲线评估列线图的预测情况与实际情况的接近程度(在理想状态下是无限靠近45° 对角线)。检验水准α=0.05。
2 结果
2.1 本研究患者的基本情况
2010–2016年期间,SEER数据库中共有649例符合本研究纳入条件患者,按分配原则训练集454例、内部验证集195例。纳入了2010年1月1日至2018年12月31日期间国药东风总医院的21例BAC患者作为外部验证集。训练集、内部验证集及外部验证集患者的临床病理特征比较结果见表1。

2.2 SEER数据库中患者的生存情况及影响因素分析结果
采用Kaplan-Meier法绘制BAC患者的OS曲线见图1a,在训练集、内部验证集和外部验证集中的OS比较差异均无统计学意义(P=0.81)。训练集中454例BAC患者的中位OS(95%CI)为103(95,122)个月, 3和5年总生存率(95%CI)分别为86.7%(83.6%,89.9%)和78.1%(74.4%,82.1%),共有128例患者在随访期间死亡。单因素分析影响训练集中BAC患者OS的结果显示,患者的婚姻状况、年龄、肿瘤位置、偏侧性、T分期、N分期、M分期、S分期、手术情况及化疗与BAC患者OS有关(P<0.05),见表2;进一步进行多因素Cox回归分析结果显示,年龄大(≥58岁)、S期为Ⅱ期(Ⅰ期为对照)、行乳房根治手术(保乳手术为对照)、未行化疗是影响BAC患者OS的风险因素(P<0.05),见表3。

a:Kaplan-Meier法绘制的BAC患者的OS曲线;b:列线图;c~e:分别为列线图在训练集(c)、外部验证集(d)、内部验证集(e)中预测3年和5年总生存率的ROC曲线;f、g:分别为列线图在训练集、内部验证集和外部验证集中预测3年(f)和5年(g)总生存率的校准曲线


2.3 列线图的构建及效能评价
根据多因素Cox回归分析发现的风险因素年龄、T分期、M分期、S分期、手术方式及化疗构建的3和5年总生存概率的列线图见图1b。采用C指数和AUC对列线图是否能区分长期生存患者的能力进行分析的结果(表4)显示,C指数在SEER数据库中的训练集和验证集中分别为0.76、0.77,在外部验证集的C指数为0.88;绘制的ROC曲线(图1c~1e)显示,3年和5年总生存率在训练集中的AUC为0.84和0.76,在内部和外部验证集中的AUC均 >0.8;采用校准曲线分析结果显示,在训练集和内部及外部验证集中对3年和5年总生存率的校准曲线与理想曲线均比较接近(图1f和图1g)。

3 讨论
BAC是一种罕见的乳腺癌,虽然它通常被认为是一种具有侵袭性的乳腺癌,但研究[10]表明,BAC患者的预后明显好于乳腺浸润性导管癌。但BAC的预后评估及治疗仍遵循浸润性导管癌,其个体化治疗和降阶梯治疗值得考虑。
SEER数据库是美国癌症发病率和存活率最权威的信息来源。SEER目前收集和发布的癌症发病率和生存数据来自于基于人群的癌症登记处,覆盖约34.6%的美国人口[11]。TNM分期系统是预测患者预后最常用的方法,然而即使在不同分期的患者中也观察到相当大的生存差异。在预测肝癌、肺癌、甲状腺髓样癌等预后方面,列线图已被证明比TNM分期系统更加直观,临床使用更加方便[4-5, 12-17]。因此,本研究基于SEER数据库中的大样本量构建一个列线图来预测BAC患者的长期生存率。本研究采用单因素和多因素分析筛选出了影响BAC患者总生存期的风险因素,有年龄、T分期、M分期、S分期、手术方式及化疗,根据这些影响因素构建了列线图以预测BAC患者长期总生存情况,结果发现,列线图对SEER数据库中的数据在训练集和验证集中区分5年总生存情况的区分度即C指数分别为0.76和0.77,表明模型具有一定的预测能力,进一步以笔者所在医院的数据进行外部验证的C指数更高(0.88);而且在ROC曲线中,在内外部验证集中的AUC均 >0.8,提示以本研究筛选的风险因素构建的列线图对是否能长期生存具有一定的区分能力;校准曲线显示,一致性曲线斜率接近于1,列线图预测的生存情况与实际情况吻合,提示效能良好。在本研究中纳入进行列线图模型构建的因素,在临床比较常见,易获得;此外本研究纳入的因素如连续变量(年龄)使用X-tile软件基于log-rank检验进行分层,使变量选择更加客观严谨[9];本研究筛选出的T分期、M分期和S分期变量与BAC患者的预后有关,这与既往TNM分期对预后的判断结果基本一致[18]。当前对BAC患者虽然尚无标准化的治疗方案,但各医学中心多采用非特殊型乳腺癌的治疗方案进行包括手术、化疗、放疗、内分泌治疗、靶向治疗等在内的综合治疗[2, 19-21]。在本研究也发现,采用不同的手术方式及化疗对BAC患者的预后影响较大。结合以上文献分析,本研究筛选的变量构建的列线图模型对预测BAC患者的预后有一定的临床应用价值。
从本研究分析结果看,BAC患者的年龄、T分期、M分期、S分期、手术方式及化疗是BAC患者总生存率的影响因素,结合这些因素构建的列线图预测的3、5年总生存率与实际情况比较一致,提示本研究构建的列线图有一定的预测参考价值。但是仍需要进一步完善,因为本研究仍存在一些局限性:首先,844例患者中有195例因数据缺失被排除,这可能导致选择偏倚;其次,SEER数据库没有提供更多关于全身治疗的详细信息,如放疗、化疗的详细方案等;第三,列线图模型是基于回顾性资料,需要在前瞻性临床试验中进一步验证;第四,用于外部验证的临床数据有限,一是样本量的限制,二是单中心的病例,普适性还不确定。尽管存在这些局限性,但列线图是一种比较直观方便的预测模型,可初步用来预测BAC患者的生存情况,以便为临床的治疗决策提供参考,为患者提供个体化的治疗方案,让患者最大获益及充分利用社会公共医疗资源。
重要声明
利益冲突声明:本文全体作者阅读并理解了《中国普外基础与临床杂志》的政策声明,我们没有相互竞争的利益。
作者贡献声明:李华玉负责实验设计、实施实验、数据收集与整理及文章撰写;孙少华负责实验设计、指导实验实施、文章修改;李浩负责实施实验、统计分析等;周文波指导实验设计、经费等支持。
伦理声明:本研究通过了国药东风总医院伦理委员会审批(批文编号:LW-2023-045)。
乳腺大汗腺癌(breast apocrine carcinoma,BAC)在2019年版世界卫生组织乳腺肿瘤分类中的定义是由90%以上的肿瘤细胞表现为大汗腺细胞形态;通过免疫组织化学染色检查定义的BAC为雄激素受体阳性、雌激素受体和孕激素受体均为阴性[1]。在2012年版世界卫生组织乳腺肿瘤分类中,将任何具有大汗腺细胞特点的浸润性癌归为具有大汗腺分化的癌,包括多数浸润性癌中局灶显示的大汗腺分化以及广泛的大汗腺分化(单纯性BAC),后者较为罕见,其发病率约占全部乳腺浸润性癌的4%[2]。国内外多为个案及小样本报道,专门针对BAC患者的随机前瞻性对照试验仍然有限[3]。因此,亟需一种方便、准确的方法来预测BAC患者的生存情况。近年来列线图已应用于肝癌、肺癌等一系列癌症[4-6]中。本研究基于美国国家癌症研究所监测、流行病学和最终结果(Surveillance,Epidemiology,and End Results,SEER)数据库,采用单因素和多因素回归分析筛选了影响BAC总生存情况的风险因素,基于这些风险因素建立了列线图预测模型,以评估它对BAC患者总生存情况的预测效能,以进一步提高对此特殊类型乳腺癌的认识及更好地预测患者的预后。
1 资料与方法
1.1 研究对象及分组
本研究的数据来源于国药东风总医院和SEER数据库。使用SEER*Stat软件识别BAC患者,具体标准如下:① BAC患者肿瘤部位的代码和名称符合SEER数据库的管理手册及国际对于肿瘤通用的形态编码,ICD-O-3标准编码为8401/3:apocrine adenocarcinoma;② 经病理诊断为乳腺癌;③ 临床资料无缺失值;④ 符合美国癌症联合委员会第6版乳腺癌分类系统[7]。排除标准:① 患者相关信息不完整;② 生存时间不足1个月的患者。随访时间为2010年1月1日至2016年12月31日。SEER数据库中纳入符合条件的患者按7∶3比例使用R软件基础包中的“set.seed()”函数随机选取分配为训练集和内部验证集。同时收集2010年1月1日至2018年12月31日期间国药东风总医院的BAC患者作为外部验证集,纳入和排标准同SEER数据库中的病例。随访终止日期为2022年6月1日。总生存期(overall survival,OS)定义为从诊断到因任何原因死亡或最后一次随访的时间[8]。
1.2 变量选择
包括患者的婚姻状况、年龄、肿瘤位置、肿瘤分化程度、偏侧性、TNM分期、手术情况、放射治疗(简称 “放疗” )、化学药物治疗(简称 “化疗” )以及雌激素受体、孕激素受体和人表皮生长因子受体2(human epidermal growth factor receptor 2,HER2)情况。
1.3 统计学方法
比较训练集、内部验证集和外部验证集中患者的临床病理特征。临床病理特征均采用分类变量分析(其中患者诊断时的年龄采用X-tile软件确定其最佳分界值,依据最佳分界值将年龄转换为分类变量[9],最佳分界值为57和75,以此分为 ≤57岁组、58~74岁组及 ≥75岁组),采用卡方检验或Fisher精确概率法进行比较。采用Kaplan-Meier法绘制患者的OS曲线;采用单因素和多因素Cox回归方法分析影响BAC患者OS的风险因素,根据风险因素采用R3.5.1中的rms程序包构建预测BAC患者总生存情况的列线图模型,对该列线图分别在训练集、内部验证集和外部验证集中进行验证。采用C指数和受试者操作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)评价列线图的区分能力,C指数在0.71~0.90之间时提示区分能力中等,>0.90提示区分能力强;AUC值介于0.5~1.0,在0.7~0.9之间时提示有一定的准确性,>0.90提示区分能力强。采用校准曲线评估列线图的预测情况与实际情况的接近程度(在理想状态下是无限靠近45° 对角线)。检验水准α=0.05。
2 结果
2.1 本研究患者的基本情况
2010–2016年期间,SEER数据库中共有649例符合本研究纳入条件患者,按分配原则训练集454例、内部验证集195例。纳入了2010年1月1日至2018年12月31日期间国药东风总医院的21例BAC患者作为外部验证集。训练集、内部验证集及外部验证集患者的临床病理特征比较结果见表1。

2.2 SEER数据库中患者的生存情况及影响因素分析结果
采用Kaplan-Meier法绘制BAC患者的OS曲线见图1a,在训练集、内部验证集和外部验证集中的OS比较差异均无统计学意义(P=0.81)。训练集中454例BAC患者的中位OS(95%CI)为103(95,122)个月, 3和5年总生存率(95%CI)分别为86.7%(83.6%,89.9%)和78.1%(74.4%,82.1%),共有128例患者在随访期间死亡。单因素分析影响训练集中BAC患者OS的结果显示,患者的婚姻状况、年龄、肿瘤位置、偏侧性、T分期、N分期、M分期、S分期、手术情况及化疗与BAC患者OS有关(P<0.05),见表2;进一步进行多因素Cox回归分析结果显示,年龄大(≥58岁)、S期为Ⅱ期(Ⅰ期为对照)、行乳房根治手术(保乳手术为对照)、未行化疗是影响BAC患者OS的风险因素(P<0.05),见表3。

a:Kaplan-Meier法绘制的BAC患者的OS曲线;b:列线图;c~e:分别为列线图在训练集(c)、外部验证集(d)、内部验证集(e)中预测3年和5年总生存率的ROC曲线;f、g:分别为列线图在训练集、内部验证集和外部验证集中预测3年(f)和5年(g)总生存率的校准曲线


2.3 列线图的构建及效能评价
根据多因素Cox回归分析发现的风险因素年龄、T分期、M分期、S分期、手术方式及化疗构建的3和5年总生存概率的列线图见图1b。采用C指数和AUC对列线图是否能区分长期生存患者的能力进行分析的结果(表4)显示,C指数在SEER数据库中的训练集和验证集中分别为0.76、0.77,在外部验证集的C指数为0.88;绘制的ROC曲线(图1c~1e)显示,3年和5年总生存率在训练集中的AUC为0.84和0.76,在内部和外部验证集中的AUC均 >0.8;采用校准曲线分析结果显示,在训练集和内部及外部验证集中对3年和5年总生存率的校准曲线与理想曲线均比较接近(图1f和图1g)。

3 讨论
BAC是一种罕见的乳腺癌,虽然它通常被认为是一种具有侵袭性的乳腺癌,但研究[10]表明,BAC患者的预后明显好于乳腺浸润性导管癌。但BAC的预后评估及治疗仍遵循浸润性导管癌,其个体化治疗和降阶梯治疗值得考虑。
SEER数据库是美国癌症发病率和存活率最权威的信息来源。SEER目前收集和发布的癌症发病率和生存数据来自于基于人群的癌症登记处,覆盖约34.6%的美国人口[11]。TNM分期系统是预测患者预后最常用的方法,然而即使在不同分期的患者中也观察到相当大的生存差异。在预测肝癌、肺癌、甲状腺髓样癌等预后方面,列线图已被证明比TNM分期系统更加直观,临床使用更加方便[4-5, 12-17]。因此,本研究基于SEER数据库中的大样本量构建一个列线图来预测BAC患者的长期生存率。本研究采用单因素和多因素分析筛选出了影响BAC患者总生存期的风险因素,有年龄、T分期、M分期、S分期、手术方式及化疗,根据这些影响因素构建了列线图以预测BAC患者长期总生存情况,结果发现,列线图对SEER数据库中的数据在训练集和验证集中区分5年总生存情况的区分度即C指数分别为0.76和0.77,表明模型具有一定的预测能力,进一步以笔者所在医院的数据进行外部验证的C指数更高(0.88);而且在ROC曲线中,在内外部验证集中的AUC均 >0.8,提示以本研究筛选的风险因素构建的列线图对是否能长期生存具有一定的区分能力;校准曲线显示,一致性曲线斜率接近于1,列线图预测的生存情况与实际情况吻合,提示效能良好。在本研究中纳入进行列线图模型构建的因素,在临床比较常见,易获得;此外本研究纳入的因素如连续变量(年龄)使用X-tile软件基于log-rank检验进行分层,使变量选择更加客观严谨[9];本研究筛选出的T分期、M分期和S分期变量与BAC患者的预后有关,这与既往TNM分期对预后的判断结果基本一致[18]。当前对BAC患者虽然尚无标准化的治疗方案,但各医学中心多采用非特殊型乳腺癌的治疗方案进行包括手术、化疗、放疗、内分泌治疗、靶向治疗等在内的综合治疗[2, 19-21]。在本研究也发现,采用不同的手术方式及化疗对BAC患者的预后影响较大。结合以上文献分析,本研究筛选的变量构建的列线图模型对预测BAC患者的预后有一定的临床应用价值。
从本研究分析结果看,BAC患者的年龄、T分期、M分期、S分期、手术方式及化疗是BAC患者总生存率的影响因素,结合这些因素构建的列线图预测的3、5年总生存率与实际情况比较一致,提示本研究构建的列线图有一定的预测参考价值。但是仍需要进一步完善,因为本研究仍存在一些局限性:首先,844例患者中有195例因数据缺失被排除,这可能导致选择偏倚;其次,SEER数据库没有提供更多关于全身治疗的详细信息,如放疗、化疗的详细方案等;第三,列线图模型是基于回顾性资料,需要在前瞻性临床试验中进一步验证;第四,用于外部验证的临床数据有限,一是样本量的限制,二是单中心的病例,普适性还不确定。尽管存在这些局限性,但列线图是一种比较直观方便的预测模型,可初步用来预测BAC患者的生存情况,以便为临床的治疗决策提供参考,为患者提供个体化的治疗方案,让患者最大获益及充分利用社会公共医疗资源。
重要声明
利益冲突声明:本文全体作者阅读并理解了《中国普外基础与临床杂志》的政策声明,我们没有相互竞争的利益。
作者贡献声明:李华玉负责实验设计、实施实验、数据收集与整理及文章撰写;孙少华负责实验设计、指导实验实施、文章修改;李浩负责实施实验、统计分析等;周文波指导实验设计、经费等支持。
伦理声明:本研究通过了国药东风总医院伦理委员会审批(批文编号:LW-2023-045)。