高级别浆液性卵巢癌恶性程度高,检出时易发生周围软组织浸润、腹腔与淋巴结转移、腹膜种植和远处转移,是否复发成为该疾病手术计划与治疗手段的重要参考依据。目前的复发预测模型未考虑整个卵巢内部组织之间的潜在病理关系,通常使用较为复杂的卷积神经网络提取局部区域特征进行判断,准确率不高且成本开销大。针对此问题,本文提出了一种新的面向高级别浆液性卵巢癌复发预测的轻量级深度算法模型。该模型先使用鬼影卷积(Ghost Conv)和坐标注意力(CA)建立鬼影倒残差模块(SCblock)提取图像的局部特征信息,然后通过提出的分层融合变换器(Transformer)模块(STblock)进行全局信息的捕捉与多层次信息的融合,提升不同层之间的交互能力;Transformer模块则通过先展开特征图使其对应区域块进行计算,再折叠还原,以此降低计算成本开销。最后,将每个STblock模块进行深浅层的深度信息融合,并加入患者的临床元数据共同进行复发预测。实验结果表明,相较于主流的轻量级移动视觉Transformer网络(MobileViT),本文提出的切片视觉Transformer网络(SlicerViT)在准确率、精确率、灵敏度、F1分数上均有提高,计算量仅为其1/6,参数量降低1/2。本文研究证实了所提算法模型在高级别浆液性卵巢癌的复发预测上更加精确高效,未来可作为一种辅助诊断技术提高患者生存率,并有利于将模型应用于嵌入式设备。
引用本文: 崔少国, 唐艺菠, 万皓明, 王锐, 刘丽丽. 基于分层变换器融合元数据的高级别浆液性卵巢癌轻量级复发预测模型. 生物医学工程学杂志, 2024, 41(4): 807-817. doi: 10.7507/1001-5515.202308009 复制
0 引言
卵巢癌是女性最常见的恶性肿瘤之一,全球发病率和死亡率均较高[1]。其中,高级别浆液性卵巢癌(high grade serous ovarian cancer,HGSOC)恶性程度高,几乎占据了死亡病例的70% [2-3],被视为高度侵袭性癌症亚型。通常初期HGSOC患者接受切除手术和铂类化疗[4-5],约80%患者受益,然而该疾病容易早期转移和复发[6]。因此,术前进行HGSOC复发预测有助于辅助临床医生选择治疗药物、制定手术方案,从而提高患者预后和生存率。磁共振成像(magnetic resonance imaging,MRI)可以通过多平面、多序列成像技术显示病灶,是HGSOC常见的辅助诊断手段。但人工阅片主观性强、个体差异性大,难以客观准确判断HGSOC的复发可能性,易导致误诊,错过最佳治疗时机[7];且人工长时间阅片易疲劳,导致诊断效率降低。因此,基于人工智能技术研发客观高效的HGSOC术后复发预测模型具有重要意义。
目前,部分学者运用机器学习方法基于不同影像模态和算法模型对HGSOC患者术后复发进行了初步研究。Li等[8]提出了一种基于MRI和临床信息的放射组学模型,用于评估117名HGSOC患者的复发风险。该研究使用患者的T1加权成像(T1 weighted image,T1WI)和T2加权成像(T2 weighted image,T2WI)序列,由经验丰富的放射科医生手动分割肿瘤区域,然后用拉普拉斯滤波提取得到1 064个放射组学特征。再使用最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)回归筛选特征,用支持向量机(support vector machine,SVM)构建分类模型,通过集成预测分数,综合两个序列和临床信息,得到85%的曲线下面积(area under curve,AUC)值。Chen等[9]从256名HGSOC患者的电子计算机断层扫描(computed tomography,CT)图像中手动分割肿瘤,每个区域提取696个放射组学特征,分别建立了放射组学、临床和组合三个预测模型。在组合模型中,该研究使用SVM提取与复发高度相关的7个相关放射组学特征与临床信息融合;通过比例风险回归模型(proportional hazards model,PHM)分析得到76.9%的AUC分数,优于其他两个模型,进一步验证了放射组学特征在HGSOC复发诊断中的价值。
在深度学习方面,Wang等[10]构建了一个包括编码器和解码器卷积神经网络模型,用于预测HGSOC患者的复发情况。此研究由5年以上经验的放射科医生手动勾画HGSOC患者术前CT图像中肿瘤区域,并使用8 917张图像训练其所构建的模型。该模型采用了类似密集连接卷积网络(densely connected convolutional networks,DenseNet)的密集连接结构,通过卷积(convolution,Conv)和反Conv操作来重建图像,提取肿瘤内在特征;然后,使用编码器输出的16个高维特征与临床信息融合,用PHM分析建立复发与特征的关系,实现了79%的准确率(accuracy,Acc)。Saida等[11]使用多种MRI序列对卵巢癌患者进行了图像分析。在包含146名非恶性肿瘤患者和219名恶性肿瘤患者的数据集中,他们训练了基于卷积神经网络的模型,测试了48名恶性肿瘤患者和53名非恶性肿瘤患者的图像。在每个序列中,模型Acc达到了81%~87%。与经验丰富的放射科医生相比,卷积神经网络提供的诊断性能表现更佳,证实了基于端到端的卷积神经网络在卵巢癌诊断中的优越性。Liu等[12]利用185名HGSOC患者的MRI数据,构建了卷积神经网络模型,包括特征学习、图像恢复和融合预测三个部分;特征学习中,使用了残差网络(residual network,ResNet)和通道空间注意力模块(convolutional block attention module,CBAM)[13]来提取相关特征;图像恢复部分,通过反Conv操作增强特征提取;在融合预测中,将图像特征与临床信息在全连接层进行决策级融合,用于预测HGSOC患者的复发风险。该研究的融合策略取得了良好效果,为个性化治疗和干预提供了重要辅助工具。
尽管上述工作在HGSOC复发预测方面取得了一定的进步,但忽略了卵巢内部病理组织之间的潜在全局位置关系,使用卷积神经网络仅提取局部区域特征,无法对长距离特征之间的相关性进行建模,忽略了肿瘤早期转移的可能性,且上述方法前期没有考虑模型参数量和轻量化问题。视觉变换器(vision transformer,ViT)[14]架构和鬼影Conv(Ghost Conv)[15]的出现为HGSOC复发的精确高效预测提供了新思路。然而,ViT模型网络通常具有庞大的参数量和计算量,往往在算力强、显存大的图形处理器(graphics processing unit,GPU)上才能运行。因此,本文研究旨在探索一种轻量级改进的分层变换器(Transformer)模型,通过融合图像的多层次全局特征并引入9种临床多模态信息,提高HGSOC患者复发预测的准确性和高效性。该模型以MRI的T1WI序列图像和临床元数据作为输入,以期为临床医生提供一种便捷、高效的工具,辅助其对HGSOC患者复发进行精确预测,并为个性化治疗提供决策依据。
1 方法
1.1 模型总述
本文提出的用于HGSOC复发风险预测的切片ViT网络(SlicerViT)结构示意图如图1所示,主要由分层融合Transformer模块(slicervit transformer block,STblock)、鬼影倒残差模块(slicervit Conv block,SCblock)和编码器模块(embedding)三个部分组成。模型的输入为256 × 256 × 3大小的MRI影像切片,先通过一个大小为3 × 3的Conv进行初步特征的提取,随后采用3个SCblock模块,用于提取局部特征,当SCblock模块中的Ghost Conv步长为2时,调整特征图尺寸的大小以实现下采样。然后,通过底部尺寸大小为3 × 3的最大池化层(max pooling layer,MaxPooling),以保留SCblock模块提取的主要局部特征信息,接着经过3个STblock模块,以捕捉图像全局的语义信息并学习多层次信息。为了模拟临床医生的诊断过程,将3个深浅不一的STblock模块提取的各8 192个全局特征进行深度信息融合,再与通过embedding模块后的9个临床元数据,共同在最后一层进行聚合。最后,通过全连接层将这些特征映射到两个分类结果,从而判断当前输入的HGSOC患者图像是否存在复发的可能性。

1.2 SCblock模块
SCblock模块的设计应用了经典的倒残差结构,以应对网络训练时的梯度消失问题。普通的倒残差结构如图2所示,用尺寸为1 × 1的Conv使特征通道经历升维和降维的变换以拓展和压缩特征空间。该策略将特征图映射到更高维度的空间中,以提取更加丰富的图像特征信息。普通倒残差结构使用的深度可分离卷积(depthwise separable convolution,Dwise Conv)尽管具有高效的计算特性,但其特征提取能力相对于传统通用Conv较为有限。因此,SCblock模块引入了尺寸大小同样为3×3的轻量级Ghost Conv以替代Dwise Conv提高模型的特征提取能力,如图2所示。同时,在Ghost Conv后引入了坐标注意力(coordinate attention,CA)[16],相较于经典的通道注意力挤压和激励(squeeze and excitation,SE)模型[17]和CBAM,CA机制能够在不同方向上同时保存精确的位置信息,并捕捉长距离的依赖关系,避免将空间信息完全压缩到通道中,以此来抑制无用信息对模型的干扰。

SCblock结构图中最后一步的操作表示为跳跃连接的相加操作(add),在CA机制中,残差模块(residual)表示为原特征图,重新加权(re-weight)则表示经过CA机制re-weight的特征图,限制最大输出为6的线性整流函数(linear rectification function,ReLu6)为激活函数。CA机制首先对输入特征图C × H × W分别在X和Y方向上进行平均池化(average pooling,Avg Pool)后再拼接(concat)在一起,然后通过一个大小为1 × 1的二维Conv操作(Conv2d)进行变换,经过批归一化(batch normalization,BatchNorm)和非线性(Non-linear)处理后进行分裂张量操作(split),变换为两个张量,再分别通过大小为1 × 1的Conv 2d,将两个张量变换到和输入相同的通道数C,最后通过S型非线性激活函数(Sigmoid)激活后,对原输入特征图分别在X和Y方向进行加权。
1.3 STblock模块
本文提出的STblock模块如图3所示,在提取图像全局特征的同时学习多层次的特征。尽管Transformer模型可以通过堆叠层来扩大感受野,但在多层次信息处理方面存在一些不足,因此基于分层计算的思想设计层次化的Transformer单元。

首先,输入特征图被均匀分成r组,并对每组进行独立的Transformer层计算,以学习不同层次的特征。除第一层以外,往后每一层Transformer的输入,均融合了上一层Transformer计算过后的输出,以此来作为当前Transformer层的输入。通过这种把不同层次的特征图拼接在一起的方式,能够增加模型的感受野,学习到多层次的特征,这进一步加强了全局信息与局部信息的融合效果。如果输入特征图的尺寸为C × H × W,经过均分后每组的尺寸为C/r × H × W。除第一层Transformer模块以外,每层的输入与上一层的输出拼接,接收上一个层次提取的全局特征,然后将各个层的输出进行拼接,最后通过一个Conv 1×1进行一个通道收缩,以避免STblock模块大规模堆叠后增加模型的参数量和计算量。
对于全局特征的提取,采用了移动ViT(MobileViT)网络[18]的展开与折叠计算方式,通过使用Transformer计算相同区域的特征块,不仅能够捕捉图像全局信息,同时也能节约模型的计算成本开销,计算过程如图4所示。这种计算方式与单纯ViT的区别在于不需要额外的位置编码来添加位置信息。

首先,将特征图C × H × W划分为n个大小相同的特征块XC,每个块包含P个像素点。然后,将每个特征块展开为一组特征序列,将n个特征块中每个像素e∈{1, ···, P}通过L组Transformer来进行建模计算,Transformer使用多头注意力(multi-head attention,MHA)[19]进行多次自注意力计算,以此来学习不同子空间的序列和位置信息,得到XU,如式(1)所示:
![]() |
其中,XU(e)表示经过Tranformer计算后的特征图,XC(e)表示每个特征块所有像素点,e表示像素点个数;P = W × H,W和H是预设好的每个特征块的大小,默认大小为2 × 2,所以n的计算如式(2)所示:
![]() |
这种计算方式不仅有效避免了传统的使用每个特征块和其他所有特征块进行自注意力计算所带来冗余信息情况,也大大降低了模型中Transformer的计算成本开销。
2 实验和讨论
2.1 数据集和实验环境
本文HGSOC患者数据来自2013年1月—2019年12月在重庆医科大学附属第一医院接受骨盆MRI检查的181名患者,经手术和病理检查确诊患有HGSOC,其中包括106名术后复发患者和75名术后无复发患者。所有参与研究的患者均签署了知情同意书。本研究通过了重庆医科大学第一附属医院人类伦理委员会批准(批准编号:2022-K564),且获得重庆医科大学附属第一医院批准,可以使用相关数据。本文选取上述数据中的T1WI序列MRI检查数据。
本文将每个MRI文件转换为便携式网络图形(portable network graphics,PNG)格式的图像切片,并由经验丰富的放射科医师剔除不包含病灶区域的切片,共计4 211张有效图片,如图5所示,其卵巢肿瘤病灶区域由专业放射科医生进行勾画展示。将数据按照患者数以7:2:1的比例随机划分为训练集、验证集和测试集。

本次实验环境的硬件条件为图形处理单元RTX 3 060(NVIDIA Inc.,美国)和16 GB内存,软件条件为编程软件Python3.8(Python software foundation,美国)和深度学习框架PyTorch(1.12.0,Facebook,美国)。
模型的训练迭代次数为100个周期,使用适应性矩估计(adaptive moment estimation,Adam)优化器更新模型的权重参数,学习率设为0.000 1,损失函数采用交叉熵损失,批处理大小设置为8,数据增强采用随机水平或垂直翻转等方法进行。
2.2 评价指标
为准确评估算法在分类中的表现,本次实验选择总体Acc来评价分类性能,由于HGSOC患者数量不平衡,Acc可能会被主类别扭曲。因此,灵敏度(sensitivity,Sens)、特异度(specificity,Spec)、精确率(precision,Pre)和F1分数也一并作为衡量模型性能和有效性的指标。其计算公式如式(3)~式(7)所示:
![]() |
![]() |
![]() |
![]() |
![]() |
其中,真阳性(true positive,TP)表示正类别中正确分类样本的数量;真阴性(true negative, TN)表示负类别中正确分类样本的数量;假阳性(false positive,FP)表示正类别中错误分类样本的数量;假阴性(false negative,FN)是负类别中错误分类样本的数量。
轻量级指标通过计算模型的参数量和计算量来衡量,计算量为模型运行一次所需要进行浮点运算的次数,一般来讲计算量越大推理时间越长,参数量表示模型文件的大小,影响着模型训练和推断时对内存的占用量。模型的参数量和计算量的值均通过操作计数器库(torch opcounter,THOP)函数进行计算。
2.3 患者临床指标
所有HGSOC患者分为复发组与无复发组分别进行临床统计,并计算每个临床指标的P值。其中,年龄、术前癌抗原、人附睾蛋白4和最大肿瘤直径这4个临床指标通过均值方差进行计算表示;肿瘤位置(分为单边和双边类型)、妇科肿瘤国际联合会分期(分为Ⅲ和Ⅳ类型)、淋巴结转移和孕激素受体通过统计患者个数进行表示,核抗原Ki-67因值为百分比,所以仅计算P值表示,如表1所示。

在输入网络之前,所有临床指标的值都通过embedding层归一化到[0,1]的范围,以便模型更好地进行训练。其中,归一化的计算如式(8)所示:
![]() |
其中,x表示为某个临床指标,i表示为某个患者,xi’表示HGSOC患者归一化后的临床指标值,xmax表示临床指标的最大值,xmin表示临床指标最小值,表示自然整数。
为了验证临床元数据与HGSOC患者的复发是否相关,对所有临床数据进行了相关性分析如图6所示。其中颜色越深相关系数数值越大,表示相关性越高。图6中可以看到,各项临床指标与患者标签类别均存在一定的正向关联,最大正相关系数数值为0.39,最小为0.04,这也证实了每位HGSOC患者的9个临床数据指标对模型的复发预测均有一定的贡献。虽然个别临床指标之间存在负相关,最大负相关系数数值为− 0.16,最小为− 0.01,但本文所提出的模型在最后一层只计算预测类别与各临床指标之间的权重值,因此并不会影响模型的预测性能。

2.4 消融实验和分析
为了评估本文提出的网络中设计的模块的有效性,首先进行STblock模块层次数量的实验,确定模型最佳STblock层数,然后通过最优分层模型进行模块化的消融实验以及对比实验。
消融实验结果如表2和表3所示。从表2中的结果可以观察到,模型的分层数量并不是越多越好,过多的分层反而会导致模型性能下降,其中粗体字表示当列指标所有对比最优数,未引入层次信息的STblock-1层其Acc都低于STblock-2层、STblock-3层和STblock-4层。在STblock-2层的情况下,模型性能达到最佳,相较于STblock-1层,Acc、Pre、Spec、F1分数均有所提高。这验证了本文提出的STblock模块分层架构具有良好的性能。虽然在STblock-2层的Sens有所下降,但Spec具有较大提升,并且其他各项指标都有一定的提升,充分说明了STblock模块学习到的层次信息与患者的病理信息存在一定的关联,能更好地辨别HGSOC患者是否存在复发的可能性,对于HGSOC患者的复发预测具有一定的意义。


使用分层数量为2的最优STblock模块作为SlicerViT的结构标准,再对SlicerViT进行模块化消融实验,以验证本文所提出的SlicerViT各模块有效性,结果如表3所示。将基于经典倒残差结构的卷积神经网络作为基础模型,首先逐步添加Ghost Conv和CA机制来验证SCblock模块的性能,然后再引入STblock模块、STblock模块深浅信息融合和临床元数据融合决策。可以看出,用Ghost Conv代替Dwise Conv后,各项指标有所改善,同时基础模型参数量略微减少,并且模型Acc有所提高,这证明了SCblock模块的设计相较于经典倒残差结构的优势,也验证了本文所引入的Ghost Conv具有良好的特征提取性能。在加入CA以后,虽然模型参数量略微增加,但提高了模型Acc,说明CA模块能较好地提升模型局部特征提取能力,有效抑制无用特征干扰的同时只增加非常小的开销。加入STblock模块后,模型具有了全局信息的捕捉能力,Acc有较大提高,通过对STblock模块进行深浅信息的深度融合,为模型的判断提供了更多的依据,再次提高了模型的预测Acc,这充分验证了STblock模块的有效性能。最后将3个STblock的输出拼接后进行一维展平,再融合每位患者临床指标共同进行分类决策,最终SlicerViT的Acc达到了90.66%,这也体现了临床数据对于HGSOC复发风险预测的重要性。
2.5 对比实验和分析
将SlicerViT模型与本文选取的7个模型进行了对比实验,为保证实验的严谨性,实验结果均为本文数据所划分的测试集上的指标。本文选取了一些经典的轻量级卷积神经网络如:移动网络2(mobile network version 2,MobileNetV2)[20]、高效网络(EfficientNet)[21]、鬼影网络(GhostNet)[14]以及快速网络(FasterNet)[22]、MobileViT[18]和快速ViT(LeViT)网络[23],同时还有非轻量级的纯卷积网络(ConvNeXt)[24]作为对比,以体现出轻量级、非轻量级之间的差异性,实验结果如表4所示。

从表4可见,带有Transformer模块的轻量级模型SlicerViT、MobileViT和LeViT在HGSOC患者复发预测方面表现优于其他基于卷积神经网络的模型,证实了HGSOC患者MRI切片图像的全局信息对于复发预测的重要性。其中,本文所提出的SlicerViT预测性能最佳,Acc最高。与MobileViT相比,SlicerViT在Acc、Pre、Sens和F1分数上均有所提高。因为STblock模块使SlicerViT学习到了更多层次信息,所以模型的综合性能更好,且参数量仅为MobileViT的1/2,计算量为其1/6。在所有模型中,SlicerViT的参数量和计算量最低,相较于ConvNeXt,不仅Acc更高,而且计算量和参数量均大幅减少。SlicerViT仅Spec略低于EfficientNet,但Acc远高出EfficientNet,并且其他指标在所有对比模型中均最优。经对比实验证明,SlicerViT更能兼顾轻量级与高性能的特点,也充分体现了本文所设计网络的优势。
为了更加直观地体现各个对比模型的综合性能,首先绘制了各对比模型的接收者操作特征曲线,如图7所示。横坐标假阳性率表示所有真实类别为阴性,模型预测为阳性的比例,纵坐标真阳性率则相反。右下角为各模型的AUC值,越接近1,模型性能越好。可以看出SlicerViT具有更好的综合性能,在所有对比模型中AUC分数值最高。

2.5.1 热力图可视化对比
随机选取4名HGSOC患者的原切片图像进行模型的热力图可视化展示,如图8所示,其中包括两名复发患者和两名不复发患者。热力图中颜色越红区域表示模型的占比权重越重。

可以观察到,有Transformer注意力机制的SlicerViT、MobileViT以及LeViT模型对整个卵巢癌组织都进行了关注,从直观的角度上也验证了全局信息对于复发预测的重要性,说明了卵巢癌各组织之间的潜在病理关系与HGSOC的复发风险预测存在一定的联系。本文提出的SlicerViT关注区域几乎覆盖了整个卵巢组织,因此性能更优。其它的卷积神经网络由于模型缺乏捕捉图像全局信息的能力,所以仅关注图像部分区域,预测Acc不高。
2.5.2 混淆矩阵对比
实验的各个模型混淆矩阵图如图9所示。各个模型识别的假阳性HGSOC患者数量分别为:31、45、53、64、68、52、80、54名,其中SlicerViT模型识别假阳数最低,这也验证了SlicerViT对于HGSOC患者的复发风险预测有良好的判断性,相较于其他对比模型,能更好地识别出具有复发可能的HGSOC患者。

3 结束语
本文提出的HGSOC复发预测模型有效地解决了当前高级别浆液性卵巢癌复发预测模型计算成本高且未考虑卵巢内部组织之间的潜在病理关系的问题。本文先通过提出的SCblock模块对图像的局部特征进行建模;再使用STblock模块来捕捉图像所包含的全局信息,并通过独特的分层设计使模型学习到了额外的多层次信息,加强了模型的表达能力;然后引入展开折叠的Transformer计算方式也有效降低了模型的计算成本开销;最后融合HGSOC患者的临床数据来共同决策复发风险类别,大大提高了模型的Acc。经实验证明,SlicerVit不仅具有轻量级的特点而且同时具备能够捕获卵巢各组织之间潜在关系的高性能,不仅为HGSOC的复发风险预测提供了更多的思路,也进一步推动了其辅助诊断技术部署在边缘设备上的发展。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:崔少国负责论文指导和审阅;唐艺菠负责算法和实验设计、论文写作与修改;万皓明负责数据处理与分析;王锐负责实验监察与分析;刘丽丽负责论文医学相关知识指导。
伦理声明:本研究通过了重庆医科大学第一附属医院人类伦理委员会审批(批准编号:2022-K564)。
0 引言
卵巢癌是女性最常见的恶性肿瘤之一,全球发病率和死亡率均较高[1]。其中,高级别浆液性卵巢癌(high grade serous ovarian cancer,HGSOC)恶性程度高,几乎占据了死亡病例的70% [2-3],被视为高度侵袭性癌症亚型。通常初期HGSOC患者接受切除手术和铂类化疗[4-5],约80%患者受益,然而该疾病容易早期转移和复发[6]。因此,术前进行HGSOC复发预测有助于辅助临床医生选择治疗药物、制定手术方案,从而提高患者预后和生存率。磁共振成像(magnetic resonance imaging,MRI)可以通过多平面、多序列成像技术显示病灶,是HGSOC常见的辅助诊断手段。但人工阅片主观性强、个体差异性大,难以客观准确判断HGSOC的复发可能性,易导致误诊,错过最佳治疗时机[7];且人工长时间阅片易疲劳,导致诊断效率降低。因此,基于人工智能技术研发客观高效的HGSOC术后复发预测模型具有重要意义。
目前,部分学者运用机器学习方法基于不同影像模态和算法模型对HGSOC患者术后复发进行了初步研究。Li等[8]提出了一种基于MRI和临床信息的放射组学模型,用于评估117名HGSOC患者的复发风险。该研究使用患者的T1加权成像(T1 weighted image,T1WI)和T2加权成像(T2 weighted image,T2WI)序列,由经验丰富的放射科医生手动分割肿瘤区域,然后用拉普拉斯滤波提取得到1 064个放射组学特征。再使用最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)回归筛选特征,用支持向量机(support vector machine,SVM)构建分类模型,通过集成预测分数,综合两个序列和临床信息,得到85%的曲线下面积(area under curve,AUC)值。Chen等[9]从256名HGSOC患者的电子计算机断层扫描(computed tomography,CT)图像中手动分割肿瘤,每个区域提取696个放射组学特征,分别建立了放射组学、临床和组合三个预测模型。在组合模型中,该研究使用SVM提取与复发高度相关的7个相关放射组学特征与临床信息融合;通过比例风险回归模型(proportional hazards model,PHM)分析得到76.9%的AUC分数,优于其他两个模型,进一步验证了放射组学特征在HGSOC复发诊断中的价值。
在深度学习方面,Wang等[10]构建了一个包括编码器和解码器卷积神经网络模型,用于预测HGSOC患者的复发情况。此研究由5年以上经验的放射科医生手动勾画HGSOC患者术前CT图像中肿瘤区域,并使用8 917张图像训练其所构建的模型。该模型采用了类似密集连接卷积网络(densely connected convolutional networks,DenseNet)的密集连接结构,通过卷积(convolution,Conv)和反Conv操作来重建图像,提取肿瘤内在特征;然后,使用编码器输出的16个高维特征与临床信息融合,用PHM分析建立复发与特征的关系,实现了79%的准确率(accuracy,Acc)。Saida等[11]使用多种MRI序列对卵巢癌患者进行了图像分析。在包含146名非恶性肿瘤患者和219名恶性肿瘤患者的数据集中,他们训练了基于卷积神经网络的模型,测试了48名恶性肿瘤患者和53名非恶性肿瘤患者的图像。在每个序列中,模型Acc达到了81%~87%。与经验丰富的放射科医生相比,卷积神经网络提供的诊断性能表现更佳,证实了基于端到端的卷积神经网络在卵巢癌诊断中的优越性。Liu等[12]利用185名HGSOC患者的MRI数据,构建了卷积神经网络模型,包括特征学习、图像恢复和融合预测三个部分;特征学习中,使用了残差网络(residual network,ResNet)和通道空间注意力模块(convolutional block attention module,CBAM)[13]来提取相关特征;图像恢复部分,通过反Conv操作增强特征提取;在融合预测中,将图像特征与临床信息在全连接层进行决策级融合,用于预测HGSOC患者的复发风险。该研究的融合策略取得了良好效果,为个性化治疗和干预提供了重要辅助工具。
尽管上述工作在HGSOC复发预测方面取得了一定的进步,但忽略了卵巢内部病理组织之间的潜在全局位置关系,使用卷积神经网络仅提取局部区域特征,无法对长距离特征之间的相关性进行建模,忽略了肿瘤早期转移的可能性,且上述方法前期没有考虑模型参数量和轻量化问题。视觉变换器(vision transformer,ViT)[14]架构和鬼影Conv(Ghost Conv)[15]的出现为HGSOC复发的精确高效预测提供了新思路。然而,ViT模型网络通常具有庞大的参数量和计算量,往往在算力强、显存大的图形处理器(graphics processing unit,GPU)上才能运行。因此,本文研究旨在探索一种轻量级改进的分层变换器(Transformer)模型,通过融合图像的多层次全局特征并引入9种临床多模态信息,提高HGSOC患者复发预测的准确性和高效性。该模型以MRI的T1WI序列图像和临床元数据作为输入,以期为临床医生提供一种便捷、高效的工具,辅助其对HGSOC患者复发进行精确预测,并为个性化治疗提供决策依据。
1 方法
1.1 模型总述
本文提出的用于HGSOC复发风险预测的切片ViT网络(SlicerViT)结构示意图如图1所示,主要由分层融合Transformer模块(slicervit transformer block,STblock)、鬼影倒残差模块(slicervit Conv block,SCblock)和编码器模块(embedding)三个部分组成。模型的输入为256 × 256 × 3大小的MRI影像切片,先通过一个大小为3 × 3的Conv进行初步特征的提取,随后采用3个SCblock模块,用于提取局部特征,当SCblock模块中的Ghost Conv步长为2时,调整特征图尺寸的大小以实现下采样。然后,通过底部尺寸大小为3 × 3的最大池化层(max pooling layer,MaxPooling),以保留SCblock模块提取的主要局部特征信息,接着经过3个STblock模块,以捕捉图像全局的语义信息并学习多层次信息。为了模拟临床医生的诊断过程,将3个深浅不一的STblock模块提取的各8 192个全局特征进行深度信息融合,再与通过embedding模块后的9个临床元数据,共同在最后一层进行聚合。最后,通过全连接层将这些特征映射到两个分类结果,从而判断当前输入的HGSOC患者图像是否存在复发的可能性。

1.2 SCblock模块
SCblock模块的设计应用了经典的倒残差结构,以应对网络训练时的梯度消失问题。普通的倒残差结构如图2所示,用尺寸为1 × 1的Conv使特征通道经历升维和降维的变换以拓展和压缩特征空间。该策略将特征图映射到更高维度的空间中,以提取更加丰富的图像特征信息。普通倒残差结构使用的深度可分离卷积(depthwise separable convolution,Dwise Conv)尽管具有高效的计算特性,但其特征提取能力相对于传统通用Conv较为有限。因此,SCblock模块引入了尺寸大小同样为3×3的轻量级Ghost Conv以替代Dwise Conv提高模型的特征提取能力,如图2所示。同时,在Ghost Conv后引入了坐标注意力(coordinate attention,CA)[16],相较于经典的通道注意力挤压和激励(squeeze and excitation,SE)模型[17]和CBAM,CA机制能够在不同方向上同时保存精确的位置信息,并捕捉长距离的依赖关系,避免将空间信息完全压缩到通道中,以此来抑制无用信息对模型的干扰。

SCblock结构图中最后一步的操作表示为跳跃连接的相加操作(add),在CA机制中,残差模块(residual)表示为原特征图,重新加权(re-weight)则表示经过CA机制re-weight的特征图,限制最大输出为6的线性整流函数(linear rectification function,ReLu6)为激活函数。CA机制首先对输入特征图C × H × W分别在X和Y方向上进行平均池化(average pooling,Avg Pool)后再拼接(concat)在一起,然后通过一个大小为1 × 1的二维Conv操作(Conv2d)进行变换,经过批归一化(batch normalization,BatchNorm)和非线性(Non-linear)处理后进行分裂张量操作(split),变换为两个张量,再分别通过大小为1 × 1的Conv 2d,将两个张量变换到和输入相同的通道数C,最后通过S型非线性激活函数(Sigmoid)激活后,对原输入特征图分别在X和Y方向进行加权。
1.3 STblock模块
本文提出的STblock模块如图3所示,在提取图像全局特征的同时学习多层次的特征。尽管Transformer模型可以通过堆叠层来扩大感受野,但在多层次信息处理方面存在一些不足,因此基于分层计算的思想设计层次化的Transformer单元。

首先,输入特征图被均匀分成r组,并对每组进行独立的Transformer层计算,以学习不同层次的特征。除第一层以外,往后每一层Transformer的输入,均融合了上一层Transformer计算过后的输出,以此来作为当前Transformer层的输入。通过这种把不同层次的特征图拼接在一起的方式,能够增加模型的感受野,学习到多层次的特征,这进一步加强了全局信息与局部信息的融合效果。如果输入特征图的尺寸为C × H × W,经过均分后每组的尺寸为C/r × H × W。除第一层Transformer模块以外,每层的输入与上一层的输出拼接,接收上一个层次提取的全局特征,然后将各个层的输出进行拼接,最后通过一个Conv 1×1进行一个通道收缩,以避免STblock模块大规模堆叠后增加模型的参数量和计算量。
对于全局特征的提取,采用了移动ViT(MobileViT)网络[18]的展开与折叠计算方式,通过使用Transformer计算相同区域的特征块,不仅能够捕捉图像全局信息,同时也能节约模型的计算成本开销,计算过程如图4所示。这种计算方式与单纯ViT的区别在于不需要额外的位置编码来添加位置信息。

首先,将特征图C × H × W划分为n个大小相同的特征块XC,每个块包含P个像素点。然后,将每个特征块展开为一组特征序列,将n个特征块中每个像素e∈{1, ···, P}通过L组Transformer来进行建模计算,Transformer使用多头注意力(multi-head attention,MHA)[19]进行多次自注意力计算,以此来学习不同子空间的序列和位置信息,得到XU,如式(1)所示:
![]() |
其中,XU(e)表示经过Tranformer计算后的特征图,XC(e)表示每个特征块所有像素点,e表示像素点个数;P = W × H,W和H是预设好的每个特征块的大小,默认大小为2 × 2,所以n的计算如式(2)所示:
![]() |
这种计算方式不仅有效避免了传统的使用每个特征块和其他所有特征块进行自注意力计算所带来冗余信息情况,也大大降低了模型中Transformer的计算成本开销。
2 实验和讨论
2.1 数据集和实验环境
本文HGSOC患者数据来自2013年1月—2019年12月在重庆医科大学附属第一医院接受骨盆MRI检查的181名患者,经手术和病理检查确诊患有HGSOC,其中包括106名术后复发患者和75名术后无复发患者。所有参与研究的患者均签署了知情同意书。本研究通过了重庆医科大学第一附属医院人类伦理委员会批准(批准编号:2022-K564),且获得重庆医科大学附属第一医院批准,可以使用相关数据。本文选取上述数据中的T1WI序列MRI检查数据。
本文将每个MRI文件转换为便携式网络图形(portable network graphics,PNG)格式的图像切片,并由经验丰富的放射科医师剔除不包含病灶区域的切片,共计4 211张有效图片,如图5所示,其卵巢肿瘤病灶区域由专业放射科医生进行勾画展示。将数据按照患者数以7:2:1的比例随机划分为训练集、验证集和测试集。

本次实验环境的硬件条件为图形处理单元RTX 3 060(NVIDIA Inc.,美国)和16 GB内存,软件条件为编程软件Python3.8(Python software foundation,美国)和深度学习框架PyTorch(1.12.0,Facebook,美国)。
模型的训练迭代次数为100个周期,使用适应性矩估计(adaptive moment estimation,Adam)优化器更新模型的权重参数,学习率设为0.000 1,损失函数采用交叉熵损失,批处理大小设置为8,数据增强采用随机水平或垂直翻转等方法进行。
2.2 评价指标
为准确评估算法在分类中的表现,本次实验选择总体Acc来评价分类性能,由于HGSOC患者数量不平衡,Acc可能会被主类别扭曲。因此,灵敏度(sensitivity,Sens)、特异度(specificity,Spec)、精确率(precision,Pre)和F1分数也一并作为衡量模型性能和有效性的指标。其计算公式如式(3)~式(7)所示:
![]() |
![]() |
![]() |
![]() |
![]() |
其中,真阳性(true positive,TP)表示正类别中正确分类样本的数量;真阴性(true negative, TN)表示负类别中正确分类样本的数量;假阳性(false positive,FP)表示正类别中错误分类样本的数量;假阴性(false negative,FN)是负类别中错误分类样本的数量。
轻量级指标通过计算模型的参数量和计算量来衡量,计算量为模型运行一次所需要进行浮点运算的次数,一般来讲计算量越大推理时间越长,参数量表示模型文件的大小,影响着模型训练和推断时对内存的占用量。模型的参数量和计算量的值均通过操作计数器库(torch opcounter,THOP)函数进行计算。
2.3 患者临床指标
所有HGSOC患者分为复发组与无复发组分别进行临床统计,并计算每个临床指标的P值。其中,年龄、术前癌抗原、人附睾蛋白4和最大肿瘤直径这4个临床指标通过均值方差进行计算表示;肿瘤位置(分为单边和双边类型)、妇科肿瘤国际联合会分期(分为Ⅲ和Ⅳ类型)、淋巴结转移和孕激素受体通过统计患者个数进行表示,核抗原Ki-67因值为百分比,所以仅计算P值表示,如表1所示。

在输入网络之前,所有临床指标的值都通过embedding层归一化到[0,1]的范围,以便模型更好地进行训练。其中,归一化的计算如式(8)所示:
![]() |
其中,x表示为某个临床指标,i表示为某个患者,xi’表示HGSOC患者归一化后的临床指标值,xmax表示临床指标的最大值,xmin表示临床指标最小值,表示自然整数。
为了验证临床元数据与HGSOC患者的复发是否相关,对所有临床数据进行了相关性分析如图6所示。其中颜色越深相关系数数值越大,表示相关性越高。图6中可以看到,各项临床指标与患者标签类别均存在一定的正向关联,最大正相关系数数值为0.39,最小为0.04,这也证实了每位HGSOC患者的9个临床数据指标对模型的复发预测均有一定的贡献。虽然个别临床指标之间存在负相关,最大负相关系数数值为− 0.16,最小为− 0.01,但本文所提出的模型在最后一层只计算预测类别与各临床指标之间的权重值,因此并不会影响模型的预测性能。

2.4 消融实验和分析
为了评估本文提出的网络中设计的模块的有效性,首先进行STblock模块层次数量的实验,确定模型最佳STblock层数,然后通过最优分层模型进行模块化的消融实验以及对比实验。
消融实验结果如表2和表3所示。从表2中的结果可以观察到,模型的分层数量并不是越多越好,过多的分层反而会导致模型性能下降,其中粗体字表示当列指标所有对比最优数,未引入层次信息的STblock-1层其Acc都低于STblock-2层、STblock-3层和STblock-4层。在STblock-2层的情况下,模型性能达到最佳,相较于STblock-1层,Acc、Pre、Spec、F1分数均有所提高。这验证了本文提出的STblock模块分层架构具有良好的性能。虽然在STblock-2层的Sens有所下降,但Spec具有较大提升,并且其他各项指标都有一定的提升,充分说明了STblock模块学习到的层次信息与患者的病理信息存在一定的关联,能更好地辨别HGSOC患者是否存在复发的可能性,对于HGSOC患者的复发预测具有一定的意义。


使用分层数量为2的最优STblock模块作为SlicerViT的结构标准,再对SlicerViT进行模块化消融实验,以验证本文所提出的SlicerViT各模块有效性,结果如表3所示。将基于经典倒残差结构的卷积神经网络作为基础模型,首先逐步添加Ghost Conv和CA机制来验证SCblock模块的性能,然后再引入STblock模块、STblock模块深浅信息融合和临床元数据融合决策。可以看出,用Ghost Conv代替Dwise Conv后,各项指标有所改善,同时基础模型参数量略微减少,并且模型Acc有所提高,这证明了SCblock模块的设计相较于经典倒残差结构的优势,也验证了本文所引入的Ghost Conv具有良好的特征提取性能。在加入CA以后,虽然模型参数量略微增加,但提高了模型Acc,说明CA模块能较好地提升模型局部特征提取能力,有效抑制无用特征干扰的同时只增加非常小的开销。加入STblock模块后,模型具有了全局信息的捕捉能力,Acc有较大提高,通过对STblock模块进行深浅信息的深度融合,为模型的判断提供了更多的依据,再次提高了模型的预测Acc,这充分验证了STblock模块的有效性能。最后将3个STblock的输出拼接后进行一维展平,再融合每位患者临床指标共同进行分类决策,最终SlicerViT的Acc达到了90.66%,这也体现了临床数据对于HGSOC复发风险预测的重要性。
2.5 对比实验和分析
将SlicerViT模型与本文选取的7个模型进行了对比实验,为保证实验的严谨性,实验结果均为本文数据所划分的测试集上的指标。本文选取了一些经典的轻量级卷积神经网络如:移动网络2(mobile network version 2,MobileNetV2)[20]、高效网络(EfficientNet)[21]、鬼影网络(GhostNet)[14]以及快速网络(FasterNet)[22]、MobileViT[18]和快速ViT(LeViT)网络[23],同时还有非轻量级的纯卷积网络(ConvNeXt)[24]作为对比,以体现出轻量级、非轻量级之间的差异性,实验结果如表4所示。

从表4可见,带有Transformer模块的轻量级模型SlicerViT、MobileViT和LeViT在HGSOC患者复发预测方面表现优于其他基于卷积神经网络的模型,证实了HGSOC患者MRI切片图像的全局信息对于复发预测的重要性。其中,本文所提出的SlicerViT预测性能最佳,Acc最高。与MobileViT相比,SlicerViT在Acc、Pre、Sens和F1分数上均有所提高。因为STblock模块使SlicerViT学习到了更多层次信息,所以模型的综合性能更好,且参数量仅为MobileViT的1/2,计算量为其1/6。在所有模型中,SlicerViT的参数量和计算量最低,相较于ConvNeXt,不仅Acc更高,而且计算量和参数量均大幅减少。SlicerViT仅Spec略低于EfficientNet,但Acc远高出EfficientNet,并且其他指标在所有对比模型中均最优。经对比实验证明,SlicerViT更能兼顾轻量级与高性能的特点,也充分体现了本文所设计网络的优势。
为了更加直观地体现各个对比模型的综合性能,首先绘制了各对比模型的接收者操作特征曲线,如图7所示。横坐标假阳性率表示所有真实类别为阴性,模型预测为阳性的比例,纵坐标真阳性率则相反。右下角为各模型的AUC值,越接近1,模型性能越好。可以看出SlicerViT具有更好的综合性能,在所有对比模型中AUC分数值最高。

2.5.1 热力图可视化对比
随机选取4名HGSOC患者的原切片图像进行模型的热力图可视化展示,如图8所示,其中包括两名复发患者和两名不复发患者。热力图中颜色越红区域表示模型的占比权重越重。

可以观察到,有Transformer注意力机制的SlicerViT、MobileViT以及LeViT模型对整个卵巢癌组织都进行了关注,从直观的角度上也验证了全局信息对于复发预测的重要性,说明了卵巢癌各组织之间的潜在病理关系与HGSOC的复发风险预测存在一定的联系。本文提出的SlicerViT关注区域几乎覆盖了整个卵巢组织,因此性能更优。其它的卷积神经网络由于模型缺乏捕捉图像全局信息的能力,所以仅关注图像部分区域,预测Acc不高。
2.5.2 混淆矩阵对比
实验的各个模型混淆矩阵图如图9所示。各个模型识别的假阳性HGSOC患者数量分别为:31、45、53、64、68、52、80、54名,其中SlicerViT模型识别假阳数最低,这也验证了SlicerViT对于HGSOC患者的复发风险预测有良好的判断性,相较于其他对比模型,能更好地识别出具有复发可能的HGSOC患者。

3 结束语
本文提出的HGSOC复发预测模型有效地解决了当前高级别浆液性卵巢癌复发预测模型计算成本高且未考虑卵巢内部组织之间的潜在病理关系的问题。本文先通过提出的SCblock模块对图像的局部特征进行建模;再使用STblock模块来捕捉图像所包含的全局信息,并通过独特的分层设计使模型学习到了额外的多层次信息,加强了模型的表达能力;然后引入展开折叠的Transformer计算方式也有效降低了模型的计算成本开销;最后融合HGSOC患者的临床数据来共同决策复发风险类别,大大提高了模型的Acc。经实验证明,SlicerVit不仅具有轻量级的特点而且同时具备能够捕获卵巢各组织之间潜在关系的高性能,不仅为HGSOC的复发风险预测提供了更多的思路,也进一步推动了其辅助诊断技术部署在边缘设备上的发展。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:崔少国负责论文指导和审阅;唐艺菠负责算法和实验设计、论文写作与修改;万皓明负责数据处理与分析;王锐负责实验监察与分析;刘丽丽负责论文医学相关知识指导。
伦理声明:本研究通过了重庆医科大学第一附属医院人类伦理委员会审批(批准编号:2022-K564)。