超声检查是甲状腺病变检查中的常用手段,其检查结果主要由甲状腺超声图像和检查所见文本报告组成。实现医疗图像与文本报告的互相检索(简称:互检)可以为医生及患者提供极大的便利,但目前尚未有将甲状腺超声图像与文本报告相关联的互检方法。本文提出一种基于深度学习的跨模态甲状腺图文互检方法,并在跨模态生成对抗网络的基础上提出改进方法:① 将原网络中用于构建公共表示空间的部分全连接层之间的权重共享约束改为余弦相似度约束,能使网络更好地学习不同模态数据的公共表示;② 在跨模态判别器前加入全连接层,将权重共享的原网络中图像和文本全连接层合并在一起,在继承了原网络权重共享的优点基础上实现语义正则化。实验结果表明,本文方法的甲状腺超声图像与文本报告互检平均精度均值可以达到 0.508,较传统跨模态方法有较大提升,为甲状腺超声图像和文本报告的跨模态检索提供了新手段。
引用本文: 徐峰, 马小萍, 刘立波. 基于生成对抗网络的甲状腺超声图像文本跨模态检索方法. 生物医学工程学杂志, 2020, 37(4): 641-651. doi: 10.7507/1001-5515.201812042 复制
引言
甲状腺结节是内分泌系统的常见病和多发病,发病率在成人中高达 50%,其中恶性结节占 7%[1]。超声影像是目前甲状腺检查中最常用的方法。甲状腺超声报告包括超声图像和文本内容,这两类不同模态数据为同一病例提供了不同的视角。实现甲状腺超声图像和文本报告之间的跨模态互相检索(简称:互检),不仅可以方便医生与患者查阅病历,还可以针对现有数据检索相似病例,为诊断提供极大便利。但目前针对甲状腺超声诊断的研究主要是针对图像或文本报告的独立方法,尚未有将跨模态检索方法应用于两者联系的研究。
现阶段跨模态检索方法的主要思想是学习不同模态间的公共表示,并将不同模态的数据用距离联系起来,主要分为传统方法和基于深度学习的方法。① 传统方法通过学习线性投影来最大化不同模态数据间的联系,将不同模态数据的特征投影至公共空间来生成一个公共语义表示,其中一类方法主要是通过优化统计值进行相关性分析,具有代表性的是典型关联分析(canonical correlation analysis,CCA)[2]。CCA 通过构建低维公共空间来实现联系不同模态间的数据,后续有研究在该方法基础上提出了很多改进,比如使用核函数、整合语义标签、加入高级语义的多视 CCA 等[3-5]。与 CCA 类似的还有跨模态因子分析方法(cross-modal factor analysis,CFA)[6]。CFA 通过最小化不同模态数据间的 F 范数,学习将不同模态数据投影至公共空间。另一类方法则将图正则化整合至跨模态关联学习中,主要是在公共语义空间中构建不同模态数据的图[7-9]。② 深度学习凭借着其强大的非线性关联建模能力,在许多单模态问题上取得了很好的应用,例如图像分类和目标检测等[10-11]。因此,一些深度学习网络也被应用在多模态关联性建模问题中[12],例如 Feng 等[13]提出了一种自动编码器(correspondence autoencoder,Corr-AE)来对跨模态关联和信息重建进行建模;此外还有采用深度网络和 CCA 相结合的方法——深度典型关联分析(deep canonical correlation analysis,DCCA)[14]。这些网络一般包含两个子网络,通过联合层(joint layer)来联系不同模态的数据[15]。目前还有整合细粒度信息与多任务学习策略并以此来提高性能的方法,例如跨模态关联学习方法(cross-modal correlation learning,CCL)[16]。
上述方法在构建公共表示空间的过程中,往往缺少对不同模态数据特征之间的相似性关联约束,对于公共表示空间缺少深层语义关联。由于甲状腺超声图像相似度较高,且医生给出的文本报告格式统一,由这些数据提取出的特征往往也较为相似,所以在这些特征基础上构建公共表示空间时,上述问题所带来的检索准确率较低的影响尤为凸出。
随着 Ian 等[17]提出生成对抗网络(generative adversarial network,GAN)以后,越来越多的学者提出了基于 GAN 的跨模态数据生成方法[18-20],但大多数方法只能由一种模态生成另一种模态。Peng 等[21]将 GAN 应用在跨模态数据公共表示建模问题中,提出了跨模态 GAN(cross-modal GAN,CM-GAN)网络。CM-GAN 网络通过使用深度网络提取数据特征,再利用 GAN 强大的学习能力来构建跨模态的公共表示空间。
本文针对上述问题,提出基于 CM-GAN 的跨模态方法来实现甲状腺超声图像与文本报告图文互检,并在原有网络基础上进行两点改进:① 将原网络中用于构建公共表示空间的部分全连接层之间的权重共享约束改为余弦相似度约束,使网络更好地学习不同模态数据的公共表示;② 在跨模态判别器前加入全连接层,将权重共享的原图像和文本全连接层合并在一起,在继承了原网络权重共享的优点基础上实现语义正则化。本文以银川市第一人民医院提供的甲状腺超声图像与文本报告为基础数据,所有数据均经过脱敏处理,而本文研究仅使用图像与文本报告,不使用任何患者信息与设备信息。本文所提出的方法实现了甲状腺超声图像与文本报告的互检,为甲状腺超声检查数据的临床应用拓展、减少医生工作量以及方便患者检索数据奠定了理论与实验基础。
1 方法
本文采用 CM-GAN 为基础网络,对甲状腺超声图像与文本报告进行关联建模,并实现跨模态检索。具体包括三个工作:① 构建 CM-GAN 网络;② 改进 CM-GAN 网络;③ 对本文方法进行对比测试。
1.1 CM-GAN 结构
本文方法基于 GAN,以 CM-GAN 为基础网络。目前,基于 GAN 的基本结构,衍生出非常多的网络模型,其中包括 CM-GAN。
GAN 主要由两部分组成,一部分为生成器(以符号 G 表示),另一部分为判别器(以符号 D 表示)。生成器主要用于学习真实数据的分布,生成接近真实的数据,而判别器主要用于判别数据是真实的还是由生成器生成的。一个典型的 GAN 网络结构如图 1 所示。在训练时,GAN 可以看作是 G 和 D 的极大极小博弈,如式(1)所示:

![]() |
其中,x 为真实数据,z 为噪声输入,代表在训练中 G 减少 V 的值、D 增加 V 的值,训练网络的最终目标是在 D 与 G 之间寻找平衡点,使得 V 的值最大,E 代表目标函数,GAN 的主要目的是训练生成器且最小化 D(G(z)),即让判别器无法判断数据是由生成器生成的还是真实的。交替训练生成器与判别器,G 与 D 互相博弈,最终得到一个在给定数据分布下的最优 G。
CM-GAN 将 GAN 的思想应用于跨模态数据公共空间建模中,利用 GAN 的生成器与判别器博弈的原理,对特征数据及不同模态数据的公共表示进行判别,从而更好地构建跨模态数据公共空间,实现更高的跨模态检索准确度。
CM-GAN 网络结构如图 2 所示,该网络主要包含两大部分,一部分是生成模型,另一部分是判别模型。从水平方向看又可分为同模态通路与跨模态通路。对于生成模型,将跨模态自动编码器应用其中,使用共享权重来约束跨模态的自动编码器,并以此构建不同模态间的公共表示空间。对于判别模型,设计模态内和模态间的判别模型,不仅对生成公共表示进行判别,还对生成的重构表示进行判别,从而加速训练过程。生成模型和判别模型同时进行训练,从而实现不同模态数据的相互关联。

生成模型部分主要由两种生成器组成,一种是图片生成器(以符号 GI 表示),一种为文本生成器(以符号 GT 表示),而每种生成器又是由编码器和解码器两部分组成,即对应于 GI 的编码器(以符号 GIenc 表示)和解码器(以符号 GIdec 表示)以及对应于 GT 的编码器(以符号 GTenc 表示)和解码器(以符号 GTdec 表示)。编码器主要由卷积神经网络组成,主要用于学习每种模态的特征信息,与之相连接的是全连接层,而 GIenc 和 GTenc 的最后一个全连接层由共享权重和语义约束构成,从而实现公共表示的学习。对于解码器,其功能主要是将从编码器的卷积神经网络中获取的高级语义表示重建,来保持每种模态的语义一致性。
判别模型部分有两种判别器同时对跨模态和模态内的公共表示信息进行判别。模态内的判别器由图片判别器(以符号 DI 表示)和文本判别器(以符号 DT 表示)组成,主要是将生成器重构的表示信息与提取到的特征作以判别;跨模态判别器(以符号 DC 表示),是一个由两个子判别器(通路)构成的网络,即图像通路(以符号 DCi 表示)与文本通路(以符号 DCt 表示),这两个子判别器的目的是判断公共表示是来自图像还是文本。DCi 以图像公共表示(以符号 spi 表示)为真数据,以文本公共表示(以符号 spt 表示)与不匹配的图像公共表示(以符号 表示)为假数据,spi 与
都来自图像的高级语义特征(分别对应以符号 hpi 与
表示)。与 DCi 类似,DCt 以 spt 为真数据,以 spt 与不匹配的文本公共表示(以符号
表示)为假数据。
对于跨模态判别器(以符号 DC 表示),构成其网络的两个子判别器均连接自公共表示空间,并以公共表示空间作为输入数据。每个子判别器都由两个全连接层构成。第一个全连接层是由 512 个单元的全连接层,后接一个批正则化层和线性修正单元(rectified linear unit,ReLU)激活函数组成。第二个全连接层将第一个全连接层的输出作为输入,并将输出送入紧随其后的 S 形激活函数(sigmoid)层来生成一个预测值。对于图像通路,图像的公共表示被标示为 1,与其匹配的文本公共表示和与其不匹配的图像公共表示被标示为 0。对于文本通路,文本的公共表示被标示为 1,与其匹配的图像公共表示和与其不匹配的文本公共表示被标示为 0。
CM-GAN 网络的目标函数可以表示如式(2)所示:
![]() |
其中,与
分别对应同模态通路与跨模态通路,其表示如式(3)~(4)所示:
![]() |
![]() |
本文在直接使用 CM-GAN 网络用于甲状腺超声图像与文本报告跨模态检索时,其收敛速度并不高,平均精度均值(mean average precision,mAP)只能达到 0.487,与其他现有方法比较提升不高。分析其可能原因,主要有两点:① 采用相同角度采集的甲状腺超声图像在空间上往往是相似的,且医生给出的文本报告用词相似、格式统一,这些大量在空间上相似的数据经过编码器提取后其特征数据也较为相似,这给解码器生成公共表示空间以及判别器对正负样本的判别造成了困难;② CM-GAN 中加入了对全连接层的权重共享,实现了一定的语义关联限制,但与其相连的跨模态判别器之间并无语义上的关联,这对于公共表示空间的生成也造成了影响。因此,针对以上问题,本文对 CM-GAN 进行了改进。
1.2 改进的 CM-GAN
本文提出的改进的 CM-GAN 在原网络基础上,取消了原有编码器之后的第二个全连接层之间的权重共享约束(weight-sharing constraints),使用余弦相似度约束(cosine similarity constraints)对全连接层的参数进行约束。
原网络中,图像数据经由 GIenc,即由 19 层全卷积神经网络组成的视觉几何组—19 网络(visual geometry group,VGG-19)生成特征向量 hpi,再由权重共享的全连接层生成 spi[22]。而文本数据则通过 GTenc,先由词嵌入(word to vector, Word2Vec)方法转换成词向量,然后经卷积神经网络形成特征向量(以符号 hpt 表示),再经过权重共享的全连接层生成 spt[23]。权重共享约束的作用是在为每种模态数据生成公共表示空间的同时增加语义限制,使得成对的图像与文本的公共表示尽可能相近。而且在原网络中,在权重共享的每个全连接层之后还加入了批正则化层和 ReLU 激活函数,最后公共表示空间 spi 和 spt 还被送入归一化(softmax)层,使得不同模态的数据关联更紧密。
但对于甲状腺超声图像与文本报告来说,在空间上相似的数据较多,如果仅使用权重共享的全连接层是无法很好地将不同模态的正负样本数据进行区分的,从而影响公共表示空间的建立。本文使用余弦相似度约束来保证网络在相似数据较多的情况下仍可以良好完成对公共表示空间的建立。
余弦相似度(cosine similarity)指两个成角度的 d 维向量 a,b∈Rd 的余弦值,其计算如式(5)所示:
![]() |
其中表示点积,
表示 Lp 范数。
令 x∈X 为一种模态的数据(图片或文本),y∈C 为另一种模态的数据。令 ƒθ:X→Rd 为一种参数为 θ 的从输入 x 到 d 维特征空间的变换。gρ:C→Sd 为一种参数为 ρ 的从输入 C 到 d 维特征空间的变换。其中 ƒθ 与 gρ 在深度学习中一般为特征提取。而 ψ:Rd→P 与 φ:Sd→P 这两种变换定义为 Rd 与 Sd 到公共表示空间 P 的映射。
一种简单的映射,以独热编码(one hot)的向量为例,如式(6)所示:
![]() |
在深度学习中,可以理解为 φ 的目标是通过参数为 θ 的神经网络 ƒθ 通过最大化图像特征和文本特征的余弦相似度来学习公共表示空间。定义损失(loss)值函数训练神经网络,如式(7)所示:
![]() |
在实际运用中通过两个操作的序列实现这一方法,首先由神经网络提取的特征被 L2 归一化(L2 normalized),即 ,这保证了公共空间被限制在单位超球面(the unit hypersphere),这里余弦相似度可以等价于点积,如式(8)所示:
![]() |
其次,φ(gρ)也需要位于单位超球面上来保证等式成立。以独热编码的向量为例,它在定义上就满足了单位正则化,所以不需要再进行 L2 归一化。
在改进的 CM-GAN 网络中,编码器之后的第一层全连接层仍使用权重共享约束以保证 hpi 以及 hpt 在公共空间中的关联性。而对于第二层全连接层取消权重共享约束,取而代之的是在该层之后加入余弦相似度约束。对于从编码器得到的特征数据 hpi 以及 hpt,经过全连接层得到的公共空间特征 spi 与 spt,在训练过程中,此处将采用加入余弦相似度约束的 loss 值函数,其表达式如式(9)所示:
![]() |
其中 cos()为余弦相似度计算公式,α 为边界条件,在训练中取 0.1。
在加入余弦相似度约束之后,改进的网络继承了原有 CM-GAN 在构建公共表示空间中权重共享对不同模态特征数据在语义上关联的优点,还能降低由于存在大量相似度较高的数据集导致所获得到的特征数据也较为相似所带来的影响。
在训练多个批(batches)的数据时,计算所有批(batch)的平均 loss 值,从而约束网络构建更好的公共表示空间。
1.3 改进网络结构
在经过上述改进之后,虽然网络对于大量相似的数据具有了一定的鲁棒性,但其对不同模态特征数据的公共表示空间的构建仍不理想,原因是在构建公共表示空间的全连接层之后,公共表示 spi 与 spt 被送入跨模态判别器中,在原网络中,跨模态判别器主要用于判别某模态数据的公共表示和另一模态与之对应的公共表示以及不匹配的数据。判别器由两部分组成,每一部分都由两层网络组成,第一层由维度 512 的隐藏层以及批正则化层和 ReLU 激活函数组成,第二层为单值输出层。该网络结构虽然可以实现对不同模态的公共表示进行语义上的关联,但判别器互相独立,图像和文本判别器分别对 spi 与 spt 进行独立判别,这在一定程度上影响了跨模态数据公共表示空间的语义统一性。
在改进的网络结构中,在跨模态判别器 DC 前加入了两层全连接层(以符号 GIT 表示),第一层由含有 1 024 个单元的隐藏层与批正则化和 ReLU 激活函数组成,第二层为含有 512 个单元的全连接层,该层维度与 DC 的第一层全连接层一致。在此基础上,对数据加入图像语义标签(以符号 ci 表示)与文本语义标签(以符号 ct 表示),从而进一步对不同模态数据的语义关联。
在跨模态判别器中,为了达到更好的判别效果,让 spi 作为正样本,让 与 spt 作为负样本,并且将 hpi 与
连接在一起。其中 spt 与
作为负样本被标记为 0,这样可以使判别器在连接 hpi 或
时有更好的效果,对于图像判别器的梯度计算,如式(10)所示:
![]() |
其中,(spi,hpi)与(,
)表示链接公共表示与高级语义特征。对于文本判别器,其梯度计算如式(11)所示:
![]() |
在整个网络模型中,生成器需要最小化目标方程来生成真正的关联分布,在训练时使用梯度下降法,并冻结判别器,其中图像生成器的梯度计算如式(12)所示:
![]() |
其中,(spi,hpt)表示串联公共表示与高级语义特征。对于文本生成器也可以用类似的公式计算梯度,如式(13)所示:
![]() |
在此基础上,两个生成器使用语义标签结合 softmax loss 值函数进行进一步优化,如式(14)所示:
![]() |
其中,sp 表示模型学习到的公共表示空间 spi 或 spt,cp 代表与它们对应的标签,当 cp = q 时,1{cp = q}为 1,其他情况为 0。经过这种方法的优化,可以使语义在不同模态间保持连续性。
结合前文对权重共享约束的全连接层的改进,整体公共表示空间构造部分的 loss 值函数如式(15)所示:
![]() |
其中,spi 和 spt 仍为图像与文本的公共表示,ci 和 ct 为语义标签,当 spi 与 spt 为匹配的文本与图像时,ci 和 ct 是相同的,y 为加入余弦相似度约束的 loss 值函数 Lcos 的参数,当 spi 和 spt 为匹配的文本与图像时,y 的值为 1,当 spi 和 spt 不匹配时,y 的值为 −1。Lfc 表示全连接层的 loss 值函数。
1.4 最终网络结构
将前文中提出的加入的余弦相似度约束与跨模态判别器前增加的全连接层结合在一起,得到了总体改进后的网络,其结构如图 3 所示。由于增加的全连接层将原网络中构建的公共空间 spi 与 spt 结合在了一起,并加入了语义标签,所以改进后的网络中跨模态判别器的 loss 值函数也做出了相应改变,如式(16)所示:

![]() |
整合改进后的网络不仅对相似数据的跨模态公共空间的生成有了鲁棒性,还增加了对公共空间在语义上的关联,使得网络对于甲状腺超声图像与文本的跨模态公共空间建模能力有所提升。
2 实验
在实验部分,主要讨论实验所用数据集、评价指标以及所对比的方法。本文中使用了来自银川市第一人民医院授权使用的甲状腺超声诊断数据。评价指标主要使用 mAP 值评价网络跨模态检索的能力,并以此评价指标为准,与 5 种经典的跨模态检索方法比较。本文中还将优化后的网络与原网络进行收敛速度对比,以此评价网络优化效果。
2.1 数据集和预处理
本文使用了来自银川市第一人民医院授权的 700 例(共 2 800 张)甲状腺超声图像数据以及对应的文本报告(检查所见),图像数据原始格式为医学影像成像和通讯标准格式(digital imaging and communications in medicine,DICOM)。首先,将原始数据进行脱敏处理,然后转换为灰度图像,再将图像中含有敏感信息的部分截去,只保留甲状腺超声图像区域。文本报告(检查所见)来自于专业医生对甲状腺超声图像的客观描述,原始数据保存在数据库中,首先从数据库中导出文本数据,然后将文本数据进行脱敏处理,并且只使用针对图像的文本描述部分。如图 4 所示,为甲状腺超声图像与文本报告数据样例,左侧为两张属于同一个患者同一次检查所得到的图像,右侧为对应的文本报告。

由于网络训练需要大量样本,因此本文对甲状腺超声图像和文本报告都做了一定的数据增广处理。对于图像数据采用缩放图像、旋转图像、截取图像区域方法对数据集进行扩充。对于每一对图像—文本来说,不存在一个图像对应多个文本,或者一个文本对应多个图像的情况,但是对于同一次超声检查来说,往往有多个图像—文本对。对于文本数据,采用调整语序或摘取部分文本的方法进行扩充。最终得到共 9 400 组图像与文本。
2.2 评价指标
不同模态数据可以用相似度矩阵与 CM-GAN 学习到的公共表示联系在一起。本文主要考虑 CM-GAN 在甲状腺超声图像与文本的双模态检索能力,即以图像检索文本与以文本检索图像的能力。对于以图像检索文本,采用图像作为检索输入数据来检索文本数据并计算它们的相似度。对于以文本检索图像,采用文本作为检索输入数据来检索图像并计算它们的相似度。
本文采用 mAP 来对 CM-GAN 的检索结果进行评价,该评价指标是检索、识别任务中常用的评价指标,代表每个检索(或识别)的准确率的均值,该指标反映了网络的优良程度。
查准率(precision)是指正确的检索结果在所有检索结果中的占比。查准率可以考虑到所有获取的结果,也可以指定考虑结果中排名前 k 的结果,这种情况下查准率称为前 k 查准率。查全率(recall)是指正确的查询结果的数量在所有正确数据中的比例。查准率和查全率虽然可以在一定程度上反应检索方法的有效性,但这两种指标并没有考虑检索方法给出的结果在顺序上的重要性,所以需要引入平均准确率。
平均准确率(average precision, AveP)(以符号 AveP 表示)的计算方法如式(17)所示:
![]() |
其中,P(k)指前 k 查准率,Δr(k)= r(k)− r(k − 1)。如果令合集 Ω 为查询第 k 个结果的集合,如式(18)所示:
![]() |
为提高计算准确率,使用相邻两次查的前 k 查询准确率进行计算,如式(19)所示:
![]() |
对于每一次查询所得到的 AveP 取均值,即得到了 mAP 值。
2.3 实验结果
为了验证本文方法在甲状腺超声图像与文本报告跨模态检索任务中的性能,通过将本文方法与 CM-GAN、CCL、DCCA、Corr-AE、CFA 以及 CCA 共 6 种跨模态检索方法对比,选取 10 组样本对以上方法进行多次实验,得出结果如表 1 所示。在测试过程中,所有的数据均采用相同的 CNN 网络结构来提取数据特征。对于图像数据,采用 VGG-19,对于文本数据,采用词卷积神经网络(word convolutional neural network,WordCNN)。由实验结果数据不难发现,CM-GAN 在以图检文、以文检图以及平均的 mAP 值方面,均优于其他方法。相对于原 CM-GAN 方法,本文方法以图检文精度均值从 0.503 提高到了 0.519,以文检图从 0.471 提高到了 0.497,而平均值从 0.487 提高到了 0.508。CM-GAN 利用深度学习的特征提取优势与 GAN 在跨模态领域中优异的异质数据关联性建模能力,在图文跨模态互检任务中取得了更好的效果。

本文实验还验证了对 CM-GAN 网络的优化效果,如图 5 所示,虚线为优化前的网络 loss 值曲线,实线为优化后网络 loss 值曲线,纵坐标为 loss 值,横坐标为迭代次数。从图 5 中可知在迭代训练大于 400 次时,优化后的网络 loss 值下降更快。优化后的网络在 250 次迭代后基本趋于收敛,最终 loss 值稳定在 0.14 左右,而优化前的网络则在 360 次左右区域稳定,收敛速度相对较慢,最终稳定在 0.35 左右。通过比较可知,优化后的网络收敛速度更快,收敛时 loss 值更低。

本文还针对两种改进方式分别进行了对比,使用与上文相同的图像与文本特征提取方法与数据集,分别对只加入全连接层与只加入余弦相似度的网络进行了测试。通过实验结果发现,如果只加入全连接层,增加了网络中隐藏节点的数量,对网络训练效率有较大影响,收敛速度低于改进前的网络结构,而网络的 mAP 值并没有随着网络复杂度的提升而提高。只加入余弦相似度的网络结构,减少了一层权重共享的全连接层,在训练效率上有所提高,收敛速度优于原网络结构,但缺少全连接层,导致 mAP 值无法提高。余弦相似度和全连接层形成互补关系,相对于使用权重共享的全连接层,训练效率更高,网络检索效果更好。
如图 6 所示,为本文与 6 种跨模态检索方法的结果对比,分别以图像和文本为输入数据,各个算法得出的检索结果各有不同,其中检索结果有误的用红色框线标出。

图 6 中,以图像检索文本的结果,图中显示为待检索甲状腺结节超声图像检索到的文本描述,该甲状腺结节为 25 × 11 mm2 大小的实性结节,边界不清晰,回声不均匀,可见斑片状强回声,后方伴有声影。从检索结果来看,CM-GAN、CCL、Corr-AE 与 DCCA 方法可以较为准确地得到该甲状腺结节的描述;而 CFA 与 CCA 方法对边界的描述为不清晰;CCA 方法得到的结果较少,描述不完整。
图 6 中,以文本检索图像的结果,图中显示为待检索文本检索到的甲状腺超声图像,从结果可以发现 CM-GAN、CCL 与 DCCA 方法可以准确地检索到相关图像,其中 CM-GAN 与 CCL 检索到的图像为增广处理后的甲状腺超声图像;Corr-AE 与 CCA 检索到的图像来自同一个甲状腺,但不对应于描述;CFA 方法没有正确检索到图像。
通过检索结果对比可以发现,本文方法可以较好地完成甲状腺超声图像与文本报告的跨模态检索任务。
3 结束语
本文将 CM-GAN 应用于甲状腺超声图像与文本报告的跨模态检索任务中,实现了甲状腺超声图像与文本报告的互相检索,不仅利用了医院数据库中长久保存而不用的大量数据,还利用跨模态检索方法,探索了从医疗图像生成文本报告,以及从文本报告生成医疗图像的方法,为减轻医生工作压力,方便患者了解和使用医疗图像奠定了理论与实验基础。通过实验证明,CM-GAN 不仅可以在公开数据集上取得良好的效果,在医疗影像与医疗文本报告数据集上同样可以取得较好结果。目前,本文只使用了图像与文本数据,但医院中还有大量的数据是基于视频和音频的,所以在后续工作中,如何将跨模态检索方法应用于其他医疗数据模态上也将成为未来的研究方向之一。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
甲状腺结节是内分泌系统的常见病和多发病,发病率在成人中高达 50%,其中恶性结节占 7%[1]。超声影像是目前甲状腺检查中最常用的方法。甲状腺超声报告包括超声图像和文本内容,这两类不同模态数据为同一病例提供了不同的视角。实现甲状腺超声图像和文本报告之间的跨模态互相检索(简称:互检),不仅可以方便医生与患者查阅病历,还可以针对现有数据检索相似病例,为诊断提供极大便利。但目前针对甲状腺超声诊断的研究主要是针对图像或文本报告的独立方法,尚未有将跨模态检索方法应用于两者联系的研究。
现阶段跨模态检索方法的主要思想是学习不同模态间的公共表示,并将不同模态的数据用距离联系起来,主要分为传统方法和基于深度学习的方法。① 传统方法通过学习线性投影来最大化不同模态数据间的联系,将不同模态数据的特征投影至公共空间来生成一个公共语义表示,其中一类方法主要是通过优化统计值进行相关性分析,具有代表性的是典型关联分析(canonical correlation analysis,CCA)[2]。CCA 通过构建低维公共空间来实现联系不同模态间的数据,后续有研究在该方法基础上提出了很多改进,比如使用核函数、整合语义标签、加入高级语义的多视 CCA 等[3-5]。与 CCA 类似的还有跨模态因子分析方法(cross-modal factor analysis,CFA)[6]。CFA 通过最小化不同模态数据间的 F 范数,学习将不同模态数据投影至公共空间。另一类方法则将图正则化整合至跨模态关联学习中,主要是在公共语义空间中构建不同模态数据的图[7-9]。② 深度学习凭借着其强大的非线性关联建模能力,在许多单模态问题上取得了很好的应用,例如图像分类和目标检测等[10-11]。因此,一些深度学习网络也被应用在多模态关联性建模问题中[12],例如 Feng 等[13]提出了一种自动编码器(correspondence autoencoder,Corr-AE)来对跨模态关联和信息重建进行建模;此外还有采用深度网络和 CCA 相结合的方法——深度典型关联分析(deep canonical correlation analysis,DCCA)[14]。这些网络一般包含两个子网络,通过联合层(joint layer)来联系不同模态的数据[15]。目前还有整合细粒度信息与多任务学习策略并以此来提高性能的方法,例如跨模态关联学习方法(cross-modal correlation learning,CCL)[16]。
上述方法在构建公共表示空间的过程中,往往缺少对不同模态数据特征之间的相似性关联约束,对于公共表示空间缺少深层语义关联。由于甲状腺超声图像相似度较高,且医生给出的文本报告格式统一,由这些数据提取出的特征往往也较为相似,所以在这些特征基础上构建公共表示空间时,上述问题所带来的检索准确率较低的影响尤为凸出。
随着 Ian 等[17]提出生成对抗网络(generative adversarial network,GAN)以后,越来越多的学者提出了基于 GAN 的跨模态数据生成方法[18-20],但大多数方法只能由一种模态生成另一种模态。Peng 等[21]将 GAN 应用在跨模态数据公共表示建模问题中,提出了跨模态 GAN(cross-modal GAN,CM-GAN)网络。CM-GAN 网络通过使用深度网络提取数据特征,再利用 GAN 强大的学习能力来构建跨模态的公共表示空间。
本文针对上述问题,提出基于 CM-GAN 的跨模态方法来实现甲状腺超声图像与文本报告图文互检,并在原有网络基础上进行两点改进:① 将原网络中用于构建公共表示空间的部分全连接层之间的权重共享约束改为余弦相似度约束,使网络更好地学习不同模态数据的公共表示;② 在跨模态判别器前加入全连接层,将权重共享的原图像和文本全连接层合并在一起,在继承了原网络权重共享的优点基础上实现语义正则化。本文以银川市第一人民医院提供的甲状腺超声图像与文本报告为基础数据,所有数据均经过脱敏处理,而本文研究仅使用图像与文本报告,不使用任何患者信息与设备信息。本文所提出的方法实现了甲状腺超声图像与文本报告的互检,为甲状腺超声检查数据的临床应用拓展、减少医生工作量以及方便患者检索数据奠定了理论与实验基础。
1 方法
本文采用 CM-GAN 为基础网络,对甲状腺超声图像与文本报告进行关联建模,并实现跨模态检索。具体包括三个工作:① 构建 CM-GAN 网络;② 改进 CM-GAN 网络;③ 对本文方法进行对比测试。
1.1 CM-GAN 结构
本文方法基于 GAN,以 CM-GAN 为基础网络。目前,基于 GAN 的基本结构,衍生出非常多的网络模型,其中包括 CM-GAN。
GAN 主要由两部分组成,一部分为生成器(以符号 G 表示),另一部分为判别器(以符号 D 表示)。生成器主要用于学习真实数据的分布,生成接近真实的数据,而判别器主要用于判别数据是真实的还是由生成器生成的。一个典型的 GAN 网络结构如图 1 所示。在训练时,GAN 可以看作是 G 和 D 的极大极小博弈,如式(1)所示:

![]() |
其中,x 为真实数据,z 为噪声输入,代表在训练中 G 减少 V 的值、D 增加 V 的值,训练网络的最终目标是在 D 与 G 之间寻找平衡点,使得 V 的值最大,E 代表目标函数,GAN 的主要目的是训练生成器且最小化 D(G(z)),即让判别器无法判断数据是由生成器生成的还是真实的。交替训练生成器与判别器,G 与 D 互相博弈,最终得到一个在给定数据分布下的最优 G。
CM-GAN 将 GAN 的思想应用于跨模态数据公共空间建模中,利用 GAN 的生成器与判别器博弈的原理,对特征数据及不同模态数据的公共表示进行判别,从而更好地构建跨模态数据公共空间,实现更高的跨模态检索准确度。
CM-GAN 网络结构如图 2 所示,该网络主要包含两大部分,一部分是生成模型,另一部分是判别模型。从水平方向看又可分为同模态通路与跨模态通路。对于生成模型,将跨模态自动编码器应用其中,使用共享权重来约束跨模态的自动编码器,并以此构建不同模态间的公共表示空间。对于判别模型,设计模态内和模态间的判别模型,不仅对生成公共表示进行判别,还对生成的重构表示进行判别,从而加速训练过程。生成模型和判别模型同时进行训练,从而实现不同模态数据的相互关联。

生成模型部分主要由两种生成器组成,一种是图片生成器(以符号 GI 表示),一种为文本生成器(以符号 GT 表示),而每种生成器又是由编码器和解码器两部分组成,即对应于 GI 的编码器(以符号 GIenc 表示)和解码器(以符号 GIdec 表示)以及对应于 GT 的编码器(以符号 GTenc 表示)和解码器(以符号 GTdec 表示)。编码器主要由卷积神经网络组成,主要用于学习每种模态的特征信息,与之相连接的是全连接层,而 GIenc 和 GTenc 的最后一个全连接层由共享权重和语义约束构成,从而实现公共表示的学习。对于解码器,其功能主要是将从编码器的卷积神经网络中获取的高级语义表示重建,来保持每种模态的语义一致性。
判别模型部分有两种判别器同时对跨模态和模态内的公共表示信息进行判别。模态内的判别器由图片判别器(以符号 DI 表示)和文本判别器(以符号 DT 表示)组成,主要是将生成器重构的表示信息与提取到的特征作以判别;跨模态判别器(以符号 DC 表示),是一个由两个子判别器(通路)构成的网络,即图像通路(以符号 DCi 表示)与文本通路(以符号 DCt 表示),这两个子判别器的目的是判断公共表示是来自图像还是文本。DCi 以图像公共表示(以符号 spi 表示)为真数据,以文本公共表示(以符号 spt 表示)与不匹配的图像公共表示(以符号 表示)为假数据,spi 与
都来自图像的高级语义特征(分别对应以符号 hpi 与
表示)。与 DCi 类似,DCt 以 spt 为真数据,以 spt 与不匹配的文本公共表示(以符号
表示)为假数据。
对于跨模态判别器(以符号 DC 表示),构成其网络的两个子判别器均连接自公共表示空间,并以公共表示空间作为输入数据。每个子判别器都由两个全连接层构成。第一个全连接层是由 512 个单元的全连接层,后接一个批正则化层和线性修正单元(rectified linear unit,ReLU)激活函数组成。第二个全连接层将第一个全连接层的输出作为输入,并将输出送入紧随其后的 S 形激活函数(sigmoid)层来生成一个预测值。对于图像通路,图像的公共表示被标示为 1,与其匹配的文本公共表示和与其不匹配的图像公共表示被标示为 0。对于文本通路,文本的公共表示被标示为 1,与其匹配的图像公共表示和与其不匹配的文本公共表示被标示为 0。
CM-GAN 网络的目标函数可以表示如式(2)所示:
![]() |
其中,与
分别对应同模态通路与跨模态通路,其表示如式(3)~(4)所示:
![]() |
![]() |
本文在直接使用 CM-GAN 网络用于甲状腺超声图像与文本报告跨模态检索时,其收敛速度并不高,平均精度均值(mean average precision,mAP)只能达到 0.487,与其他现有方法比较提升不高。分析其可能原因,主要有两点:① 采用相同角度采集的甲状腺超声图像在空间上往往是相似的,且医生给出的文本报告用词相似、格式统一,这些大量在空间上相似的数据经过编码器提取后其特征数据也较为相似,这给解码器生成公共表示空间以及判别器对正负样本的判别造成了困难;② CM-GAN 中加入了对全连接层的权重共享,实现了一定的语义关联限制,但与其相连的跨模态判别器之间并无语义上的关联,这对于公共表示空间的生成也造成了影响。因此,针对以上问题,本文对 CM-GAN 进行了改进。
1.2 改进的 CM-GAN
本文提出的改进的 CM-GAN 在原网络基础上,取消了原有编码器之后的第二个全连接层之间的权重共享约束(weight-sharing constraints),使用余弦相似度约束(cosine similarity constraints)对全连接层的参数进行约束。
原网络中,图像数据经由 GIenc,即由 19 层全卷积神经网络组成的视觉几何组—19 网络(visual geometry group,VGG-19)生成特征向量 hpi,再由权重共享的全连接层生成 spi[22]。而文本数据则通过 GTenc,先由词嵌入(word to vector, Word2Vec)方法转换成词向量,然后经卷积神经网络形成特征向量(以符号 hpt 表示),再经过权重共享的全连接层生成 spt[23]。权重共享约束的作用是在为每种模态数据生成公共表示空间的同时增加语义限制,使得成对的图像与文本的公共表示尽可能相近。而且在原网络中,在权重共享的每个全连接层之后还加入了批正则化层和 ReLU 激活函数,最后公共表示空间 spi 和 spt 还被送入归一化(softmax)层,使得不同模态的数据关联更紧密。
但对于甲状腺超声图像与文本报告来说,在空间上相似的数据较多,如果仅使用权重共享的全连接层是无法很好地将不同模态的正负样本数据进行区分的,从而影响公共表示空间的建立。本文使用余弦相似度约束来保证网络在相似数据较多的情况下仍可以良好完成对公共表示空间的建立。
余弦相似度(cosine similarity)指两个成角度的 d 维向量 a,b∈Rd 的余弦值,其计算如式(5)所示:
![]() |
其中表示点积,
表示 Lp 范数。
令 x∈X 为一种模态的数据(图片或文本),y∈C 为另一种模态的数据。令 ƒθ:X→Rd 为一种参数为 θ 的从输入 x 到 d 维特征空间的变换。gρ:C→Sd 为一种参数为 ρ 的从输入 C 到 d 维特征空间的变换。其中 ƒθ 与 gρ 在深度学习中一般为特征提取。而 ψ:Rd→P 与 φ:Sd→P 这两种变换定义为 Rd 与 Sd 到公共表示空间 P 的映射。
一种简单的映射,以独热编码(one hot)的向量为例,如式(6)所示:
![]() |
在深度学习中,可以理解为 φ 的目标是通过参数为 θ 的神经网络 ƒθ 通过最大化图像特征和文本特征的余弦相似度来学习公共表示空间。定义损失(loss)值函数训练神经网络,如式(7)所示:
![]() |
在实际运用中通过两个操作的序列实现这一方法,首先由神经网络提取的特征被 L2 归一化(L2 normalized),即 ,这保证了公共空间被限制在单位超球面(the unit hypersphere),这里余弦相似度可以等价于点积,如式(8)所示:
![]() |
其次,φ(gρ)也需要位于单位超球面上来保证等式成立。以独热编码的向量为例,它在定义上就满足了单位正则化,所以不需要再进行 L2 归一化。
在改进的 CM-GAN 网络中,编码器之后的第一层全连接层仍使用权重共享约束以保证 hpi 以及 hpt 在公共空间中的关联性。而对于第二层全连接层取消权重共享约束,取而代之的是在该层之后加入余弦相似度约束。对于从编码器得到的特征数据 hpi 以及 hpt,经过全连接层得到的公共空间特征 spi 与 spt,在训练过程中,此处将采用加入余弦相似度约束的 loss 值函数,其表达式如式(9)所示:
![]() |
其中 cos()为余弦相似度计算公式,α 为边界条件,在训练中取 0.1。
在加入余弦相似度约束之后,改进的网络继承了原有 CM-GAN 在构建公共表示空间中权重共享对不同模态特征数据在语义上关联的优点,还能降低由于存在大量相似度较高的数据集导致所获得到的特征数据也较为相似所带来的影响。
在训练多个批(batches)的数据时,计算所有批(batch)的平均 loss 值,从而约束网络构建更好的公共表示空间。
1.3 改进网络结构
在经过上述改进之后,虽然网络对于大量相似的数据具有了一定的鲁棒性,但其对不同模态特征数据的公共表示空间的构建仍不理想,原因是在构建公共表示空间的全连接层之后,公共表示 spi 与 spt 被送入跨模态判别器中,在原网络中,跨模态判别器主要用于判别某模态数据的公共表示和另一模态与之对应的公共表示以及不匹配的数据。判别器由两部分组成,每一部分都由两层网络组成,第一层由维度 512 的隐藏层以及批正则化层和 ReLU 激活函数组成,第二层为单值输出层。该网络结构虽然可以实现对不同模态的公共表示进行语义上的关联,但判别器互相独立,图像和文本判别器分别对 spi 与 spt 进行独立判别,这在一定程度上影响了跨模态数据公共表示空间的语义统一性。
在改进的网络结构中,在跨模态判别器 DC 前加入了两层全连接层(以符号 GIT 表示),第一层由含有 1 024 个单元的隐藏层与批正则化和 ReLU 激活函数组成,第二层为含有 512 个单元的全连接层,该层维度与 DC 的第一层全连接层一致。在此基础上,对数据加入图像语义标签(以符号 ci 表示)与文本语义标签(以符号 ct 表示),从而进一步对不同模态数据的语义关联。
在跨模态判别器中,为了达到更好的判别效果,让 spi 作为正样本,让 与 spt 作为负样本,并且将 hpi 与
连接在一起。其中 spt 与
作为负样本被标记为 0,这样可以使判别器在连接 hpi 或
时有更好的效果,对于图像判别器的梯度计算,如式(10)所示:
![]() |
其中,(spi,hpi)与(,
)表示链接公共表示与高级语义特征。对于文本判别器,其梯度计算如式(11)所示:
![]() |
在整个网络模型中,生成器需要最小化目标方程来生成真正的关联分布,在训练时使用梯度下降法,并冻结判别器,其中图像生成器的梯度计算如式(12)所示:
![]() |
其中,(spi,hpt)表示串联公共表示与高级语义特征。对于文本生成器也可以用类似的公式计算梯度,如式(13)所示:
![]() |
在此基础上,两个生成器使用语义标签结合 softmax loss 值函数进行进一步优化,如式(14)所示:
![]() |
其中,sp 表示模型学习到的公共表示空间 spi 或 spt,cp 代表与它们对应的标签,当 cp = q 时,1{cp = q}为 1,其他情况为 0。经过这种方法的优化,可以使语义在不同模态间保持连续性。
结合前文对权重共享约束的全连接层的改进,整体公共表示空间构造部分的 loss 值函数如式(15)所示:
![]() |
其中,spi 和 spt 仍为图像与文本的公共表示,ci 和 ct 为语义标签,当 spi 与 spt 为匹配的文本与图像时,ci 和 ct 是相同的,y 为加入余弦相似度约束的 loss 值函数 Lcos 的参数,当 spi 和 spt 为匹配的文本与图像时,y 的值为 1,当 spi 和 spt 不匹配时,y 的值为 −1。Lfc 表示全连接层的 loss 值函数。
1.4 最终网络结构
将前文中提出的加入的余弦相似度约束与跨模态判别器前增加的全连接层结合在一起,得到了总体改进后的网络,其结构如图 3 所示。由于增加的全连接层将原网络中构建的公共空间 spi 与 spt 结合在了一起,并加入了语义标签,所以改进后的网络中跨模态判别器的 loss 值函数也做出了相应改变,如式(16)所示:

![]() |
整合改进后的网络不仅对相似数据的跨模态公共空间的生成有了鲁棒性,还增加了对公共空间在语义上的关联,使得网络对于甲状腺超声图像与文本的跨模态公共空间建模能力有所提升。
2 实验
在实验部分,主要讨论实验所用数据集、评价指标以及所对比的方法。本文中使用了来自银川市第一人民医院授权使用的甲状腺超声诊断数据。评价指标主要使用 mAP 值评价网络跨模态检索的能力,并以此评价指标为准,与 5 种经典的跨模态检索方法比较。本文中还将优化后的网络与原网络进行收敛速度对比,以此评价网络优化效果。
2.1 数据集和预处理
本文使用了来自银川市第一人民医院授权的 700 例(共 2 800 张)甲状腺超声图像数据以及对应的文本报告(检查所见),图像数据原始格式为医学影像成像和通讯标准格式(digital imaging and communications in medicine,DICOM)。首先,将原始数据进行脱敏处理,然后转换为灰度图像,再将图像中含有敏感信息的部分截去,只保留甲状腺超声图像区域。文本报告(检查所见)来自于专业医生对甲状腺超声图像的客观描述,原始数据保存在数据库中,首先从数据库中导出文本数据,然后将文本数据进行脱敏处理,并且只使用针对图像的文本描述部分。如图 4 所示,为甲状腺超声图像与文本报告数据样例,左侧为两张属于同一个患者同一次检查所得到的图像,右侧为对应的文本报告。

由于网络训练需要大量样本,因此本文对甲状腺超声图像和文本报告都做了一定的数据增广处理。对于图像数据采用缩放图像、旋转图像、截取图像区域方法对数据集进行扩充。对于每一对图像—文本来说,不存在一个图像对应多个文本,或者一个文本对应多个图像的情况,但是对于同一次超声检查来说,往往有多个图像—文本对。对于文本数据,采用调整语序或摘取部分文本的方法进行扩充。最终得到共 9 400 组图像与文本。
2.2 评价指标
不同模态数据可以用相似度矩阵与 CM-GAN 学习到的公共表示联系在一起。本文主要考虑 CM-GAN 在甲状腺超声图像与文本的双模态检索能力,即以图像检索文本与以文本检索图像的能力。对于以图像检索文本,采用图像作为检索输入数据来检索文本数据并计算它们的相似度。对于以文本检索图像,采用文本作为检索输入数据来检索图像并计算它们的相似度。
本文采用 mAP 来对 CM-GAN 的检索结果进行评价,该评价指标是检索、识别任务中常用的评价指标,代表每个检索(或识别)的准确率的均值,该指标反映了网络的优良程度。
查准率(precision)是指正确的检索结果在所有检索结果中的占比。查准率可以考虑到所有获取的结果,也可以指定考虑结果中排名前 k 的结果,这种情况下查准率称为前 k 查准率。查全率(recall)是指正确的查询结果的数量在所有正确数据中的比例。查准率和查全率虽然可以在一定程度上反应检索方法的有效性,但这两种指标并没有考虑检索方法给出的结果在顺序上的重要性,所以需要引入平均准确率。
平均准确率(average precision, AveP)(以符号 AveP 表示)的计算方法如式(17)所示:
![]() |
其中,P(k)指前 k 查准率,Δr(k)= r(k)− r(k − 1)。如果令合集 Ω 为查询第 k 个结果的集合,如式(18)所示:
![]() |
为提高计算准确率,使用相邻两次查的前 k 查询准确率进行计算,如式(19)所示:
![]() |
对于每一次查询所得到的 AveP 取均值,即得到了 mAP 值。
2.3 实验结果
为了验证本文方法在甲状腺超声图像与文本报告跨模态检索任务中的性能,通过将本文方法与 CM-GAN、CCL、DCCA、Corr-AE、CFA 以及 CCA 共 6 种跨模态检索方法对比,选取 10 组样本对以上方法进行多次实验,得出结果如表 1 所示。在测试过程中,所有的数据均采用相同的 CNN 网络结构来提取数据特征。对于图像数据,采用 VGG-19,对于文本数据,采用词卷积神经网络(word convolutional neural network,WordCNN)。由实验结果数据不难发现,CM-GAN 在以图检文、以文检图以及平均的 mAP 值方面,均优于其他方法。相对于原 CM-GAN 方法,本文方法以图检文精度均值从 0.503 提高到了 0.519,以文检图从 0.471 提高到了 0.497,而平均值从 0.487 提高到了 0.508。CM-GAN 利用深度学习的特征提取优势与 GAN 在跨模态领域中优异的异质数据关联性建模能力,在图文跨模态互检任务中取得了更好的效果。

本文实验还验证了对 CM-GAN 网络的优化效果,如图 5 所示,虚线为优化前的网络 loss 值曲线,实线为优化后网络 loss 值曲线,纵坐标为 loss 值,横坐标为迭代次数。从图 5 中可知在迭代训练大于 400 次时,优化后的网络 loss 值下降更快。优化后的网络在 250 次迭代后基本趋于收敛,最终 loss 值稳定在 0.14 左右,而优化前的网络则在 360 次左右区域稳定,收敛速度相对较慢,最终稳定在 0.35 左右。通过比较可知,优化后的网络收敛速度更快,收敛时 loss 值更低。

本文还针对两种改进方式分别进行了对比,使用与上文相同的图像与文本特征提取方法与数据集,分别对只加入全连接层与只加入余弦相似度的网络进行了测试。通过实验结果发现,如果只加入全连接层,增加了网络中隐藏节点的数量,对网络训练效率有较大影响,收敛速度低于改进前的网络结构,而网络的 mAP 值并没有随着网络复杂度的提升而提高。只加入余弦相似度的网络结构,减少了一层权重共享的全连接层,在训练效率上有所提高,收敛速度优于原网络结构,但缺少全连接层,导致 mAP 值无法提高。余弦相似度和全连接层形成互补关系,相对于使用权重共享的全连接层,训练效率更高,网络检索效果更好。
如图 6 所示,为本文与 6 种跨模态检索方法的结果对比,分别以图像和文本为输入数据,各个算法得出的检索结果各有不同,其中检索结果有误的用红色框线标出。

图 6 中,以图像检索文本的结果,图中显示为待检索甲状腺结节超声图像检索到的文本描述,该甲状腺结节为 25 × 11 mm2 大小的实性结节,边界不清晰,回声不均匀,可见斑片状强回声,后方伴有声影。从检索结果来看,CM-GAN、CCL、Corr-AE 与 DCCA 方法可以较为准确地得到该甲状腺结节的描述;而 CFA 与 CCA 方法对边界的描述为不清晰;CCA 方法得到的结果较少,描述不完整。
图 6 中,以文本检索图像的结果,图中显示为待检索文本检索到的甲状腺超声图像,从结果可以发现 CM-GAN、CCL 与 DCCA 方法可以准确地检索到相关图像,其中 CM-GAN 与 CCL 检索到的图像为增广处理后的甲状腺超声图像;Corr-AE 与 CCA 检索到的图像来自同一个甲状腺,但不对应于描述;CFA 方法没有正确检索到图像。
通过检索结果对比可以发现,本文方法可以较好地完成甲状腺超声图像与文本报告的跨模态检索任务。
3 结束语
本文将 CM-GAN 应用于甲状腺超声图像与文本报告的跨模态检索任务中,实现了甲状腺超声图像与文本报告的互相检索,不仅利用了医院数据库中长久保存而不用的大量数据,还利用跨模态检索方法,探索了从医疗图像生成文本报告,以及从文本报告生成医疗图像的方法,为减轻医生工作压力,方便患者了解和使用医疗图像奠定了理论与实验基础。通过实验证明,CM-GAN 不仅可以在公开数据集上取得良好的效果,在医疗影像与医疗文本报告数据集上同样可以取得较好结果。目前,本文只使用了图像与文本数据,但医院中还有大量的数据是基于视频和音频的,所以在后续工作中,如何将跨模态检索方法应用于其他医疗数据模态上也将成为未来的研究方向之一。
利益冲突声明:本文全体作者均声明不存在利益冲突。