引用本文: 陈正大, 付博, 王建宇, 姜楠, 郭志刚. 基于DenseNet121架构的心音模型诊断主动脉瓣狭窄的前瞻性临床研究. 中国胸心血管外科临床杂志, 2023, 30(4): 514-521. doi: 10.7507/1007-4848.202209056 复制
主动脉瓣狭窄是一种慢性进展性疾病,其病理特征为脂质聚集、炎症、纤维化及钙化,潜伏期很长,左心室为适应增高的后负荷,发生向心性肥厚导致舒张功能障碍,冠状动脉储备下降,心肌缺血,疾病终末期将出现收缩功能下降,心功能衰竭甚至猝死。患者一旦出现临床症状(呼吸困难、胸痛、晕厥等),预后极差,约半数患者自然寿命不超过2年[1-2]。随着人口老龄化进程的加速,主动脉瓣狭窄的发病率逐年升高,在西方国家75岁以上人群主动脉瓣狭窄的发病率为2.8%,仅次于高血压和冠心病[3]。随着我国经济水平不断发展,人均寿命逐渐延长,老龄化人口不断增加,瓣膜病变的主要病因正在从风湿性心脏瓣膜病向退行性心脏瓣膜病转化。我国主动脉瓣狭窄的发病率必然会逐渐增加并呈现出西方发达国家的流行病学态势。
严重的主动脉瓣狭窄患者保守治疗预后较差,目前尚无药物预防或阻止主动脉瓣狭窄的进展,改善患者预后主要依赖识别瓣膜病高危患者、准确判断狭窄严重程度、处理合并疾病以及确保主动脉瓣置换的适合时间和瓣膜类型。这对早期识别主动脉瓣狭窄患者提出更高要求。目前诊断主动脉瓣狭窄的主要方法是超声心动图,但其成本较高,在经济欠发达、医疗资源短缺的地区未大规模投入使用[4]。听诊检查具有设备廉价便携、操作简单的优点,曾经是临床医生感知心脏杂音、诊断瓣膜病变的主要手段。但听诊检查缺乏特异性,还对临床医生心脏听诊的专业能力有一定的要求[5],随着便携超声心动图的应用,听诊器在西方国家心脏瓣膜病的诊疗上已逐渐被淘汰[6]。
计算机辅助心音分析给予了心脏听诊新的应用方式。其最初于1963年由David等[7]提出,实现对风湿性心脏病病理性心音的识别,然而受制于当时的硬件条件未能进一步发展。随着现代科技的进步,人工智能为心音自动识别指引了新方向。深度学习作为人工智能的一个分支,已被应用于许多自动识别心音的分类模型中。近期发表的模型的灵敏度已能达80%[8],但其训练集多取自CinC 2016 Challege心音分类挑战赛的二分类心音数据库,该数据库中仅有心音是否异常的标签[9-10],训练所得模型不具备区分疾病类型的能力。目前国内相关研究较少,既往国外研究所得模型应用于我国患者时可能存在较大偏差。综上,我们希望应用本土心音数据开发一个基于深度学习方法应用心音诊断主动脉瓣狭窄的模型,能用于筛查主动脉瓣狭窄患者,推进更早的临床监测和干预。
本次研究应用3MTM听诊器于临床环境下采集心音,并用于训练基于稠密连接网络(DenseNet121)架构、以一维卷积神经网络(convolutional neural networks,CNN)为基础的模型,进而实现对主动脉瓣狭窄患者与健康人群的自动准确分类。
1 资料与方法
1.1 临床资料及心音采集
为了获得用于训练及验证应用的深度学习模型的心音数据,我们使用3MTMLittmann电子听诊器,于2021年6月—2022年2月在天津市胸科医院采集患者心音,进行前瞻性研究。纳入标准:心脏超声诊断为主动脉瓣狭窄的患者以及心脏超声排除主动脉瓣疾病者。排除标准:有心脏瓣膜置换史或心电图确诊心房颤动的患者。对纳入的患者,使用3MTMLittmann电子听诊器的录音功能,在临床环境下以4 000 Hz采样,分别于主动脉瓣听诊区(胸骨右缘第2肋间),主动脉瓣第2听诊区(胸骨左缘第3肋间)听诊,每个听诊区记录30 s,保存于与听诊器相配套的StethAssist程序中,并将输出音频转换为wav格式,该步骤由临床医师进行以确保不同听诊区位置的准确性。心音采集过程中由心脏相关专业的临床医师同步听诊确保数据质量能达到模型所需标准,若质量较差则重新听诊采集。
1.2 心音数据的预处理
1.2.1 心音分割
心音采集过程中已对数据质量进行控制,故不设置进一步的数据筛选步骤。对采集的心音数据,按照7∶1∶2的比例分为训练集、验证集及测试集。将每段音频起始及结尾的不稳定心音数据删除,对剩余心音数据使用步长为1 s的滑动窗口将其分成长度为3 s的音频片段,从而将长时间的音频数据分割为若干片段,作为适合的深度学习模型输入样本。
1.2.2 数据强化
由于数据集中的心音数据量相对有限,CNN模型又具有优异的特征提取能力,容易导致模型的过拟合。为减少这个问题,采用了音频数据强化的方案。对训练集及验证集的每段3 s音频,以30%触发概率,触发高斯噪声、噪声冲击、心率放缓和心率加速4种变化,从而增加训练数据数量。
1.2.3 滤波降噪
心音在采集过程中,很难采集到纯净的信号,干扰噪声例如:采集设备的电路噪声、微弱的呼吸音、采集对象的晃动、心音传感器与皮肤的摩擦音、采集环境噪声,均会对后续的训练产生影响。因此对采集到的心音,使用25~400 Hz的带通滤波器去除低频和高频噪声,便于后续分析处理。
1.2.4 音频数据的读写与变换
通过python实现对wav格式心音数据的读写,将模拟信号转换为数字信号。而后应用傅里叶变换将心音数据从时间域转换至频率域,进而实现后续对信号频谱结构和变化规律的研究。
1.3 深度学习模型
本次研究使用Keras中采用的2017年发表的DenseNet 121架构[11],以此为基础搭建一维CNN模型。基本结构包括输入层、稠密块、过渡层、全连接层及输出层,稠密块及过渡层为DenseNet的构件模块,前者为输入与输出的连接方式,后者则用来控制通道数,通过跨层连接设计,实现特征重用,减少参数及计算成本。最后的全连接层采用softmax逻辑回归进行分类,使用多数投票法给出最终输出的结果。
将预处理得到的心音数据训练集用于模型的学习,验证集用于测试之前调整超参数以避免过拟合,用测试集数据输入模型之中获得研究结果。
所得深度学习模型输出结果包括阳性(主动脉瓣狭窄)及阴性(无主动脉瓣疾患)。该模型拟应用于便携设备对主动脉瓣狭窄高危人群实现低成本筛查,非心脏相关专业临床医师可参考模型判断结果给予患者是否需进一步检查的建议。模型存在假阴性及假阳性结果的可能性,作为目标筛查疾病的模型,假阴性结果相对假阳性结果后果更为严重,故不建议以模型判断结果作为排除诊断的依据。对判别为阳性或阴性但具有相关临床症状的患者都建议进行后续心脏超声检查进一步明确主动脉瓣病变情况。
1.4 统计学分析
采用SPSS 26.0 软件进行统计分析,正态分布的计量资料采用均数±标准差(±s)描述,使用独立样本t检验进行组间比较。计数资料采用例数和百分比(%)表示,使用χ2检验进行组间比较。
采用以下方案评价模型:绘制混淆矩阵图像,其中包含4项指标:真阳性(TP)是正确分类的异常心音的数量,假阳性(FP)是错误分类的正常心音的数量,真阴性(TN)是正确分类的正常心音的数量,假阴性(FN)是错误分类的异常心音的数量;而后计算准确率(accuracy,Acc)、灵敏度(sensitivity,Se)、特异度(specificity,Sp)。使用以上数据绘制受试者工作特征(receiver operating characteristic,ROC)曲线以及精确度-召回率(precision-recall,PR)曲线。计算ROC曲线下面积(area under the curve,AUC),用以评价模型效果。检验水准α=0.05。
1.5 伦理审查、注册与数据访问
本研究已通过天津市胸科医院医学伦理委员会的审批,审批号:2022LW-017;并在中国临床试验注册中心注册,注册号:ChiCTR2200056074。本次研究所得模型尚未达到实际应用级别,后续仍需大量改进,目前无明确搭载目标,故无法实现代码访问。
2 结果
2.1 患者资料
本研究共采集到50例无主动脉瓣疾病患者(阴性组)以及50例主动脉瓣狭窄患者(狭窄组)的共200条心音数据,基线资料及超声特征见表1。50例主动脉瓣狭窄患者中轻、中、重度主动脉瓣狭窄患者分别为12例、8例、30例,其中无症状主动脉瓣狭窄患者为11例,阴性组患者未对平均跨瓣压差及有效瓣口面积进行测量。两组患者超声数据差异有统计学意义(P<0.05)。


2.2 心音数据集
图1~3为心音数据的预处理过程中分割、数据强化、滤波降噪步骤的示意图,处理后的心音片段用于后续模型的训练、验证与测试。

每个片段长 3 s,间隔 1 s,相邻片段有 2/3 重合

30%触发概率,触发高斯噪声、噪声冲击、心率放缓、心率加速

2.3 模型架构及训练
本文应用的模型流程见图4。从输入端将心音音频输入后通过单层卷积提取特征,池化层减少参数,输入至后方的稠密块中。采用DenseNet121的结构,稠密块1中含有6个卷积核,稠密块2中为12个卷积核,稠密块3中为24个卷积核,稠密块4中为16个卷积核。卷积核稠密块之间由过渡层连接,主要作用为控制通道数量,进而压缩模型。稠密块4的输出结果作为输入输出至以softmax作为激活函数的全连接层,最后通过多数投票法给出最终判断结果。

图5为单个稠密块内部的密集连接结构示意图,其核心思想为后续层会接受前面所有层的输出作为额外输入,其公式如下,第n层的输出Xn是前n–1层作为输入经过非线性变换得到。非线性变换H是BN+ReLU+Conv的组合,BN指批量归一化,ReLU为一种分段的激活函数,Conv指激活函数。图5中最终的输出为X0到X4的总和,从而实现特征重用。稠密块的应用使得神经网络结构更加紧凑,参数更少,保证特征信息最大程度地传输利用,大幅提升网络性能。

Xn为第n层输出的特征,Hn为第n层的非线性变换
模型的训练采用了早停法,训练数据被分为训练集与验证集,模型只在训练集上进行训练,并每隔一定周期计算模型在验证集上的误差,当模型在验证集上的误差比上一次训练结果差的时候,记录上一次迭代结果中的参数,而后继续迭代直至泛化错误于连续多个周期增长,采取全局最优的参数作为最终参数。
2.4 模型性能评价
应用测试集对模型性能进行测试,模型的准确度为91.67%,灵敏度为90.00%,特异度为92.50%;ROC曲线中AUC=0.979,取得了很好的分类效果;见图6。

a :ROC 曲线;b: PR 曲线;c :混淆矩阵图;ROC:受试者工作特征;PR:精确度-召回率;AUC:曲线下面积
3 讨论
目前无症状主动脉瓣狭窄患者的发现主要通过体检中的心脏超声,限定了医疗场所,同时对设备要求较高,价格也较高,很多未被发现的早期主动脉瓣狭窄患者直至疾病发展至中晚期出现症状才会就医进行相关检查,错过了治疗的最佳时机。而能在社区进行的听诊检查则兼具便利性及便携性,作为普适性筛查具有重要的临床应用价值,但人工听诊的高临床经验需求限制了其广泛应用。Sztajzel等[12]曾经进行过一项关于医生听诊的研究,结果表明,内科医师与心脏专家通过听诊识别中重度主动脉瓣狭窄的准确率均为91.3%,内科医师识别轻度主动脉瓣狭窄的准确率为53.9%,心脏专家为71.4%,而在我国缺乏统一听诊训练的基层医生对主动脉瓣狭窄的识别准确率更低。由此可见高准确率的机器辅助听诊技术拥有广阔的应用前景。
计算机心音分类主要分为两大类:传统机械学习方法以及深度学习方法。传统机械学习方法具有训练简便以及算法易于优化的优点,但其要求复杂的预处理,包括对心音信号的精确分割以及手动的特征提取,在面对更加复杂的心音数据集时工作量巨大。而目前深度学习方法的主要限制为硬件要求高,训练时间较长,但其拥有自动学习特征的能力,具有更高的效率。而根据以往研究[13],基于深度学习的心音分类准确率普遍高于基于传统机器学习的心音分类准确率,近年来相关研究的趋势多为应用深度学习方法分类心音数据。
本次研究使用的基于一维CNN的深度学习模型,在判断主动脉瓣狭窄患者与无主动脉瓣疾病患者上具有90.00%的灵敏度及91.67%的准确度。既往研究中已有不同类型的基于深度学习的模型发表,例如Dominguez-Morales等[14]应用深度卷积神经网络(alexnet)架构的CNN模型获得了95.12%的灵敏度及93.20%的特异度;Siddique等[15]应用循环神经网络模型,在双向长短期记忆网络框架下获得98.8%的灵敏度及98.3%的特异度;Sotaquirá等[16]研发的应用深度神经网络的模型灵敏度88.2%,特异度90.3%。上述提到的模型应用的心音数据库均为CinC Challenge 2016公布的数据库,该数据库无心音所有者的具体疾病标签,仅能区分心音数据是否异常,因此训练所得模型只具有判断心音是否异常的二分类功能。2018年Yaseen团队[17]提供了一个新的心音数据库,其中包括主动脉瓣狭窄、二尖瓣反流、二尖瓣狭窄、二尖瓣脱垂以及正常组5个不同类别。研究者[18-19]基于该数据库进行了多种异常心音的分类模型研究,分别达97.0%及98.6%的准确率,高于本研究模型。但此数据库并非直接来自临床采集,而是从教学书籍或网络上随机收集获得,其中部分心音是作为训练人耳辨识异常心音的教学材料,在噪音极少的情况下还拥有明确的心脏杂音,数据库内的心音数据可能与临床实际环境所获得的心音数据差异较大,训练所得的模型应用于临床环境下时可能出现性能下降的情况。目前国内暂无心音数据的大型数据库,国内临床采集心音数据进行具体疾病分类的深度学习模型研究尚属首次。
在临床工作条件下的心音数据收集过程中,无主动脉瓣疾病患者以及重度主动脉瓣狭窄的患者占比较高,为避免数据不平衡导致的灵敏度与特异度失衡采用了各类别均匀采集的方案。而过去多数研究使用的数据库中正常心音标签数目远多于异常标签,常规采用的交叉熵研究方法无法避免类别不平衡的问题,可能会导致最终判断结果中假阴性比例升高。近期Li等[20]尝试应用了两种加权损失函数:平衡交叉熵损失函数和焦点损失函数,来处理不平衡数据集的问题。该方案成功提高了异常心音的分类性能,这提示我们后续研究中可以放弃均匀采集各类别心音的方案。
本次研究共采集了100例患者的心音数据,在同类研究中样本量相对较小,受到Baghel等[19]研究中数据增强的启发,使用了合成心音数据的方案,通过触发高斯噪声、噪声冲击、心率放缓和心率加速4种变化增加数据量,减少了记忆的情况并提高了泛化性。受制于较小的样本量,没有选择N折交叉验证及bootstrap等重采样方法,训练过程中也没有采用丢弃法。但依靠使用独立于训练数据的验证组进行早停法,减少了过拟合情况的发生。但这无法完全解决样本量的问题,依据 Cho等[21]的研究,应用于图形识别的CNN模型在各类别数据达100~200例时,学习曲线到达较为稳定的状态,我们的研究各类型数据仅在50例左右,这说明我们的模型可能尚未达到最佳训练状态。我们尝试按主动脉瓣狭窄严重程度分级对模型进行训练,但因各分级数据量较小未能获得满意的结果。此外,由于此研究为天津市胸科医院的单中心研究,就诊患者主动脉狭窄疾病相对较重,会对模型学习结果产生一定影响,单中心的数据也无法完全代表国内全体患者的特点,应用于其他地区乃至国外患者时可能会出现灵敏度下降的情况。
深度学习作为机器学习的一个分支,已经在语音识别、图像识别、生物医学数据分析、信号处理、自动驾驶等领域表现出良好的实用性和可靠性[8]。本文研究的CNN模型虽然在建模学习过程中需要强大的CPU与GPU支持,但随着模型的完善以及超参数的确定,对硬件的需求将大幅降低,压缩后的模型可以转移至低成本的轻量处理器中,或是安装于电子听诊器上,制成一体化的设备,直接给予诊断建议,在疾病筛查中拥有巨大的潜力,将有效推动主动脉瓣狭窄患者的早期识别与诊断进程。
目前关于心音识别的深度学习模型相关研究主要受制于没有足量有明确标签的心音数据,然而获取大量心音数据对临床医生负担较重,针对某种特定疾病时尤为如此。随着医院联网系统的完善,于临床环境直接对患者进行统一的心音采集变得可行,近期已有研究[22]提出了联合学习框架,对跨协作机构的学习模式进行了实验与分析,该框架具有独特的隐私保护优势,并尝试通过多机构的联合建立新的心音数据库。大型心音数据库的建立将有效推进心音分析模型的开发。
深度学习模型通常能够有效对目标问题进行预测或分类,但对其诊断结果的解释一直是一项具有挑战的任务。既往在医学影像[23]以及心电图分析[24]上已经获得了一些成果,而心音数据因为其复杂性及不稳定性,仅有Liu等[25]在儿科先天性心脏病上进行过相关研究,其通过将每个心音补丁的类激活图可视化来尝试解释模型,取得一定成果。我们应用成人心音数据与之相比更加稳定,没有生理性第3心音的干扰,使用类似的方案或许能够获得更加有意义的结论,未来会进行进一步尝试。
在各种心脏瓣膜疾病频发的现在,早期诊断已经成为临床工作中的一个重要问题,许多患者发现临床症状时已经错过最佳治疗时间。本文构建了一种基于深度学习诊断主动脉瓣狭窄患者心音的模型,该模型能够应用输入的心音音频将患者分辨为主动脉瓣狭窄患者及非主动脉瓣狭窄患者,有助于主动脉瓣狭窄患者的早期诊断,使其获得更早的就诊时机。结果显示,该模型灵敏度为90.00%,远高于人工听诊。其同时还拥有着低成本、低专业经验需求的优点,在医疗资源欠发达地区疾病筛查上拥有广阔的应用前景,能为主动脉瓣狭窄患者的尽早发现、尽早干预提供助力。
利益冲突:无。
作者贡献:陈正大负责查阅资料,撰写论文; 付博负责论文数据整理与分析;王建宇负责数据收集;姜楠、郭志刚负责论文设计、审校及修改。
主动脉瓣狭窄是一种慢性进展性疾病,其病理特征为脂质聚集、炎症、纤维化及钙化,潜伏期很长,左心室为适应增高的后负荷,发生向心性肥厚导致舒张功能障碍,冠状动脉储备下降,心肌缺血,疾病终末期将出现收缩功能下降,心功能衰竭甚至猝死。患者一旦出现临床症状(呼吸困难、胸痛、晕厥等),预后极差,约半数患者自然寿命不超过2年[1-2]。随着人口老龄化进程的加速,主动脉瓣狭窄的发病率逐年升高,在西方国家75岁以上人群主动脉瓣狭窄的发病率为2.8%,仅次于高血压和冠心病[3]。随着我国经济水平不断发展,人均寿命逐渐延长,老龄化人口不断增加,瓣膜病变的主要病因正在从风湿性心脏瓣膜病向退行性心脏瓣膜病转化。我国主动脉瓣狭窄的发病率必然会逐渐增加并呈现出西方发达国家的流行病学态势。
严重的主动脉瓣狭窄患者保守治疗预后较差,目前尚无药物预防或阻止主动脉瓣狭窄的进展,改善患者预后主要依赖识别瓣膜病高危患者、准确判断狭窄严重程度、处理合并疾病以及确保主动脉瓣置换的适合时间和瓣膜类型。这对早期识别主动脉瓣狭窄患者提出更高要求。目前诊断主动脉瓣狭窄的主要方法是超声心动图,但其成本较高,在经济欠发达、医疗资源短缺的地区未大规模投入使用[4]。听诊检查具有设备廉价便携、操作简单的优点,曾经是临床医生感知心脏杂音、诊断瓣膜病变的主要手段。但听诊检查缺乏特异性,还对临床医生心脏听诊的专业能力有一定的要求[5],随着便携超声心动图的应用,听诊器在西方国家心脏瓣膜病的诊疗上已逐渐被淘汰[6]。
计算机辅助心音分析给予了心脏听诊新的应用方式。其最初于1963年由David等[7]提出,实现对风湿性心脏病病理性心音的识别,然而受制于当时的硬件条件未能进一步发展。随着现代科技的进步,人工智能为心音自动识别指引了新方向。深度学习作为人工智能的一个分支,已被应用于许多自动识别心音的分类模型中。近期发表的模型的灵敏度已能达80%[8],但其训练集多取自CinC 2016 Challege心音分类挑战赛的二分类心音数据库,该数据库中仅有心音是否异常的标签[9-10],训练所得模型不具备区分疾病类型的能力。目前国内相关研究较少,既往国外研究所得模型应用于我国患者时可能存在较大偏差。综上,我们希望应用本土心音数据开发一个基于深度学习方法应用心音诊断主动脉瓣狭窄的模型,能用于筛查主动脉瓣狭窄患者,推进更早的临床监测和干预。
本次研究应用3MTM听诊器于临床环境下采集心音,并用于训练基于稠密连接网络(DenseNet121)架构、以一维卷积神经网络(convolutional neural networks,CNN)为基础的模型,进而实现对主动脉瓣狭窄患者与健康人群的自动准确分类。
1 资料与方法
1.1 临床资料及心音采集
为了获得用于训练及验证应用的深度学习模型的心音数据,我们使用3MTMLittmann电子听诊器,于2021年6月—2022年2月在天津市胸科医院采集患者心音,进行前瞻性研究。纳入标准:心脏超声诊断为主动脉瓣狭窄的患者以及心脏超声排除主动脉瓣疾病者。排除标准:有心脏瓣膜置换史或心电图确诊心房颤动的患者。对纳入的患者,使用3MTMLittmann电子听诊器的录音功能,在临床环境下以4 000 Hz采样,分别于主动脉瓣听诊区(胸骨右缘第2肋间),主动脉瓣第2听诊区(胸骨左缘第3肋间)听诊,每个听诊区记录30 s,保存于与听诊器相配套的StethAssist程序中,并将输出音频转换为wav格式,该步骤由临床医师进行以确保不同听诊区位置的准确性。心音采集过程中由心脏相关专业的临床医师同步听诊确保数据质量能达到模型所需标准,若质量较差则重新听诊采集。
1.2 心音数据的预处理
1.2.1 心音分割
心音采集过程中已对数据质量进行控制,故不设置进一步的数据筛选步骤。对采集的心音数据,按照7∶1∶2的比例分为训练集、验证集及测试集。将每段音频起始及结尾的不稳定心音数据删除,对剩余心音数据使用步长为1 s的滑动窗口将其分成长度为3 s的音频片段,从而将长时间的音频数据分割为若干片段,作为适合的深度学习模型输入样本。
1.2.2 数据强化
由于数据集中的心音数据量相对有限,CNN模型又具有优异的特征提取能力,容易导致模型的过拟合。为减少这个问题,采用了音频数据强化的方案。对训练集及验证集的每段3 s音频,以30%触发概率,触发高斯噪声、噪声冲击、心率放缓和心率加速4种变化,从而增加训练数据数量。
1.2.3 滤波降噪
心音在采集过程中,很难采集到纯净的信号,干扰噪声例如:采集设备的电路噪声、微弱的呼吸音、采集对象的晃动、心音传感器与皮肤的摩擦音、采集环境噪声,均会对后续的训练产生影响。因此对采集到的心音,使用25~400 Hz的带通滤波器去除低频和高频噪声,便于后续分析处理。
1.2.4 音频数据的读写与变换
通过python实现对wav格式心音数据的读写,将模拟信号转换为数字信号。而后应用傅里叶变换将心音数据从时间域转换至频率域,进而实现后续对信号频谱结构和变化规律的研究。
1.3 深度学习模型
本次研究使用Keras中采用的2017年发表的DenseNet 121架构[11],以此为基础搭建一维CNN模型。基本结构包括输入层、稠密块、过渡层、全连接层及输出层,稠密块及过渡层为DenseNet的构件模块,前者为输入与输出的连接方式,后者则用来控制通道数,通过跨层连接设计,实现特征重用,减少参数及计算成本。最后的全连接层采用softmax逻辑回归进行分类,使用多数投票法给出最终输出的结果。
将预处理得到的心音数据训练集用于模型的学习,验证集用于测试之前调整超参数以避免过拟合,用测试集数据输入模型之中获得研究结果。
所得深度学习模型输出结果包括阳性(主动脉瓣狭窄)及阴性(无主动脉瓣疾患)。该模型拟应用于便携设备对主动脉瓣狭窄高危人群实现低成本筛查,非心脏相关专业临床医师可参考模型判断结果给予患者是否需进一步检查的建议。模型存在假阴性及假阳性结果的可能性,作为目标筛查疾病的模型,假阴性结果相对假阳性结果后果更为严重,故不建议以模型判断结果作为排除诊断的依据。对判别为阳性或阴性但具有相关临床症状的患者都建议进行后续心脏超声检查进一步明确主动脉瓣病变情况。
1.4 统计学分析
采用SPSS 26.0 软件进行统计分析,正态分布的计量资料采用均数±标准差(±s)描述,使用独立样本t检验进行组间比较。计数资料采用例数和百分比(%)表示,使用χ2检验进行组间比较。
采用以下方案评价模型:绘制混淆矩阵图像,其中包含4项指标:真阳性(TP)是正确分类的异常心音的数量,假阳性(FP)是错误分类的正常心音的数量,真阴性(TN)是正确分类的正常心音的数量,假阴性(FN)是错误分类的异常心音的数量;而后计算准确率(accuracy,Acc)、灵敏度(sensitivity,Se)、特异度(specificity,Sp)。使用以上数据绘制受试者工作特征(receiver operating characteristic,ROC)曲线以及精确度-召回率(precision-recall,PR)曲线。计算ROC曲线下面积(area under the curve,AUC),用以评价模型效果。检验水准α=0.05。
1.5 伦理审查、注册与数据访问
本研究已通过天津市胸科医院医学伦理委员会的审批,审批号:2022LW-017;并在中国临床试验注册中心注册,注册号:ChiCTR2200056074。本次研究所得模型尚未达到实际应用级别,后续仍需大量改进,目前无明确搭载目标,故无法实现代码访问。
2 结果
2.1 患者资料
本研究共采集到50例无主动脉瓣疾病患者(阴性组)以及50例主动脉瓣狭窄患者(狭窄组)的共200条心音数据,基线资料及超声特征见表1。50例主动脉瓣狭窄患者中轻、中、重度主动脉瓣狭窄患者分别为12例、8例、30例,其中无症状主动脉瓣狭窄患者为11例,阴性组患者未对平均跨瓣压差及有效瓣口面积进行测量。两组患者超声数据差异有统计学意义(P<0.05)。


2.2 心音数据集
图1~3为心音数据的预处理过程中分割、数据强化、滤波降噪步骤的示意图,处理后的心音片段用于后续模型的训练、验证与测试。

每个片段长 3 s,间隔 1 s,相邻片段有 2/3 重合

30%触发概率,触发高斯噪声、噪声冲击、心率放缓、心率加速

2.3 模型架构及训练
本文应用的模型流程见图4。从输入端将心音音频输入后通过单层卷积提取特征,池化层减少参数,输入至后方的稠密块中。采用DenseNet121的结构,稠密块1中含有6个卷积核,稠密块2中为12个卷积核,稠密块3中为24个卷积核,稠密块4中为16个卷积核。卷积核稠密块之间由过渡层连接,主要作用为控制通道数量,进而压缩模型。稠密块4的输出结果作为输入输出至以softmax作为激活函数的全连接层,最后通过多数投票法给出最终判断结果。

图5为单个稠密块内部的密集连接结构示意图,其核心思想为后续层会接受前面所有层的输出作为额外输入,其公式如下,第n层的输出Xn是前n–1层作为输入经过非线性变换得到。非线性变换H是BN+ReLU+Conv的组合,BN指批量归一化,ReLU为一种分段的激活函数,Conv指激活函数。图5中最终的输出为X0到X4的总和,从而实现特征重用。稠密块的应用使得神经网络结构更加紧凑,参数更少,保证特征信息最大程度地传输利用,大幅提升网络性能。

Xn为第n层输出的特征,Hn为第n层的非线性变换
模型的训练采用了早停法,训练数据被分为训练集与验证集,模型只在训练集上进行训练,并每隔一定周期计算模型在验证集上的误差,当模型在验证集上的误差比上一次训练结果差的时候,记录上一次迭代结果中的参数,而后继续迭代直至泛化错误于连续多个周期增长,采取全局最优的参数作为最终参数。
2.4 模型性能评价
应用测试集对模型性能进行测试,模型的准确度为91.67%,灵敏度为90.00%,特异度为92.50%;ROC曲线中AUC=0.979,取得了很好的分类效果;见图6。

a :ROC 曲线;b: PR 曲线;c :混淆矩阵图;ROC:受试者工作特征;PR:精确度-召回率;AUC:曲线下面积
3 讨论
目前无症状主动脉瓣狭窄患者的发现主要通过体检中的心脏超声,限定了医疗场所,同时对设备要求较高,价格也较高,很多未被发现的早期主动脉瓣狭窄患者直至疾病发展至中晚期出现症状才会就医进行相关检查,错过了治疗的最佳时机。而能在社区进行的听诊检查则兼具便利性及便携性,作为普适性筛查具有重要的临床应用价值,但人工听诊的高临床经验需求限制了其广泛应用。Sztajzel等[12]曾经进行过一项关于医生听诊的研究,结果表明,内科医师与心脏专家通过听诊识别中重度主动脉瓣狭窄的准确率均为91.3%,内科医师识别轻度主动脉瓣狭窄的准确率为53.9%,心脏专家为71.4%,而在我国缺乏统一听诊训练的基层医生对主动脉瓣狭窄的识别准确率更低。由此可见高准确率的机器辅助听诊技术拥有广阔的应用前景。
计算机心音分类主要分为两大类:传统机械学习方法以及深度学习方法。传统机械学习方法具有训练简便以及算法易于优化的优点,但其要求复杂的预处理,包括对心音信号的精确分割以及手动的特征提取,在面对更加复杂的心音数据集时工作量巨大。而目前深度学习方法的主要限制为硬件要求高,训练时间较长,但其拥有自动学习特征的能力,具有更高的效率。而根据以往研究[13],基于深度学习的心音分类准确率普遍高于基于传统机器学习的心音分类准确率,近年来相关研究的趋势多为应用深度学习方法分类心音数据。
本次研究使用的基于一维CNN的深度学习模型,在判断主动脉瓣狭窄患者与无主动脉瓣疾病患者上具有90.00%的灵敏度及91.67%的准确度。既往研究中已有不同类型的基于深度学习的模型发表,例如Dominguez-Morales等[14]应用深度卷积神经网络(alexnet)架构的CNN模型获得了95.12%的灵敏度及93.20%的特异度;Siddique等[15]应用循环神经网络模型,在双向长短期记忆网络框架下获得98.8%的灵敏度及98.3%的特异度;Sotaquirá等[16]研发的应用深度神经网络的模型灵敏度88.2%,特异度90.3%。上述提到的模型应用的心音数据库均为CinC Challenge 2016公布的数据库,该数据库无心音所有者的具体疾病标签,仅能区分心音数据是否异常,因此训练所得模型只具有判断心音是否异常的二分类功能。2018年Yaseen团队[17]提供了一个新的心音数据库,其中包括主动脉瓣狭窄、二尖瓣反流、二尖瓣狭窄、二尖瓣脱垂以及正常组5个不同类别。研究者[18-19]基于该数据库进行了多种异常心音的分类模型研究,分别达97.0%及98.6%的准确率,高于本研究模型。但此数据库并非直接来自临床采集,而是从教学书籍或网络上随机收集获得,其中部分心音是作为训练人耳辨识异常心音的教学材料,在噪音极少的情况下还拥有明确的心脏杂音,数据库内的心音数据可能与临床实际环境所获得的心音数据差异较大,训练所得的模型应用于临床环境下时可能出现性能下降的情况。目前国内暂无心音数据的大型数据库,国内临床采集心音数据进行具体疾病分类的深度学习模型研究尚属首次。
在临床工作条件下的心音数据收集过程中,无主动脉瓣疾病患者以及重度主动脉瓣狭窄的患者占比较高,为避免数据不平衡导致的灵敏度与特异度失衡采用了各类别均匀采集的方案。而过去多数研究使用的数据库中正常心音标签数目远多于异常标签,常规采用的交叉熵研究方法无法避免类别不平衡的问题,可能会导致最终判断结果中假阴性比例升高。近期Li等[20]尝试应用了两种加权损失函数:平衡交叉熵损失函数和焦点损失函数,来处理不平衡数据集的问题。该方案成功提高了异常心音的分类性能,这提示我们后续研究中可以放弃均匀采集各类别心音的方案。
本次研究共采集了100例患者的心音数据,在同类研究中样本量相对较小,受到Baghel等[19]研究中数据增强的启发,使用了合成心音数据的方案,通过触发高斯噪声、噪声冲击、心率放缓和心率加速4种变化增加数据量,减少了记忆的情况并提高了泛化性。受制于较小的样本量,没有选择N折交叉验证及bootstrap等重采样方法,训练过程中也没有采用丢弃法。但依靠使用独立于训练数据的验证组进行早停法,减少了过拟合情况的发生。但这无法完全解决样本量的问题,依据 Cho等[21]的研究,应用于图形识别的CNN模型在各类别数据达100~200例时,学习曲线到达较为稳定的状态,我们的研究各类型数据仅在50例左右,这说明我们的模型可能尚未达到最佳训练状态。我们尝试按主动脉瓣狭窄严重程度分级对模型进行训练,但因各分级数据量较小未能获得满意的结果。此外,由于此研究为天津市胸科医院的单中心研究,就诊患者主动脉狭窄疾病相对较重,会对模型学习结果产生一定影响,单中心的数据也无法完全代表国内全体患者的特点,应用于其他地区乃至国外患者时可能会出现灵敏度下降的情况。
深度学习作为机器学习的一个分支,已经在语音识别、图像识别、生物医学数据分析、信号处理、自动驾驶等领域表现出良好的实用性和可靠性[8]。本文研究的CNN模型虽然在建模学习过程中需要强大的CPU与GPU支持,但随着模型的完善以及超参数的确定,对硬件的需求将大幅降低,压缩后的模型可以转移至低成本的轻量处理器中,或是安装于电子听诊器上,制成一体化的设备,直接给予诊断建议,在疾病筛查中拥有巨大的潜力,将有效推动主动脉瓣狭窄患者的早期识别与诊断进程。
目前关于心音识别的深度学习模型相关研究主要受制于没有足量有明确标签的心音数据,然而获取大量心音数据对临床医生负担较重,针对某种特定疾病时尤为如此。随着医院联网系统的完善,于临床环境直接对患者进行统一的心音采集变得可行,近期已有研究[22]提出了联合学习框架,对跨协作机构的学习模式进行了实验与分析,该框架具有独特的隐私保护优势,并尝试通过多机构的联合建立新的心音数据库。大型心音数据库的建立将有效推进心音分析模型的开发。
深度学习模型通常能够有效对目标问题进行预测或分类,但对其诊断结果的解释一直是一项具有挑战的任务。既往在医学影像[23]以及心电图分析[24]上已经获得了一些成果,而心音数据因为其复杂性及不稳定性,仅有Liu等[25]在儿科先天性心脏病上进行过相关研究,其通过将每个心音补丁的类激活图可视化来尝试解释模型,取得一定成果。我们应用成人心音数据与之相比更加稳定,没有生理性第3心音的干扰,使用类似的方案或许能够获得更加有意义的结论,未来会进行进一步尝试。
在各种心脏瓣膜疾病频发的现在,早期诊断已经成为临床工作中的一个重要问题,许多患者发现临床症状时已经错过最佳治疗时间。本文构建了一种基于深度学习诊断主动脉瓣狭窄患者心音的模型,该模型能够应用输入的心音音频将患者分辨为主动脉瓣狭窄患者及非主动脉瓣狭窄患者,有助于主动脉瓣狭窄患者的早期诊断,使其获得更早的就诊时机。结果显示,该模型灵敏度为90.00%,远高于人工听诊。其同时还拥有着低成本、低专业经验需求的优点,在医疗资源欠发达地区疾病筛查上拥有广阔的应用前景,能为主动脉瓣狭窄患者的尽早发现、尽早干预提供助力。
利益冲突:无。
作者贡献:陈正大负责查阅资料,撰写论文; 付博负责论文数据整理与分析;王建宇负责数据收集;姜楠、郭志刚负责论文设计、审校及修改。