引用本文: 孙功鹏, 王晓玲, 徐立璋, 李嫦, 王雯钰, 易佐慧子, 郑红梅, 李志清, 陈长征. 应用人工智能识别超广角眼底照相多病种的初步研究. 中华眼底病杂志, 2022, 38(2): 132-138. doi: 10.3760/cma.j.cn511434-20211228-00728 复制
眼底疾病的早期发现和治疗对预防视力下降具有重要意义。近年,人工智能(AI)发展迅速,已经被广泛应用于视网膜疾病的早期筛查、诊断及疗效预测[1]。既往基于普通眼底彩色照相的多疾病分类AI算法,有望对眼底疾病早期筛查和临床决策产生较好的辅助作用[2-4]。但传统眼底彩色照相成像范围较小,视野局限。超广角眼底照相(UWFI)成像范围广,单次扫描可获取200°眼底图像,同时具有非接触、免散瞳及操作便捷等优势,目前已广泛应用于眼底疾病的筛查[5-6]。既往文献报道的UWFI成像结合AI辅助疾病诊治应用在各个单病种的识别中表现优异,特别是在周边视网膜变性、视网膜脱离(RD)、视网膜出血、糖尿病视网膜病变(DR)、青光眼视神经病变等疾病中具有较高的准确性[7-11]。AI与UWFI影像优势的结合,将可能以低成本、高性能的特点为眼底疾病的筛查带来新篇章。为此,我们设计并训练了一个基于UWFI的多疾病分类AI模型,初步探究利用深度学习算法识别正常眼底及多个常见眼底疾病的可行性。现将结果报道如下。
1 对象和方法
回顾性研究。本研究经武汉大学人民医院临床伦理委员会审批(伦理号:WDRY2021-K034),遵循《赫尔辛基宣言》原则。本研究图像资料中均不包含患者个人信息,伦理委员会对患者的知情同意进行了豁免。
2016年至2021年于武汉大学人民医院眼科就诊并行UWFI检查的1 123例患者的1 608张图像用于UWFI多疾病分类AI模型构建。其中,正常眼底、DR、视网膜静脉阻塞(RVO)、病理性近视(PM)、RD(图1)分别为371、320、330、319、268张。

图像分类流程及数据准备。由1名经训练的研究生排除成像范围小(眼底成像受眼睑及睫毛遮挡超过1/3)、存在明显屈光间质混浊以及存在激光光凝、硅油或气体填充等治疗痕迹的眼底图像;由2名具有3年以上眼底影像经验的主治医生分别对图像进行分类,分类相同的图像纳入数据集。存在不同分类意见的图像由1名25年以上工作经验的高年资医师进行裁定。纳入疾病诊断标准:DR:UWFI上可见微动脉瘤、点状出血、硬性渗出、棉绒斑,包括伴有视盘及视网膜新生血管、纤维增生、视网膜前出血和玻璃体积血等一种或多种DR眼底改变,或超广角荧光素眼底血管造影(UWFA)观察到眼底存在明显微动脉瘤、无灌注区,包括伴有新生血管强荧光及荧光素渗漏、出血遮蔽荧光等一种或多种DR眼底改变。RVO:UWFI上可见火焰状出血、静脉纡曲扩张、棉绒斑、伴或不伴视盘水肿。PM:基于META-PM分类系统[12]。RD:视网膜呈绿色隆起,伴或不伴视网膜裂孔。
每例患者每只眼仅纳入1张图像,存在多个病种的图像被同时置于多个病种文件夹中。为保证各类数据量平衡以拟合神经网络,各类疾病图像数量基本一致。1 608张图像按照9∶1∶1划分为训练集、验证集和内部测试集,同时确保任意一张图像不会同时用于训练和验证(表1)。选取来自天津医科大学眼科医院106例患者的135张图像作为外部测试集。

网络构成及优化。选取EfficientNet-B7作为主干网络,对纳入的UWFI图像进行分类分析。此模型为Google在2019年提出的基于卷积神经网络的高精度图像分类深度学习模型[13]。为获得更好的模型表现,对每一个MBConv模块中添加1个压缩和激励网络模块[14],使模型更加专注。同时模型训练中加入L2正则化方法,有效避免过拟合。训练中使用CrossEntropyLoss作为损失函数,设定Adam优化器,初始学习率为3e-4,L2正则项设为0.002。
模型训练。原始UWFI图像大小为3900×3072像素,为非正方形。所有输入图像先进行预处理,使得模型输入大小为224×224像素。开始训练前对训练集和验证集进行数据增强,包括镜像翻转、添加随机噪声、随机区块、随机对比度增强的方法。与原始数据集比较,训练集和验证集大小增加了4倍,得到训练集5 248张图像,验证集592张图像(图2)。

模型评估。使用受试者工作特征(ROC)曲线、ROC曲线下面积(AUC)、灵敏度、特异性、准确率评估分类模型在测试集上的表现,所有数据均使用数值及95%可信区间(CI)表达。此外,将数据集在ResNet50和ResNet101模型上进行训练,对比观察EfficientNet与上述两种模型的性能。所有统计分析均由python 3.7.11完成。
2 结果
经过训练,UWFI多疾病分类AI模型在内部、外部测试集上的总分类准确率分别为92.57%(95%CI 91.13%~92.92%)、88.89%(95%CI 88.11%~90.02%)。其中,正常眼底分别为96.62%、92.59 %,DR分别为95.95%、95.56 %,RVO分别为96.62%、98.52%,PM分别为98.65%、97.04%,RD分别为97.30%、94.07%(表2)。

ROC曲线分析结果显示,UWFI多疾病分类AI模型内部、外部测试集的平均AUC分别为0.993、0.983。其中,正常眼底分别为0.994、0.939,DR分别为0.999、0.995,RVO分别为0.985、1.000,PM分别为0.991、0.993,RD分别为0.995、0.990(表3,图3)。


本数据集在网络模型ResNet50、ResNet101上的训练结果显示,内部测试集总准确率分别为75.00%(95%CI 73.50%~77.26%)、90.54%(95%CI 89.76%~91.14%);外部测试集总准确率分别为51.11%(95%CI 46.37%~54.99%)、65.19%(95%CI 62.31%~66.99%)。ROC曲线分析结果显示,内部、外部测试集ResNet50的平均AUC分别为0.912、0.766;ResNet101的平均AUC分别为0.988、0.915(表4,图4)。网络模型EfficientNet的性能(内部、外部测试集平均AUC分别为0.993、0.983)较ResNet50、ResNet101更高。


3 讨论
本研究初步探讨了AI对UWFI多病种分类任务的能力,结果显示,UWFI多疾病分类AI模型在内部、外部测试集上对正常眼底、DR、RVO、PM、RD识别的AUC分别达到了0.994、0.939,0.999、0.995,0.985、1.000,0.991、0.993,0.995、0.990。该模型基于较小样本量,仍然对纳入的常见眼底疾病实现了较高的识别准确性,将有可能辅助应用于眼科相关学科、基层医院或体检中心,客观快速地实现对眼底疾病的早期筛查与转诊。
早期研究多对常见眼底疾病构建单病种识别模型[15-18]。然而眼底疾病种类繁多,单病种识别如DR等常局限于相关科室如内分泌科,难以应用于实际临床工作中。近年国内多个团队在彩色眼底像多分类任务模型上取得卓越成果[2-4]。Li等[2]设计了一个依据普通彩色眼底像辅助12种主要眼底疾病诊断的AI模型,具有巨大的真实世界应用前景。Cen等[3]扩大AI分类类别至39种眼底病变,适用于更广的眼科临床环境;中山大学中山眼科中心团队设计的AI模型CARE系统在国家级真实研究中表现良好[4]。这些AI平台应用到真实世界环境将极大提升眼底疾病的早期筛查和诊治。
传统眼底彩色照相成像范围较为局限,UWFI具有免散瞳、成像广、快捷等优点,使眼底疾病的筛查更加全面便捷[5]。日本学者利用卷积神经网络将多个单病种以较高的精度与正常眼分类[16-21]。然而这一模式难以转化,仅能证明深度学习在识别单病种上的可行性,临床应用价值不高。中山大学中山眼科中心团队则利用高质量数据将AI专注于眼底病灶的识别、分类及定位,在视网膜周边变性及裂孔、RD及视网膜出血等病灶的识别上均达到高水平[7-9],充分发挥UWFI成像视野广的优势。
目前基于UWFI的眼底多病种AI模型依然较少[22]。本研究基于图像分类模型,较ResNet50、ResNet101具有显著优势。ResNet50网络结构简单,参数较少检测速度较快,但精度和泛化能力相较EfficientNet差;ResNet101较ResNet50网络深度和参数总量均大幅度提升,在检测精度上有较大改观。EfficientNet具有低参数、高精度、训练策略灵活的特点。该模型辅助我们在较小的样本量下即实现了更高的准确性。未来我们将继续扩大样本量及病种类别,希望构建一个更多病种的UWFI AI诊断模型。
本研究的不足:(1)本研究目前纳入病种较少,未能覆盖其他更多常见眼底疾病,未来需进一步增加病种数量;(2)由于病种较少且较为典型,未对比AI模型与眼科临床医师的水平;(3)除部分DR、RVO及正常眼底的诊断同时依据彩色眼底像及UWFA外,多数诊断仅依赖于眼底彩色照相进行经验诊断。
眼底疾病的早期发现和治疗对预防视力下降具有重要意义。近年,人工智能(AI)发展迅速,已经被广泛应用于视网膜疾病的早期筛查、诊断及疗效预测[1]。既往基于普通眼底彩色照相的多疾病分类AI算法,有望对眼底疾病早期筛查和临床决策产生较好的辅助作用[2-4]。但传统眼底彩色照相成像范围较小,视野局限。超广角眼底照相(UWFI)成像范围广,单次扫描可获取200°眼底图像,同时具有非接触、免散瞳及操作便捷等优势,目前已广泛应用于眼底疾病的筛查[5-6]。既往文献报道的UWFI成像结合AI辅助疾病诊治应用在各个单病种的识别中表现优异,特别是在周边视网膜变性、视网膜脱离(RD)、视网膜出血、糖尿病视网膜病变(DR)、青光眼视神经病变等疾病中具有较高的准确性[7-11]。AI与UWFI影像优势的结合,将可能以低成本、高性能的特点为眼底疾病的筛查带来新篇章。为此,我们设计并训练了一个基于UWFI的多疾病分类AI模型,初步探究利用深度学习算法识别正常眼底及多个常见眼底疾病的可行性。现将结果报道如下。
1 对象和方法
回顾性研究。本研究经武汉大学人民医院临床伦理委员会审批(伦理号:WDRY2021-K034),遵循《赫尔辛基宣言》原则。本研究图像资料中均不包含患者个人信息,伦理委员会对患者的知情同意进行了豁免。
2016年至2021年于武汉大学人民医院眼科就诊并行UWFI检查的1 123例患者的1 608张图像用于UWFI多疾病分类AI模型构建。其中,正常眼底、DR、视网膜静脉阻塞(RVO)、病理性近视(PM)、RD(图1)分别为371、320、330、319、268张。

图像分类流程及数据准备。由1名经训练的研究生排除成像范围小(眼底成像受眼睑及睫毛遮挡超过1/3)、存在明显屈光间质混浊以及存在激光光凝、硅油或气体填充等治疗痕迹的眼底图像;由2名具有3年以上眼底影像经验的主治医生分别对图像进行分类,分类相同的图像纳入数据集。存在不同分类意见的图像由1名25年以上工作经验的高年资医师进行裁定。纳入疾病诊断标准:DR:UWFI上可见微动脉瘤、点状出血、硬性渗出、棉绒斑,包括伴有视盘及视网膜新生血管、纤维增生、视网膜前出血和玻璃体积血等一种或多种DR眼底改变,或超广角荧光素眼底血管造影(UWFA)观察到眼底存在明显微动脉瘤、无灌注区,包括伴有新生血管强荧光及荧光素渗漏、出血遮蔽荧光等一种或多种DR眼底改变。RVO:UWFI上可见火焰状出血、静脉纡曲扩张、棉绒斑、伴或不伴视盘水肿。PM:基于META-PM分类系统[12]。RD:视网膜呈绿色隆起,伴或不伴视网膜裂孔。
每例患者每只眼仅纳入1张图像,存在多个病种的图像被同时置于多个病种文件夹中。为保证各类数据量平衡以拟合神经网络,各类疾病图像数量基本一致。1 608张图像按照9∶1∶1划分为训练集、验证集和内部测试集,同时确保任意一张图像不会同时用于训练和验证(表1)。选取来自天津医科大学眼科医院106例患者的135张图像作为外部测试集。

网络构成及优化。选取EfficientNet-B7作为主干网络,对纳入的UWFI图像进行分类分析。此模型为Google在2019年提出的基于卷积神经网络的高精度图像分类深度学习模型[13]。为获得更好的模型表现,对每一个MBConv模块中添加1个压缩和激励网络模块[14],使模型更加专注。同时模型训练中加入L2正则化方法,有效避免过拟合。训练中使用CrossEntropyLoss作为损失函数,设定Adam优化器,初始学习率为3e-4,L2正则项设为0.002。
模型训练。原始UWFI图像大小为3900×3072像素,为非正方形。所有输入图像先进行预处理,使得模型输入大小为224×224像素。开始训练前对训练集和验证集进行数据增强,包括镜像翻转、添加随机噪声、随机区块、随机对比度增强的方法。与原始数据集比较,训练集和验证集大小增加了4倍,得到训练集5 248张图像,验证集592张图像(图2)。

模型评估。使用受试者工作特征(ROC)曲线、ROC曲线下面积(AUC)、灵敏度、特异性、准确率评估分类模型在测试集上的表现,所有数据均使用数值及95%可信区间(CI)表达。此外,将数据集在ResNet50和ResNet101模型上进行训练,对比观察EfficientNet与上述两种模型的性能。所有统计分析均由python 3.7.11完成。
2 结果
经过训练,UWFI多疾病分类AI模型在内部、外部测试集上的总分类准确率分别为92.57%(95%CI 91.13%~92.92%)、88.89%(95%CI 88.11%~90.02%)。其中,正常眼底分别为96.62%、92.59 %,DR分别为95.95%、95.56 %,RVO分别为96.62%、98.52%,PM分别为98.65%、97.04%,RD分别为97.30%、94.07%(表2)。

ROC曲线分析结果显示,UWFI多疾病分类AI模型内部、外部测试集的平均AUC分别为0.993、0.983。其中,正常眼底分别为0.994、0.939,DR分别为0.999、0.995,RVO分别为0.985、1.000,PM分别为0.991、0.993,RD分别为0.995、0.990(表3,图3)。


本数据集在网络模型ResNet50、ResNet101上的训练结果显示,内部测试集总准确率分别为75.00%(95%CI 73.50%~77.26%)、90.54%(95%CI 89.76%~91.14%);外部测试集总准确率分别为51.11%(95%CI 46.37%~54.99%)、65.19%(95%CI 62.31%~66.99%)。ROC曲线分析结果显示,内部、外部测试集ResNet50的平均AUC分别为0.912、0.766;ResNet101的平均AUC分别为0.988、0.915(表4,图4)。网络模型EfficientNet的性能(内部、外部测试集平均AUC分别为0.993、0.983)较ResNet50、ResNet101更高。


3 讨论
本研究初步探讨了AI对UWFI多病种分类任务的能力,结果显示,UWFI多疾病分类AI模型在内部、外部测试集上对正常眼底、DR、RVO、PM、RD识别的AUC分别达到了0.994、0.939,0.999、0.995,0.985、1.000,0.991、0.993,0.995、0.990。该模型基于较小样本量,仍然对纳入的常见眼底疾病实现了较高的识别准确性,将有可能辅助应用于眼科相关学科、基层医院或体检中心,客观快速地实现对眼底疾病的早期筛查与转诊。
早期研究多对常见眼底疾病构建单病种识别模型[15-18]。然而眼底疾病种类繁多,单病种识别如DR等常局限于相关科室如内分泌科,难以应用于实际临床工作中。近年国内多个团队在彩色眼底像多分类任务模型上取得卓越成果[2-4]。Li等[2]设计了一个依据普通彩色眼底像辅助12种主要眼底疾病诊断的AI模型,具有巨大的真实世界应用前景。Cen等[3]扩大AI分类类别至39种眼底病变,适用于更广的眼科临床环境;中山大学中山眼科中心团队设计的AI模型CARE系统在国家级真实研究中表现良好[4]。这些AI平台应用到真实世界环境将极大提升眼底疾病的早期筛查和诊治。
传统眼底彩色照相成像范围较为局限,UWFI具有免散瞳、成像广、快捷等优点,使眼底疾病的筛查更加全面便捷[5]。日本学者利用卷积神经网络将多个单病种以较高的精度与正常眼分类[16-21]。然而这一模式难以转化,仅能证明深度学习在识别单病种上的可行性,临床应用价值不高。中山大学中山眼科中心团队则利用高质量数据将AI专注于眼底病灶的识别、分类及定位,在视网膜周边变性及裂孔、RD及视网膜出血等病灶的识别上均达到高水平[7-9],充分发挥UWFI成像视野广的优势。
目前基于UWFI的眼底多病种AI模型依然较少[22]。本研究基于图像分类模型,较ResNet50、ResNet101具有显著优势。ResNet50网络结构简单,参数较少检测速度较快,但精度和泛化能力相较EfficientNet差;ResNet101较ResNet50网络深度和参数总量均大幅度提升,在检测精度上有较大改观。EfficientNet具有低参数、高精度、训练策略灵活的特点。该模型辅助我们在较小的样本量下即实现了更高的准确性。未来我们将继续扩大样本量及病种类别,希望构建一个更多病种的UWFI AI诊断模型。
本研究的不足:(1)本研究目前纳入病种较少,未能覆盖其他更多常见眼底疾病,未来需进一步增加病种数量;(2)由于病种较少且较为典型,未对比AI模型与眼科临床医师的水平;(3)除部分DR、RVO及正常眼底的诊断同时依据彩色眼底像及UWFA外,多数诊断仅依赖于眼底彩色照相进行经验诊断。