引用本文: 曹燚, 曾茜, 赵信飞, 彭敏. 卒中相关性肺炎风险预测模型的系统评价. 中国循证医学杂志, 2023, 23(11): 1259-1268. doi: 10.7507/1672-2531.202303014 复制
风险预测模型是以患者疾病危险因素为基础,建立预测模型,以达到预测疾病发展、治疗反应及预后效果的目的,最早在心胸外科应用[1-2]。卒中相关性肺炎(stroke-associated pneumonia,SAP),是指非机械通气患者在发病7天内新出现的肺炎[3],由德国学者Hilker于2003年首次提出[4]。SAP是卒中后常见感染性并发症,其发病率在6.5%~31.3%,可导致患者出院时结局功能恶化,甚至致残及死亡;长时间住院亦会增加医疗费用、人力资源和社会负担[5-10]。通过SAP风险预测模型的结果,医务人员可早识别SAP高危人群及未诊断患者,采取个体化、针对性治疗措施及干预,降低或延缓SAP的发生,从而改善卒中患者预后及生存质量。多年来,国内外研究者依据生命体征、流行病学、实验室影像学检查等因素,构建不同卒中患者SAP风险预测模型,但各种预测模型结果不一。因此,本研究对国内外SAP风险预测模型进行系统评价,旨在概述现有可用于预测SAP风险的预测模型,综合说明、比较模型性能。为医务人员、指南制订者等相关人员的模型选择提供建议,并为相关模型构建提供参考依据。本研究已在PROSPERO注册,注册号为CRD42023399835。
1 资料与方法
1.1 纳入与排除标准
1.1.1 纳入标准
① 研究对象为年龄≥18周岁的卒中患者;② 研究内容为卒中患者SAP风险预测模型的构建研究;③ 研究类型包括队列研究、病例-对照研究、横断面研究;④ 介绍了建模的过程及采用的统计学方法;⑤ 具体说明SAP的诊断标准;⑥ 中、英文研究。
1.1.2 排除标准
① 仅分析SAP的危险因素,未构建模型;② 基于系统评价/Meta分析、基于虚拟数据构建模型;③ 模型的预测因素≤2个;④ 无法获取全文、信息不全或无法提取的文献;⑤ 重复发表的文献。
1.2 文献检索策略
计算机检索CNKI、WanFang Data、CBM、PubMed、Web of Science、Embase、MEDLINE和Cochrane Library数据库,搜集SAP风险预测模型的相关研究,检索时限均为建库至2023年2月15日。此外,追溯纳入文献的参考文献,以补充获取相关文献。检索采取主题词和自由词相结合的方式。中文检索词包括:卒中、中风、脑梗、脑出血、蛛网膜下腔出血、脑血管病、脑血栓、脑血管意外、脑血管事件、脑缺血、卒中相关性肺炎、风险预测模型、预测因子、风险评分、风险评估、临床预测模型、列线图等;英文检索词包括:stroke、cerebrovascular accident、cerebrovascular apoplexy、brain vascular accident、cerebrovascular stroke、apoplexy、hemorrhagic stroke、subarachnoid hemorrhagic、intracerebral hemorrhagic、intracerebral hemorrhage、intracerebral ventricular hemorrhage、healthcare-associated pneumonia、nosocomial pneumonia、acquired pneumonia、stroke-associated pneumonia、risk assessment、risk score、risk model、risk prediction、scoring system、nomogram、prediction model、risk calculation、models, statistical等。
1.3 文献筛选与资料提取
由2位研究者独立筛选文献、提取资料并交叉核对,如遇分歧,则咨询第三方协助判断,缺乏的资料尽量与作者联系予以补充。文献筛选时首先阅读文题和摘要,在排除明显不相关的文献后,进一步阅读全文,以确定最终是否纳入。基于预测模型研究系统评价的关键评估和数据提取(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)制订数据提取表格[11],资料提取内容主要包括:第一作者、发表年份、国家、研究类型、SAP诊断标准、SAP发生率、研究来源、数据来源、候选预测因子、模型类型、样本量、预测因子筛选方法、最终预测因子、缺失数据、建模方法、模型呈现形式、模型性能、验模方法、验证方法等。
1.4 纳入研究的偏倚风险和适用性评估
2名研究员根据PROBAST对模型进行偏倚风险和适用性评价并交叉核对[12-13],如有分歧,寻求第三方协助直至统一。偏倚风险判断包括研究对象、预测因子、结果及统计分析共20个问题,每个问题通过“是/可能是(Y/PY)”、“不是/可能不是(N/PN)”、“没有信息(NI)”来回答;而适用性评价包括研究对象、预测因子、结果3个方面。最后根据以上步骤,使用PROBAST的等级评定标准,对预测模型的整体偏倚风险及适用性进行判断,分为低风险、高风险、不清楚。
1.5 统计分析
对纳入研究、预测模型的基本特征、构建、性能及验证进行定性分析。
2 结果
2.1 文献筛选流程及结果
初检出相关文献1 887篇,包括CNKI(n=24)、WanFang Data(n=121)、CBM(n=28)、PubMed(n=114)、Web of Science(n=1 155)、Embase(n=265)、MEDLINE(n=124)和Cochrane Library(n=56),经逐层筛选后,最终纳入18篇文献[6-10,14-25]。
2.2 纳入研究的基本特征和偏倚风险与适用性评价结果


2.3 SAP风险预测模型的结果
2.3.1 SAP风险预测模型构建的基本特征
研究总样本量在173~83 063例之间,建模样本量在173~70 540例之间,验模样本量在112~45 085例之间。候选预测因子多使用单因素、多因素分析来进行筛选,但有3个研究[5,9,22]另外加入文献回顾及临床经验的方法,1个研究[19]使用反向时间注意力模型(reverse time attention model,RETAIN),1个研究[7]使用XGboost提供的排列机制计算,1个研究[20]采用LASSO回归分析,得到最终预测因子数量:4~25个之间。Logistic回归构建SAP预测模型占72.2%,且有8个研究[5-7,15-17,24-25]形成了评分系统,4个研究[10,18,22-23]通过Logistic回归建立列线图(表3)。

2.3.2 SAP风险预测模型的性能及验证
在18个研究中,有2个研究[9,21]包含多个模型,1个研究[16]包含2个模型,共计27个模型。模型验证方面,有2个研究[24-25]仅模型建立,11个研究[5-6,8,16-23]为模型建立及内部验证,2个研究[10,14]进行了建模及外部验证,3个研究[7,9,15]采用建模及内外部验证的方式进行评价。在27个SAP风险预测模型中,有4个研究[5,17,22-23]使用C-index、15个研究[6-10,14-16,18-23,25]使用AUC来验证模型区分度,其建模AUC值在0.740~0.96之间,且有12个研究[5-7,9-10,14-19,21]报告了验模AUC值,在0.692~0.946之间。有2个研究[9,18]采用决策曲线分析(decision curve analysis,DCA)判断模型诊断的准确性。5个研究[19-21,24-25]未报告模型校准方法,10个研究[5-7,10,14-16,18,22-23]报告了校准图,2个研究[15-16]采用Hosmer-Lemeshow检验,1个研究[8]采用似然比检验(表4)。

3 讨论
本研究检索国内外SAP风险预测模型相关文献,依据CHARMS提取SAP风险预测模型的关键特征[26],包括研究人群、研究类型、模型基本特征、模型性能,模型验证等。并根据PROBAST对所得文献进行偏倚风险和适用性评价[12-13],最终纳入18项研究及27个模型。模型呈现方式包括危险评分表、GRU模型、列线图等。其中,26个模型的AUC>0.7占96.3%,19个模型的AUC>0.8占70.4%,平均AUC为0.827,内部验证AUC均值为0.803。72.2%的研究使用多因素Logistic回归构建模型,平均AUC为0.827。4项研究[9,19-21]采用机器学习(machine learning,ML)算法建立12个模型,AUC均值为0.831。说明基于广泛应用的多因素Logistic回归及作为新方法的ML预测模型整体预测性能较好,有一定的区分能力。
由于研究类型、研究对象、SAP诊断标准存在差异,最终纳入的预测因子存在差异。但同时也有着相似之处。初始候选预测因子数量超过300个,经过筛选后进入模型的最终预测因子数量在4~25个之间。包括人口学特征、神经系统体格检查、实验室检查指标、影像学检查指标、慢性疾病史五大类。其中,年龄、NIHSS评分、吞咽困难、mRS评分、意识障碍(GCS评分)为最常见的预测因子。由于脑卒中能引起中枢功能受损,患者出现意识障碍、咳嗽反射受损、咽喉感觉及呼吸功能下降,部分患者可因病情需要给予有创治疗,如气管切开、气管插管等,导致呼吸道黏膜受损或呼吸系统直接暴露在外,气道分泌物难以排出,大大增加SAP发生风险[27-29]。多项研究[22-23,29]显示,与非SAP患者相比,伴有SAP患者的年龄较大、NIHSS及mRS评分较高、易发生吞咽困难和意识障碍,且GCS评分较低。同样,张锐等[30]研究表明,患者神经功能缺损越严重,GCS评分越低,越易存在吞咽障碍,可使口咽分泌物或食物吸入肺部,进一步导致SAP的发生。另有研究[31]表明,脑部损伤激活交感神经系统引起的免疫抑制,在保护脑组织的同时,也削弱了人体对病原体的抵抗力,导致感染。且卒中患者年龄越大,其机体免疫功能、抵抗力越差,更易发生肺部感染[32-33]。因此,临床医务工作者了解SAP的预测因素是识别高危患者和采取预防措施的关键前提。
18项研究中没有低偏倚风险的研究。6项研究[6,10,14,21,24-25]未报告连续和分类自变量的处理,对连续变量未转化成≥2个类别的变量或分类变量应采用标准定义[12,26]。在缺失数据处理方面,Smith等[5]研究无缺失数据,Yan等[7]对缺失数据进行了填充,4项研究[14,19-20,25]对缺失数据进行了删除,剩余12项研究[6,8-10,15-16,18,21-24]未报告缺失数据信息。研究者直接删除缺失数据可能会对模型结果产生影响,而填充数据可采用多重插补法[13,34],以保持数据的完整性。同时,一个好的风险预测模型,不仅要有好的区分度,还需有良好的校准度。在纳入的研究中,Kwon等[24]仅构建模型生成评分系统,未报告模型区分度及校准度的信息。而Ge等[19]、Li等[20]、王孟等[21]及Wang等[25]研究未报告校准度评估,仅报告区分度,其模型可能产生一致性偏倚风险。故在建模前正确处理数据缺失问题并在建模后评估区分度和校准度,有助于比较已开发的风险预测模型,并进行临床转化。另外,过度拟合和欠拟合的发生,都有降低模型预测性能的可能。本研究中,仅2个研究[9,20]报告了模型过度拟合情况。而使用正确方法,包括交叉验证、正则化法、决策树剪枝法等,可对模型性能的后续调整进行评估。故在以后的研究中,可根据CHARMS和PROBAST中内容来设计相关研究方法[11-13],构建低偏倚风险、高质量预测模型,并在临床实践中应用,验证其适用性和安全性。
值得注意的是,大多数模型的外部研究却很少,仅有27.7%的研究得到了外部验证[7,9,10,14-15]。外部验证模型中,Sarah等[14]的A2DS2评分系统包含5个预测条目:年龄、房颤、吞咽困难、性别、NIHSS评分,针对缺血性卒中患者,其数据在临床实践中易于获得。Ji等[15]的AIS-APS评分系统包含11个预测条目,针对AIS患者,其众多条目不利于急诊医护人员快速使用及评定。Yan等[7]的ICH-LR2S2评分系统针对ICH患者,包含9个预测条目,并指出空腹血糖水平在预测SAP中发挥着重要作用。暂时性高血糖可能存在应激性高血糖,而不是糖尿病。且糖尿病史不代表血糖水平异常。Zheng等[9]的ML预测模型包含6个预测条目,针对sICH患者,ML应用程序具有更智能、更准确、更方便的特点。Zhang等[10]的列线图预测模型包含4个预测条目,通过AIS的5个亚型中最大子类型LAA型来分析,其预测精度较高并可为预防SAP的构建及应用提供新思路。目前,临床医务人员对在特定环境或人群中使用或提倡哪种SAP风险预测模型可能存在疑惑。故未来可增强不同卒中类型患者SAP的危险因素研究,构建脑卒中专科、具有较好预测性能的SAP预测模型,并通过模型外部验证及应用不断改进,充分与临床实践相结合。
Zheng等[9]的机器模型推导,采用Logistic回归、高斯朴素贝叶斯(Gaussian naive Bayes,GNB)、K近邻算法(K-nearest neighbor,KNN)、支持向量机(support vector machine,SVM)、随机森林法(random forest,RF)、XGBoost、集成软投票模型(ensemble soft voting model,ESVM)构建7个模型,AUC均值为0.826。采用DCA对模型诊断准确性进行判断,并用网格搜索算法对模型进行校准和内外部的交叉验证后。其GNB的预测效率最高(AUC:0.861),RF的特异性最高(94.4%),XGB最敏感(69.2%),ESVM预测的准确率最高(83.7%)。而在多次内外验证后ESVM有较好的稳定性,故ESVM更适用于与临床实践相结合。同样,王孟等[21]采用Logistic回归、CatBoost、XGBoost、LightGBM四种ML方法构建4个模型,其平均AUC为0.80。建模时XGBoost的预测性能最好(AUC:0.844),而验模时Logistic回归的预测性能最好(AUC:0.776);LightGBM模型灵敏度较高(73.61%),CatBoost模型特异度较高(85.06%)。但该研究未进行外部验证,故需要在外部人群中进行验证,以确保模型的准确性。而Li等[20]采用正则化法,决策树剪枝法检验过度拟合情况和半折交叉的内部验证后,最终选择XGBoost模型。与传统模型相比,传统模型注重提升整体准确率,而XGBoost模型能够考虑到样本的不平衡性和错误分类,为卒中后管理提供合理依据,有利于降低治疗成本。Ge等[19]基于深度学习的ML,采用神经网络GRU算法构建模型,AUC值最高。但其最终预测因子达到25个,不利于临床医务人员应用。与经典ML方法相比,基于深度学习GRU构建的模型能达到最优性能。ML能够通过对大量数据进行深挖与分析,故ML能对精准预测提供新的学习方法和研究思路,以期为临床实践开发一种实用的自动化工具[9,21]。
本研究的局限性:① 仅纳入中、英文文献,可能存在发表偏倚;② 由于研究对象的纳入与排除标准存在异质性,故未作定量分析;③ 大部分SAP模型缺乏外部验证。
综上所述,SAP风险预测模型的整体预测性能较好,但因研究类型、研究对象、SAP诊断标准存在差异,无法直接比较它们的预测性能。且有72.3%的模型没有经过外部验证,77.8%的研究存在较高偏倚风险。故未来建模可深入研究ML,依据CHARMS和PROBAST减少偏倚风险,并通过模型验证及应用不断改进,进一步提高其临床应用价值。
风险预测模型是以患者疾病危险因素为基础,建立预测模型,以达到预测疾病发展、治疗反应及预后效果的目的,最早在心胸外科应用[1-2]。卒中相关性肺炎(stroke-associated pneumonia,SAP),是指非机械通气患者在发病7天内新出现的肺炎[3],由德国学者Hilker于2003年首次提出[4]。SAP是卒中后常见感染性并发症,其发病率在6.5%~31.3%,可导致患者出院时结局功能恶化,甚至致残及死亡;长时间住院亦会增加医疗费用、人力资源和社会负担[5-10]。通过SAP风险预测模型的结果,医务人员可早识别SAP高危人群及未诊断患者,采取个体化、针对性治疗措施及干预,降低或延缓SAP的发生,从而改善卒中患者预后及生存质量。多年来,国内外研究者依据生命体征、流行病学、实验室影像学检查等因素,构建不同卒中患者SAP风险预测模型,但各种预测模型结果不一。因此,本研究对国内外SAP风险预测模型进行系统评价,旨在概述现有可用于预测SAP风险的预测模型,综合说明、比较模型性能。为医务人员、指南制订者等相关人员的模型选择提供建议,并为相关模型构建提供参考依据。本研究已在PROSPERO注册,注册号为CRD42023399835。
1 资料与方法
1.1 纳入与排除标准
1.1.1 纳入标准
① 研究对象为年龄≥18周岁的卒中患者;② 研究内容为卒中患者SAP风险预测模型的构建研究;③ 研究类型包括队列研究、病例-对照研究、横断面研究;④ 介绍了建模的过程及采用的统计学方法;⑤ 具体说明SAP的诊断标准;⑥ 中、英文研究。
1.1.2 排除标准
① 仅分析SAP的危险因素,未构建模型;② 基于系统评价/Meta分析、基于虚拟数据构建模型;③ 模型的预测因素≤2个;④ 无法获取全文、信息不全或无法提取的文献;⑤ 重复发表的文献。
1.2 文献检索策略
计算机检索CNKI、WanFang Data、CBM、PubMed、Web of Science、Embase、MEDLINE和Cochrane Library数据库,搜集SAP风险预测模型的相关研究,检索时限均为建库至2023年2月15日。此外,追溯纳入文献的参考文献,以补充获取相关文献。检索采取主题词和自由词相结合的方式。中文检索词包括:卒中、中风、脑梗、脑出血、蛛网膜下腔出血、脑血管病、脑血栓、脑血管意外、脑血管事件、脑缺血、卒中相关性肺炎、风险预测模型、预测因子、风险评分、风险评估、临床预测模型、列线图等;英文检索词包括:stroke、cerebrovascular accident、cerebrovascular apoplexy、brain vascular accident、cerebrovascular stroke、apoplexy、hemorrhagic stroke、subarachnoid hemorrhagic、intracerebral hemorrhagic、intracerebral hemorrhage、intracerebral ventricular hemorrhage、healthcare-associated pneumonia、nosocomial pneumonia、acquired pneumonia、stroke-associated pneumonia、risk assessment、risk score、risk model、risk prediction、scoring system、nomogram、prediction model、risk calculation、models, statistical等。
1.3 文献筛选与资料提取
由2位研究者独立筛选文献、提取资料并交叉核对,如遇分歧,则咨询第三方协助判断,缺乏的资料尽量与作者联系予以补充。文献筛选时首先阅读文题和摘要,在排除明显不相关的文献后,进一步阅读全文,以确定最终是否纳入。基于预测模型研究系统评价的关键评估和数据提取(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)制订数据提取表格[11],资料提取内容主要包括:第一作者、发表年份、国家、研究类型、SAP诊断标准、SAP发生率、研究来源、数据来源、候选预测因子、模型类型、样本量、预测因子筛选方法、最终预测因子、缺失数据、建模方法、模型呈现形式、模型性能、验模方法、验证方法等。
1.4 纳入研究的偏倚风险和适用性评估
2名研究员根据PROBAST对模型进行偏倚风险和适用性评价并交叉核对[12-13],如有分歧,寻求第三方协助直至统一。偏倚风险判断包括研究对象、预测因子、结果及统计分析共20个问题,每个问题通过“是/可能是(Y/PY)”、“不是/可能不是(N/PN)”、“没有信息(NI)”来回答;而适用性评价包括研究对象、预测因子、结果3个方面。最后根据以上步骤,使用PROBAST的等级评定标准,对预测模型的整体偏倚风险及适用性进行判断,分为低风险、高风险、不清楚。
1.5 统计分析
对纳入研究、预测模型的基本特征、构建、性能及验证进行定性分析。
2 结果
2.1 文献筛选流程及结果
初检出相关文献1 887篇,包括CNKI(n=24)、WanFang Data(n=121)、CBM(n=28)、PubMed(n=114)、Web of Science(n=1 155)、Embase(n=265)、MEDLINE(n=124)和Cochrane Library(n=56),经逐层筛选后,最终纳入18篇文献[6-10,14-25]。
2.2 纳入研究的基本特征和偏倚风险与适用性评价结果


2.3 SAP风险预测模型的结果
2.3.1 SAP风险预测模型构建的基本特征
研究总样本量在173~83 063例之间,建模样本量在173~70 540例之间,验模样本量在112~45 085例之间。候选预测因子多使用单因素、多因素分析来进行筛选,但有3个研究[5,9,22]另外加入文献回顾及临床经验的方法,1个研究[19]使用反向时间注意力模型(reverse time attention model,RETAIN),1个研究[7]使用XGboost提供的排列机制计算,1个研究[20]采用LASSO回归分析,得到最终预测因子数量:4~25个之间。Logistic回归构建SAP预测模型占72.2%,且有8个研究[5-7,15-17,24-25]形成了评分系统,4个研究[10,18,22-23]通过Logistic回归建立列线图(表3)。

2.3.2 SAP风险预测模型的性能及验证
在18个研究中,有2个研究[9,21]包含多个模型,1个研究[16]包含2个模型,共计27个模型。模型验证方面,有2个研究[24-25]仅模型建立,11个研究[5-6,8,16-23]为模型建立及内部验证,2个研究[10,14]进行了建模及外部验证,3个研究[7,9,15]采用建模及内外部验证的方式进行评价。在27个SAP风险预测模型中,有4个研究[5,17,22-23]使用C-index、15个研究[6-10,14-16,18-23,25]使用AUC来验证模型区分度,其建模AUC值在0.740~0.96之间,且有12个研究[5-7,9-10,14-19,21]报告了验模AUC值,在0.692~0.946之间。有2个研究[9,18]采用决策曲线分析(decision curve analysis,DCA)判断模型诊断的准确性。5个研究[19-21,24-25]未报告模型校准方法,10个研究[5-7,10,14-16,18,22-23]报告了校准图,2个研究[15-16]采用Hosmer-Lemeshow检验,1个研究[8]采用似然比检验(表4)。

3 讨论
本研究检索国内外SAP风险预测模型相关文献,依据CHARMS提取SAP风险预测模型的关键特征[26],包括研究人群、研究类型、模型基本特征、模型性能,模型验证等。并根据PROBAST对所得文献进行偏倚风险和适用性评价[12-13],最终纳入18项研究及27个模型。模型呈现方式包括危险评分表、GRU模型、列线图等。其中,26个模型的AUC>0.7占96.3%,19个模型的AUC>0.8占70.4%,平均AUC为0.827,内部验证AUC均值为0.803。72.2%的研究使用多因素Logistic回归构建模型,平均AUC为0.827。4项研究[9,19-21]采用机器学习(machine learning,ML)算法建立12个模型,AUC均值为0.831。说明基于广泛应用的多因素Logistic回归及作为新方法的ML预测模型整体预测性能较好,有一定的区分能力。
由于研究类型、研究对象、SAP诊断标准存在差异,最终纳入的预测因子存在差异。但同时也有着相似之处。初始候选预测因子数量超过300个,经过筛选后进入模型的最终预测因子数量在4~25个之间。包括人口学特征、神经系统体格检查、实验室检查指标、影像学检查指标、慢性疾病史五大类。其中,年龄、NIHSS评分、吞咽困难、mRS评分、意识障碍(GCS评分)为最常见的预测因子。由于脑卒中能引起中枢功能受损,患者出现意识障碍、咳嗽反射受损、咽喉感觉及呼吸功能下降,部分患者可因病情需要给予有创治疗,如气管切开、气管插管等,导致呼吸道黏膜受损或呼吸系统直接暴露在外,气道分泌物难以排出,大大增加SAP发生风险[27-29]。多项研究[22-23,29]显示,与非SAP患者相比,伴有SAP患者的年龄较大、NIHSS及mRS评分较高、易发生吞咽困难和意识障碍,且GCS评分较低。同样,张锐等[30]研究表明,患者神经功能缺损越严重,GCS评分越低,越易存在吞咽障碍,可使口咽分泌物或食物吸入肺部,进一步导致SAP的发生。另有研究[31]表明,脑部损伤激活交感神经系统引起的免疫抑制,在保护脑组织的同时,也削弱了人体对病原体的抵抗力,导致感染。且卒中患者年龄越大,其机体免疫功能、抵抗力越差,更易发生肺部感染[32-33]。因此,临床医务工作者了解SAP的预测因素是识别高危患者和采取预防措施的关键前提。
18项研究中没有低偏倚风险的研究。6项研究[6,10,14,21,24-25]未报告连续和分类自变量的处理,对连续变量未转化成≥2个类别的变量或分类变量应采用标准定义[12,26]。在缺失数据处理方面,Smith等[5]研究无缺失数据,Yan等[7]对缺失数据进行了填充,4项研究[14,19-20,25]对缺失数据进行了删除,剩余12项研究[6,8-10,15-16,18,21-24]未报告缺失数据信息。研究者直接删除缺失数据可能会对模型结果产生影响,而填充数据可采用多重插补法[13,34],以保持数据的完整性。同时,一个好的风险预测模型,不仅要有好的区分度,还需有良好的校准度。在纳入的研究中,Kwon等[24]仅构建模型生成评分系统,未报告模型区分度及校准度的信息。而Ge等[19]、Li等[20]、王孟等[21]及Wang等[25]研究未报告校准度评估,仅报告区分度,其模型可能产生一致性偏倚风险。故在建模前正确处理数据缺失问题并在建模后评估区分度和校准度,有助于比较已开发的风险预测模型,并进行临床转化。另外,过度拟合和欠拟合的发生,都有降低模型预测性能的可能。本研究中,仅2个研究[9,20]报告了模型过度拟合情况。而使用正确方法,包括交叉验证、正则化法、决策树剪枝法等,可对模型性能的后续调整进行评估。故在以后的研究中,可根据CHARMS和PROBAST中内容来设计相关研究方法[11-13],构建低偏倚风险、高质量预测模型,并在临床实践中应用,验证其适用性和安全性。
值得注意的是,大多数模型的外部研究却很少,仅有27.7%的研究得到了外部验证[7,9,10,14-15]。外部验证模型中,Sarah等[14]的A2DS2评分系统包含5个预测条目:年龄、房颤、吞咽困难、性别、NIHSS评分,针对缺血性卒中患者,其数据在临床实践中易于获得。Ji等[15]的AIS-APS评分系统包含11个预测条目,针对AIS患者,其众多条目不利于急诊医护人员快速使用及评定。Yan等[7]的ICH-LR2S2评分系统针对ICH患者,包含9个预测条目,并指出空腹血糖水平在预测SAP中发挥着重要作用。暂时性高血糖可能存在应激性高血糖,而不是糖尿病。且糖尿病史不代表血糖水平异常。Zheng等[9]的ML预测模型包含6个预测条目,针对sICH患者,ML应用程序具有更智能、更准确、更方便的特点。Zhang等[10]的列线图预测模型包含4个预测条目,通过AIS的5个亚型中最大子类型LAA型来分析,其预测精度较高并可为预防SAP的构建及应用提供新思路。目前,临床医务人员对在特定环境或人群中使用或提倡哪种SAP风险预测模型可能存在疑惑。故未来可增强不同卒中类型患者SAP的危险因素研究,构建脑卒中专科、具有较好预测性能的SAP预测模型,并通过模型外部验证及应用不断改进,充分与临床实践相结合。
Zheng等[9]的机器模型推导,采用Logistic回归、高斯朴素贝叶斯(Gaussian naive Bayes,GNB)、K近邻算法(K-nearest neighbor,KNN)、支持向量机(support vector machine,SVM)、随机森林法(random forest,RF)、XGBoost、集成软投票模型(ensemble soft voting model,ESVM)构建7个模型,AUC均值为0.826。采用DCA对模型诊断准确性进行判断,并用网格搜索算法对模型进行校准和内外部的交叉验证后。其GNB的预测效率最高(AUC:0.861),RF的特异性最高(94.4%),XGB最敏感(69.2%),ESVM预测的准确率最高(83.7%)。而在多次内外验证后ESVM有较好的稳定性,故ESVM更适用于与临床实践相结合。同样,王孟等[21]采用Logistic回归、CatBoost、XGBoost、LightGBM四种ML方法构建4个模型,其平均AUC为0.80。建模时XGBoost的预测性能最好(AUC:0.844),而验模时Logistic回归的预测性能最好(AUC:0.776);LightGBM模型灵敏度较高(73.61%),CatBoost模型特异度较高(85.06%)。但该研究未进行外部验证,故需要在外部人群中进行验证,以确保模型的准确性。而Li等[20]采用正则化法,决策树剪枝法检验过度拟合情况和半折交叉的内部验证后,最终选择XGBoost模型。与传统模型相比,传统模型注重提升整体准确率,而XGBoost模型能够考虑到样本的不平衡性和错误分类,为卒中后管理提供合理依据,有利于降低治疗成本。Ge等[19]基于深度学习的ML,采用神经网络GRU算法构建模型,AUC值最高。但其最终预测因子达到25个,不利于临床医务人员应用。与经典ML方法相比,基于深度学习GRU构建的模型能达到最优性能。ML能够通过对大量数据进行深挖与分析,故ML能对精准预测提供新的学习方法和研究思路,以期为临床实践开发一种实用的自动化工具[9,21]。
本研究的局限性:① 仅纳入中、英文文献,可能存在发表偏倚;② 由于研究对象的纳入与排除标准存在异质性,故未作定量分析;③ 大部分SAP模型缺乏外部验证。
综上所述,SAP风险预测模型的整体预测性能较好,但因研究类型、研究对象、SAP诊断标准存在差异,无法直接比较它们的预测性能。且有72.3%的模型没有经过外部验证,77.8%的研究存在较高偏倚风险。故未来建模可深入研究ML,依据CHARMS和PROBAST减少偏倚风险,并通过模型验证及应用不断改进,进一步提高其临床应用价值。