网状Meta分析(network meta-analysis,NMA)能够实现对不同干预措施效果的比较和排序,在证据转化与循证决策中具有重要作用。2014年,GRADE工作组首次介绍了NMA证据确信度分级的GRADE方法,此后其方法体系逐步得到补充和完善,笔者团队于2020年也对相关前沿和进展进行了介绍。近年来,GRADE工作组进一步完善了NMA中对不可传递性和不精确性的评价方法,并针对NMA结果的呈现和解读作出推荐,形成由6个步骤组成的NMA证据确信度分级与结果解读的完整方法学链条。鉴于此,本团队结合具体案例,对GRADE在NMA中应用的方法体系进行更新,以期为相关研究人员提供参考。
引用本文: 黄嘉杰, 赖鸿皓, 刘佳宁, 赵威龙, 孙铭谣, 叶紫莹, 李颖, 潘蓓, 田金徽, 栗梦婷, 葛龙. 网状Meta分析证据确信度分级与结果解读:方法与案例. 中国循证医学杂志, 2024, 24(10): 1231-1240. doi: 10.7507/1672-2531.202310039 复制
网状Meta分析(network meta-analysis,NMA)是传统双臂Meta分析(pairwise meta-analysis)的扩展,其优势在于能够针对某一结局,同时比较多种干预措施的效果差异[1,2];即使当网状结构中的某两项干预措施之间没有形成直接比较时,NMA仍能计算两者的间接比较结果[3],并基于直接证据和间接证据,实现对各种干预措施效果的排序,从而为临床医生和患者选择最佳治疗方案提供参考[4]。推荐分级的评价、制订与评估(grading of recommendations assessment,development,and evaluation,GRADE)方法用于评估NMA证据确信度已日趋成熟。2014年,GRADE工作组首次发布了相关方法学指南[5]。2018年,工作组认为该方法“在具有许多干预措施的网络中可能显得繁琐”,并提出了两份提高流程效率的修改建议,同时强调了在对比组层面对不一致性评估的重要性[6]。此后,工作组陆续推出评估不一致性[7]、使用最小背景化框架和部分背景化框架对NMA结果进行解读的详细指导[8-11]。
虽然GRADE方法的创建已超过20年,在医学领域得到了普遍的认可,但研究显示GRADE系统在国内的应用仍然不够广泛[12,13]。而研究者在使用GRADE方法时也存在重复降级、报告不充分等情况。尤其是NMA的GRADE分级,由于方法流程较为复杂,其具体实践存在挑战[14]。近期,GRADE工作组整合了NMA中使用GRADE的应用经验、不精确性[15]和不可传递性[10]评价方法等最新进展,在BMJ发表了应用GRADE评价NMA证据确信度的完整流程和注意事项[16]。MERGE工作组—一个专注于循证医学方法学创新并在多学科交叉、融合和应用的团队,已于2020年前后对系列方法进行了介绍和解读[17-20],为研究人员更高效、准确地使用GRADE方法评估NMA证据确信度提供详细、可操作的帮助,MERGE工作组在整合最新前沿方法基础上,系统介绍NMA中GRADE证据分级方法进展,并选取一篇本团队发表于Drugs上的NMA作为案例(聚焦失眠药物治疗的有效性和安全性,共纳入153项试验,46 412例患者和8个类别的36种失眠药物[21]),对其分级过程进行实例演示。
1 NMA证据确信度分级流程
总体上看,应用GRADE方法对NMA结果进行分级并形成结论可分为6步:① 呈现直接、间接和NMA证据数据、森林图和网状关系图;② 评估直接证据确信度(图1 A1);③ 基于间接证据主要一阶环路中直接比较证据确信度最低的证据(就低原则)(图1 B1),并考虑不可传递性确定间接证据的初始确信度(preliminary certainty of evidence)(未考虑不精确性的确信度)(图1 B2);④ 根据直接证据与间接证据对NMA证据贡献度的高低确定NMA确信度分级的起点(图1 C1),并进一步考虑不一致性(图1 C2)和不精确性(图1 C3)以确定NMA的最终确信度;⑤ 根据NMA证据是否存在不一致性和是否比直接证据和间接证据更精确,选择直接、间接和NMA证据中确信度最高的证据作为NMA的最佳证据(图1 D1);⑥ 在合适的背景化框架下解读NMA结果并形成结论。图1呈现了使用GRADE方法评估NMA证据确信度的主要步骤和流程[16]。本文将对上述步骤的规范操作方法及相关注意事项逐一进行介绍。

1.1 数据准备
在正式开始评估前,研究者需准备必要的评估信息,包括每个结局的网状关系图,直接证据森林图、直接证据、间接证据和NMA证据的效应值及其95%可信区间(confidence interval,CI),以及偏倚风险评估结果。由于采用相对效应在判断干预措施效果差异的重要性时存在局限性,GRADE工作组建议在使用最小背景化框架或部分背景化框架时将相对效应转化为绝对效应。
以案例研究中扎来普隆与安慰剂对照组的主观睡眠发作潜伏期结局为例,直接、间接和NMA证据的效应值及其95%CI呈现方式可参考表1、表2和表3;偏倚风险评价结果呈现可参考表4;森林图和网状关系网呈现方式可参考附件图1和附件图2[21]。




1.2 直接证据确信度分级
1.2.1 分级原理
NMA的主要优势之一是提高结果的精确性,因此在对直接证据和间接证据进行GRADE分级时可暂不考虑不精确性领域。直接证据确信度分级方法与传统Meta分析方法一致,需对NMA中每个结局涉及的所有对比组逐一进行分级。基于随机对照试验的直接证据的起始确信度为高,考虑偏倚风险、异质性(为避免混淆,本文采用异质性指代直接证据中各研究的不一致性)、间接性和发表偏倚是否存在严重局限性后,可将证据初始等级降低到中、低或极低(图1 A1)[6,16]。
1.2.2 案例
本文选取的案例是基于随机对照试验的NMA,直接证据的起始确信度为高。表4显示扎来普隆与安慰剂对比组纳入研究的偏倚风险均为高,偏倚风险降一级;森林图(附件图1)显示直接证据的异质性较大,降一级;根据研究基本信息表可知,纳入研究人群、干预、对照、结局指标等特征与研究主题一致,间接性不降级;该结局纳入研究数量小于10,不进行发表偏倚检测。综上,在不考虑不精确性的情况下,扎来普隆与安慰剂对比组直接证据的初始确信度为低。若要考虑不精确性,因为直接证据样本量符合OIS,但效应量的CI较宽,不精确性降一级,直接证据最终确信度为极低(表5)[21]。

1.3 间接证据确信度分级
1.3.1 环路选择
NMA间接证据的形成基于间接比较环路中所有研究间效应修饰因子(影响效应量的因素)相似的假设[22],而环路中研究的相似性随着研究数量的增多而逐渐变差。因此,每个间接比较都应选择在两个干预措施之间经过节点最少的环路。理想状态下,所有的间接比较都应选择经过共同对照的环路即一阶环路(附件图2,天蓝色环路)[21];当对比组的干预措施没有共同对照时(即没有一阶环路时),应选择连接两个干预措施之间节点最少的环路,如二阶环路(附件图2,橙色环路)。当同时存在多个一阶环路或者二阶环路时,应选择包含参与者数量和纳入研究最多的环路(贡献度最大,也可基于贡献度大小进行选择),该信息可通过观察节点的大小和连接这些节点的线的宽度判断。例如附件图2唑吡坦与安慰剂对比组的间接证据环路中,存在经扎来普隆的一阶环路和替马西泮的一阶环路等多个一阶环路可选,因经扎来普隆的环路中的参与者数量和纳入研究数量较多,最终选择经扎来普隆的一阶环路为主要一阶环路。
1.3.2 不可传递性
GRADE工作组将不可传递性定义为间接证据环路中各研究在人群基线特征、对照干预和结果测量的显著差异。这种差异使间接比较环路中的研究不满足相似性(统计学称为“传递性”)假设,该环路不具有传递性,间接证据的可信程度降低。即对于通过共同对照C比较A和B的间接证据,任何改变干预措施效果的人群基线特征(P)、对照干预(C)或结局测量(O)在比较A与C的试验和比较B与C的试验之间存在差异,都会导致PCOAC≠PCOBC,使间接证据效应量与PCOAC=PCOBC的间接证据的效应量不同,从而导致间接证据产生偏倚,对不可传递性降级(附件图3)。由于间接环路中直接证据的偏倚风险和间接性都能导致不可传递性,因此,在对不可传递性进行降级时应考虑不可传递性是否是由直接证据的偏倚风险和间接性所导致的,避免在偏倚风险和间接性领域重复降级。
在考虑不可传递性时,可对以下三个方面进行考量:① 效应修饰的可信度:效应修饰是指干预措施与结局的关联或效应在某个第三因素的不同水平中存在差异[23]。当效应修饰的可信度低时,该效应修饰很可能由偶然造成,不必对不可传递性降级。效应修饰的可信度可用传统Meta分析效应修饰可信度清单或效应修饰可信度评估工具(instrument to assess the credibility of effect modification analyses,ICEMAN)评估[24,25];② 效应修饰的强度:不可传递性的严重程度随效应修饰强度的增大而加重,例如当附件图3中试验AC与试验BC人群的平均年龄存在一定年龄差时,干预措施对不同年龄段的效果差距越大,A与B比较的间接证据的不可传递性越严重;③ 效应修饰因子的分布:不可传递性存在的根本原因是效应修饰因子在间接证据环路中的分布存在差异。当效应修饰因子在间接证据的环路中均等分布时,环路中的研究满足间接证据的相似性假设,存在的效应修饰不会对间接证据的不可传递性造成影响。例如,附件图3试验AC与试验BC人群的平均年龄相等,对照干预和结局测量方式相似,即PCOAC=PCOBC,不对不可传递性降级[10]。
1.3.3 分级原理
如直接证据的初始确信度“高”且直接证据对NMA证据的贡献显著大于间接证据,则可忽略对间接证据确信度的分级,选用直接证据的初始确信度作为NMA证据的初始确信度[6];否则,需对间接证据进行确信度分级。间接证据的初始确信度采用就低原则,基于间接证据主要一阶环路中各直接比较证据最低的确信度(图1 B1),并考虑不可传递性确定间接证据的初始确信度(图1 B2)[16]。
1.3.4 案例
根据扎来普隆与安慰剂对比组直接证据、间接证据以及NMA证据的CI可判断出直接证据对NMA证据的贡献度占主导,因直接证据的确信度为低,需对间接证据的确信度进行评估。附件图3显示经唑吡坦的一阶环路为扎来普隆与安慰剂对照组的间接证据环路中参与者和纳入研究数量最多的一阶环路[21]。基于就低原则确定间接证据的初始确信度为低。扎来普隆与安慰剂对照组年龄效应修饰可信度评估结果为低(表6);网状Meta回归显示年龄对扎来普隆与安慰剂的回归系数为−2.82[95%CI(−8.24,2.58)],回归系数的CI跨越无效线,提示年龄对主观睡眠发作潜伏期结局可能没有影响;附件图4显示年龄在扎来普隆、唑吡坦和安慰剂中的分布大致相似。综上可判断扎来普隆与安慰剂对照组的间接证据不存在不可传递性,不考虑对不可传递性降级,间接证据的初始确信度为低。若需应考虑不精确性,因间接证据的CI未跨过无效线;间接证据的有效样本量为130,未达到OIS,考虑对不精确性降一级,间接证据的最终确信度为极低(表7)[21]。


1.4 NMA证据确信度分级
1.4.1 不一致性
直接证据与间接证据满足NMA的一致性假设是NMA证据有效的重要前提[22],当直接证据与间接证据不一致时,NMA证据的效应值CI通常会比两者更宽,造成结果精确性降低。导致NMA证据不一致性的原因很多,根据GRADE的降级因素大致可分为三类:① 研究的方法学质量(偏倚风险)和(或)发表偏倚对直接和(或)间接证据效应值产生影响而导致直接证据效应值与间接证据效应值的不一致;② 直接证据和(或)间接证据的效应量受到间接性的影响;③ 不可传递性造成的间接证据效应量的偏差,进一步导致直接证据与间接证据效应量的不一致。当直接证据和间接证据的不一致无法用偶然来解释时,需要进一步探讨不一致的来源,并考虑是否需要对不一致性进行降级[7,17]。
1.4.2 不精确性
NMA证据在考虑不精确性时遵循与传统双臂Meta分析相同的基本逻辑,即当CI跨越了预定的阈值或者样本量未满足OIS时,需考虑对不精确性降级。但在考察样本量是否满足OIS时,两者的样本量计算方法却有所不同,传统双臂Meta分析在考虑OIS问题时采用报告结局中所有研究的样本量相加计算的方式获得总样本量;而NMA证据效应量是通过直接证据和间接证据的效应量计算而来,无法获取具体的样本量。虽然当NMA证据的CI与直接证据的CI相似(间接证据对NMA证据贡献度很低)时,可以将直接比较两种干预的试验中的参与者人数相加获得总样本量,但在直接证据和间接证据效应量一致时,仅考虑直接证据将低估对NMA证据的有效样本量;而在直接证据和间接证据效应量不一致时,仅考虑直接证据将高估对NMA证据的有效样本量。因此若NMA证据是由直接证据与间接证据结合而成,则考虑NMA证据的不精确性时需计算NMA证据的有效样本量以确保不对不精确性的评估产生误导。NMA有效样本量在三种不同结局指标的计算方式如下所示[15,26]。
(1)结局指标为相对危险度(relative risk,RR)时:由于在双臂等样本试验中,试验的标准误(standard error,SE)可通过点估计值(RR)、对照组结局发生率(pc)和单臂样本量(n)计算[公式(1)],而NMA证据的SE可通过效应量的CI上下限以e为底的对数计算[公式(2)],因此假设NMA证据来自于一个双臂等样本试验,则SE试验=SENMA,NMA的单臂样本量计算方法为公式(3)。
![]() |
![]() |
![]() |
(2)当结局指标为比值比(odds ratio,OR)时:假定NMA证据来自于一个双臂等样本试验,该试验的SE可通过点估计值(OR)、对照组结局发生率(pc)、试验/观察组结局发生率(pt)和单臂样本量(n)计算[公式(4)],pt可由OR和pc计算[公式(5)],则NMA的单臂样本量计算方法为公式(6)。
![]() |
![]() |
![]() |
(3)当结局指标为连续变量时:双臂等样本试验中SE可由平均差(stand deviation,SD)和单臂样本量(n)计算[公式(7)];NMA证据的SE可通过效应量的上下限计算[公式(8)],假定两者相等,则NMA的单臂样本量计算方法为公式(9)。
![]() |
![]() |
![]() |
为简化NMA证据确信度分级流程,降低分级难度,在出现以下两种情况时,无需考察OIS,可直接根据CI判断证据的不精确性:① 证据的CI过宽。例如当RR的CI的上限与下限之比高于3或OR的CI的上限与下限之比高于2.5时,无论效应大小、最小重要差异和基线风险如何,NMA的有效样本量都不会满足OIS[15];② 证据效应量的大小适中并合理,且CI没有跨过预定的阈值。当效应量大小适中且符合常理或临床判断时,狭窄且未超过相关阈值的CI表明NMA具有足够的样本量,此时增加样本量也不会对结论造成影响。反之,由于过少的样本量可能夸大干预措施的效果,当证据的效应量过大且CI没有跨过阈值时,也需要评估有效样本量是否满足OIS。为方便研究人员判断有效样本量与OIS之间的关系,可将相对危险度减少25%或0.2个标准差作为结局的最小重要差异来对OIS进行计算[27],但GRADE工作组也强调这只是一种基于经验的做法,可能会提供错误的信息。准确的OIS应基于不同背景的需要选择生理学上合理的效应、真正的最小重要差异或背景化下的特定效应计算[28]。
综上所述,如NMA证据CI跨越了阈值,则对不精确性进行降级,如未跨越,则进一步考虑证据效应量的大小;如效应量适中或效应量很大且样本量满足OIS,则无需降级;如效应量很大且样本量不满足OIS,则对不精确性进行降级(图2)。同时在对不精确性进行降级时,如果直接证据与间接证据不一致,则应检查是否因不一致性而导致的不精确,防止在同一领域重复降级[7];在稀疏网络的NMA中还需考虑导致NMA证据CI更宽的原因是否为数据不足或研究之间采用共同的异质性参数[11,17],以避免对NMA证据的不精确性产生错误判断。

1.4.3 分级原理
NMA证据由直接证据和间接证据组合而成。因此,NMA证据的确信度与直接和间接证据的确信度密切相关,可基于直接或间接证据的确信度形成NMA证据的确信度。NMA证据的GRADE分级共有三种情况:① 仅有直接证据或者间接证据时,NMA证据直接以直接证据或间接证据的确信度为NMA证据的确信度;② 直接证据与间接证据对NMA证据的贡献度相等时,则NMA证据采用就高原则以较高的确信度为起点;③ 直接证据与间接证据对NMA证据的贡献度不等,则NMA证据基于以主导证据的确信度为起点(图1 C2)[16,29]。直接证据和间接证据对NMA的贡献度可通过观察直接、间接和NMA的CI或者通过贡献比例矩阵等方式判断[7,30]。当处于情况②和③时,需检测直接证据与间接证据是否不一致,基于检测结果考虑是否对不一致性降级,并考虑不精确性确定NMA证据确信度。
1.4.4 案例
扎来普隆与安慰剂对照组具有直接证据和间接证据,且直接证据确信度与间接证据确信度相等,不一致性检测结果显示直接证据与间接证据一致,不对不一致性进行降级;NMA证据效应量的CI未跨越无效线,但效应量较大,根据公式(7)(8)(9)计算有效样本量为418,符合OIS,不考虑对不精确性降级,NMA证据的确信度为低(表8)[21]。

1.5 NMA最佳证据
1.5.1 选取原理
当NMA证据存在高异质性和不一致性时,直接证据和间接证据的确信度可能会高于NMA证据,在该情况下NMA证据并不是支持决策的最佳证据。因此在选择NMA最佳证据时应判断NMA证据是否具有不一致性以及NMA证据是否比直接证据和间接证据更精确,当NMA证据同时满足这两个条件时,可直接选择NMA证据作为NMA的最佳证据;反之,应基于就高原则从直接证据、间接证据或NMA证据中选择确信度最高的证据作为NMA的最佳证据(当NMA证据确信度与其他证据确信度级并列时,首选NMA证据)[16,29]。
1.5.2 案例
因直接证据与间接证据一致,选择NMA证据作为NMA的最佳证据(表9)[21]。

2 基于GRADE分级结果形成结论
NMA的优势之一是能将所有纳入措施进行量化比较,并对某一结局中所有干预措施的效果优劣进行排序。然而,实际临床决策需从效应量,证据确信度以及安全性等多维度对干预措施进行考量,仅依据效应量的高低难以判断一种干预措施绝对优于其他所有的干预措施确信度[31],且排序高与排序低的干预措施之间并不一定存在重要差异,这种情况在纳入研究数量较多的NMA中更为常见[32]。因此,在对NMA结果进行解释并形成结论时,不能单纯考虑干预措施的排序结果,还需同时考虑干预措施效应量大小和证据确信度,避免对决策和指南制作产生误导,从而影响决策的进行和指南的实施[33-35]。为此,GRADE工作组开发了最小背景化和部分背景化两种方法学框架指导研究人员对NMA结果进行解读分析[8,9]。两者均以寻找最有效干预措施为目标,根据各个措施的效应量,排序和证据确信度,基于较高类别可能比较低类别的干预措施更有效的推论,判断出最有效且可靠的干预措施为决策提供支持[18,19]。
两者的基本步骤相似:① 选择参考组和决策阈值;② 基于对比参考组对干预措施进行分类;③ 基于证据确信度对干预措施进行分类;④ 检查成对比较与排序结果的一致性。区别在于最小背景化更多关注决策阈值以及证据本身,通过CI相对于决策阈值的位置来判断干预措施的效果,并基于干预措施间的差异对干预措施进行第二次分类,形成从最有效到最无效/有害的类别,会更加强调证据的不精确性,最大限度地减少了对特定背景的判断需求,以确保结论在不同环境中的简便性和适用性。而部分背景化框架则更依赖研究人员通过干预措施效果的潜在益处或危害的程度形成结论,根据证据的点估计值将干预措施最终分为无效、较小、中等和重大效应的类别,适用于医疗保健指南等需要判断健康益处与利弊平衡的情况[8,9]。
以案例文章中使用最小背景化对主观睡眠发作潜伏期结局形成结论为例:① 案例中安慰剂与NMA其他干预措施的连接最为紧密,因此选择安慰剂作为参考组,以无效值为决策阈值;② 根据治疗失眠药物与安慰剂比较效应值的CI是否跨过无效线,将各药物分为有效的药物和与无效的药物两类(附件表1);③ 基于是否与无效的药物类别中的所有药物的比较效应值的CI均未跨越无效线,将有效的药物类别中的药物再次分为最有效的药物之一和优于无效但次于最有效的药物两类(附件表2);④ 如附件表3所示,基于治疗失眠药物与安慰剂比较的最佳证据的确信度,将干预措施再次分为两个大类:高确信度证据(高和中等确信度)和低确信度证据(低和极低确信度);⑤ 检查发现主观睡眠发作潜伏期结局中各药物与非安慰剂之间的比较结果与比较安慰剂的结果排序一致,不对分类进行更改[21]。最后对不同干预措施治疗失眠在主观睡眠发作潜伏期结局上的疗效按最小背景化框架进行总结,结论见表10。

3 小结
本文对NMA中GRADE证据分级的整体流程进行了梳理,并通过与实际案例相结合的方式对该流程及其要点进行介绍。目前GRADE在NMA中的应用已逐渐趋于成熟,但依旧存在较大的复杂性和一定的主观性。由于对NMA证据进行确信度分级时所需要考虑较多且逻辑复杂的内容以及NMA对比组的庞大数量,导致研究人员既需要对方法有足够的了解,又需要投入较多的精力,尤其是在进行动态指南和动态循证要览制作时,快速准确地对NMA证据进行分级的难度将会进一步提升[36-39]。尽管GRADE工作组提出在评估直接证据和间接证据确信度时,可先不考虑不精确性以及在直接证据确信度为“高”且直接证据对NMA证据的贡献至少与间接证据相等时,可不对间接证据的确信度进行评估等方法,且随着人工智能技术的发展,如何利用程序实现NMA证据的自动分级也逐渐成为一个热点。目前已有NMA证据分级自动化表格和CINeMA等工具来减少NMA证据确信度分级时的工作量[40],MERGE工作组目前也已聚焦证据的自动合成与分级,后续将会继续开发NMA证据自动分级,为NMA证据分级透明化和提高分级质量提供帮助[41]。这些方法和工具极大提高了NMA证据分级的效率,但依旧无法改变NMA证据确信度评估是个巨大工程的事实,研究人员使用这些方法和工具时也应根据研究背景和目的仔细判断,并对省略步骤及其原因进行标注或者说明。此外,GRADE方法还存在由于没有处理小样本结局发表偏倚方法,而导致纳入研究数量多的研究更容易在发表偏倚上降级等问题。尽管为NMA实施GRADE方法较为困难,但证据主体的确信度问题对于最佳决策至关重要,为提高NMA结果的透明度和实用性,并为最佳决策提供支持,进行NMA文章撰写时仍然应该坚持正确的分级方法和流程并完整报告所有的分级结果。
现有的GRADE方法已适用于国内的大部分研究,但由于GRADE是基于现代医学体系而创建,并未考虑到中医药领域的证据多元化问题[42]。经典医籍医案及名家经验作为中医药临床证据体系的重要组成部分,其在GRADE体系中较低的证据确信度拉低了决策者使用中医干预的信心[43]。近年来,多名国内学者为将GRADE体系与中医药临床评价结合进行了诸多尝试,但尚未形成较统一的规范[44]。而随着循证医学的不断探索与发展,为达到最佳决策的目的,研究者们也不再将目光局限于随机对照试验,2020年,GRADE工作组提出了整合随机与非随机干预研究证据的可行方法[45,46],为GRADE方法与经典医籍医案及名家经验相结合提供了良好的思路。如何将循证医学理念与中医实践特点结合,探索国际现有分级标准与中医药的结合,尝试建立相对统一、具有普适性的分级体系,是未来研究者需要进一步探索的问题。
声明 所有作者均声明无利益冲突。
网状Meta分析(network meta-analysis,NMA)是传统双臂Meta分析(pairwise meta-analysis)的扩展,其优势在于能够针对某一结局,同时比较多种干预措施的效果差异[1,2];即使当网状结构中的某两项干预措施之间没有形成直接比较时,NMA仍能计算两者的间接比较结果[3],并基于直接证据和间接证据,实现对各种干预措施效果的排序,从而为临床医生和患者选择最佳治疗方案提供参考[4]。推荐分级的评价、制订与评估(grading of recommendations assessment,development,and evaluation,GRADE)方法用于评估NMA证据确信度已日趋成熟。2014年,GRADE工作组首次发布了相关方法学指南[5]。2018年,工作组认为该方法“在具有许多干预措施的网络中可能显得繁琐”,并提出了两份提高流程效率的修改建议,同时强调了在对比组层面对不一致性评估的重要性[6]。此后,工作组陆续推出评估不一致性[7]、使用最小背景化框架和部分背景化框架对NMA结果进行解读的详细指导[8-11]。
虽然GRADE方法的创建已超过20年,在医学领域得到了普遍的认可,但研究显示GRADE系统在国内的应用仍然不够广泛[12,13]。而研究者在使用GRADE方法时也存在重复降级、报告不充分等情况。尤其是NMA的GRADE分级,由于方法流程较为复杂,其具体实践存在挑战[14]。近期,GRADE工作组整合了NMA中使用GRADE的应用经验、不精确性[15]和不可传递性[10]评价方法等最新进展,在BMJ发表了应用GRADE评价NMA证据确信度的完整流程和注意事项[16]。MERGE工作组—一个专注于循证医学方法学创新并在多学科交叉、融合和应用的团队,已于2020年前后对系列方法进行了介绍和解读[17-20],为研究人员更高效、准确地使用GRADE方法评估NMA证据确信度提供详细、可操作的帮助,MERGE工作组在整合最新前沿方法基础上,系统介绍NMA中GRADE证据分级方法进展,并选取一篇本团队发表于Drugs上的NMA作为案例(聚焦失眠药物治疗的有效性和安全性,共纳入153项试验,46 412例患者和8个类别的36种失眠药物[21]),对其分级过程进行实例演示。
1 NMA证据确信度分级流程
总体上看,应用GRADE方法对NMA结果进行分级并形成结论可分为6步:① 呈现直接、间接和NMA证据数据、森林图和网状关系图;② 评估直接证据确信度(图1 A1);③ 基于间接证据主要一阶环路中直接比较证据确信度最低的证据(就低原则)(图1 B1),并考虑不可传递性确定间接证据的初始确信度(preliminary certainty of evidence)(未考虑不精确性的确信度)(图1 B2);④ 根据直接证据与间接证据对NMA证据贡献度的高低确定NMA确信度分级的起点(图1 C1),并进一步考虑不一致性(图1 C2)和不精确性(图1 C3)以确定NMA的最终确信度;⑤ 根据NMA证据是否存在不一致性和是否比直接证据和间接证据更精确,选择直接、间接和NMA证据中确信度最高的证据作为NMA的最佳证据(图1 D1);⑥ 在合适的背景化框架下解读NMA结果并形成结论。图1呈现了使用GRADE方法评估NMA证据确信度的主要步骤和流程[16]。本文将对上述步骤的规范操作方法及相关注意事项逐一进行介绍。

1.1 数据准备
在正式开始评估前,研究者需准备必要的评估信息,包括每个结局的网状关系图,直接证据森林图、直接证据、间接证据和NMA证据的效应值及其95%可信区间(confidence interval,CI),以及偏倚风险评估结果。由于采用相对效应在判断干预措施效果差异的重要性时存在局限性,GRADE工作组建议在使用最小背景化框架或部分背景化框架时将相对效应转化为绝对效应。
以案例研究中扎来普隆与安慰剂对照组的主观睡眠发作潜伏期结局为例,直接、间接和NMA证据的效应值及其95%CI呈现方式可参考表1、表2和表3;偏倚风险评价结果呈现可参考表4;森林图和网状关系网呈现方式可参考附件图1和附件图2[21]。




1.2 直接证据确信度分级
1.2.1 分级原理
NMA的主要优势之一是提高结果的精确性,因此在对直接证据和间接证据进行GRADE分级时可暂不考虑不精确性领域。直接证据确信度分级方法与传统Meta分析方法一致,需对NMA中每个结局涉及的所有对比组逐一进行分级。基于随机对照试验的直接证据的起始确信度为高,考虑偏倚风险、异质性(为避免混淆,本文采用异质性指代直接证据中各研究的不一致性)、间接性和发表偏倚是否存在严重局限性后,可将证据初始等级降低到中、低或极低(图1 A1)[6,16]。
1.2.2 案例
本文选取的案例是基于随机对照试验的NMA,直接证据的起始确信度为高。表4显示扎来普隆与安慰剂对比组纳入研究的偏倚风险均为高,偏倚风险降一级;森林图(附件图1)显示直接证据的异质性较大,降一级;根据研究基本信息表可知,纳入研究人群、干预、对照、结局指标等特征与研究主题一致,间接性不降级;该结局纳入研究数量小于10,不进行发表偏倚检测。综上,在不考虑不精确性的情况下,扎来普隆与安慰剂对比组直接证据的初始确信度为低。若要考虑不精确性,因为直接证据样本量符合OIS,但效应量的CI较宽,不精确性降一级,直接证据最终确信度为极低(表5)[21]。

1.3 间接证据确信度分级
1.3.1 环路选择
NMA间接证据的形成基于间接比较环路中所有研究间效应修饰因子(影响效应量的因素)相似的假设[22],而环路中研究的相似性随着研究数量的增多而逐渐变差。因此,每个间接比较都应选择在两个干预措施之间经过节点最少的环路。理想状态下,所有的间接比较都应选择经过共同对照的环路即一阶环路(附件图2,天蓝色环路)[21];当对比组的干预措施没有共同对照时(即没有一阶环路时),应选择连接两个干预措施之间节点最少的环路,如二阶环路(附件图2,橙色环路)。当同时存在多个一阶环路或者二阶环路时,应选择包含参与者数量和纳入研究最多的环路(贡献度最大,也可基于贡献度大小进行选择),该信息可通过观察节点的大小和连接这些节点的线的宽度判断。例如附件图2唑吡坦与安慰剂对比组的间接证据环路中,存在经扎来普隆的一阶环路和替马西泮的一阶环路等多个一阶环路可选,因经扎来普隆的环路中的参与者数量和纳入研究数量较多,最终选择经扎来普隆的一阶环路为主要一阶环路。
1.3.2 不可传递性
GRADE工作组将不可传递性定义为间接证据环路中各研究在人群基线特征、对照干预和结果测量的显著差异。这种差异使间接比较环路中的研究不满足相似性(统计学称为“传递性”)假设,该环路不具有传递性,间接证据的可信程度降低。即对于通过共同对照C比较A和B的间接证据,任何改变干预措施效果的人群基线特征(P)、对照干预(C)或结局测量(O)在比较A与C的试验和比较B与C的试验之间存在差异,都会导致PCOAC≠PCOBC,使间接证据效应量与PCOAC=PCOBC的间接证据的效应量不同,从而导致间接证据产生偏倚,对不可传递性降级(附件图3)。由于间接环路中直接证据的偏倚风险和间接性都能导致不可传递性,因此,在对不可传递性进行降级时应考虑不可传递性是否是由直接证据的偏倚风险和间接性所导致的,避免在偏倚风险和间接性领域重复降级。
在考虑不可传递性时,可对以下三个方面进行考量:① 效应修饰的可信度:效应修饰是指干预措施与结局的关联或效应在某个第三因素的不同水平中存在差异[23]。当效应修饰的可信度低时,该效应修饰很可能由偶然造成,不必对不可传递性降级。效应修饰的可信度可用传统Meta分析效应修饰可信度清单或效应修饰可信度评估工具(instrument to assess the credibility of effect modification analyses,ICEMAN)评估[24,25];② 效应修饰的强度:不可传递性的严重程度随效应修饰强度的增大而加重,例如当附件图3中试验AC与试验BC人群的平均年龄存在一定年龄差时,干预措施对不同年龄段的效果差距越大,A与B比较的间接证据的不可传递性越严重;③ 效应修饰因子的分布:不可传递性存在的根本原因是效应修饰因子在间接证据环路中的分布存在差异。当效应修饰因子在间接证据的环路中均等分布时,环路中的研究满足间接证据的相似性假设,存在的效应修饰不会对间接证据的不可传递性造成影响。例如,附件图3试验AC与试验BC人群的平均年龄相等,对照干预和结局测量方式相似,即PCOAC=PCOBC,不对不可传递性降级[10]。
1.3.3 分级原理
如直接证据的初始确信度“高”且直接证据对NMA证据的贡献显著大于间接证据,则可忽略对间接证据确信度的分级,选用直接证据的初始确信度作为NMA证据的初始确信度[6];否则,需对间接证据进行确信度分级。间接证据的初始确信度采用就低原则,基于间接证据主要一阶环路中各直接比较证据最低的确信度(图1 B1),并考虑不可传递性确定间接证据的初始确信度(图1 B2)[16]。
1.3.4 案例
根据扎来普隆与安慰剂对比组直接证据、间接证据以及NMA证据的CI可判断出直接证据对NMA证据的贡献度占主导,因直接证据的确信度为低,需对间接证据的确信度进行评估。附件图3显示经唑吡坦的一阶环路为扎来普隆与安慰剂对照组的间接证据环路中参与者和纳入研究数量最多的一阶环路[21]。基于就低原则确定间接证据的初始确信度为低。扎来普隆与安慰剂对照组年龄效应修饰可信度评估结果为低(表6);网状Meta回归显示年龄对扎来普隆与安慰剂的回归系数为−2.82[95%CI(−8.24,2.58)],回归系数的CI跨越无效线,提示年龄对主观睡眠发作潜伏期结局可能没有影响;附件图4显示年龄在扎来普隆、唑吡坦和安慰剂中的分布大致相似。综上可判断扎来普隆与安慰剂对照组的间接证据不存在不可传递性,不考虑对不可传递性降级,间接证据的初始确信度为低。若需应考虑不精确性,因间接证据的CI未跨过无效线;间接证据的有效样本量为130,未达到OIS,考虑对不精确性降一级,间接证据的最终确信度为极低(表7)[21]。


1.4 NMA证据确信度分级
1.4.1 不一致性
直接证据与间接证据满足NMA的一致性假设是NMA证据有效的重要前提[22],当直接证据与间接证据不一致时,NMA证据的效应值CI通常会比两者更宽,造成结果精确性降低。导致NMA证据不一致性的原因很多,根据GRADE的降级因素大致可分为三类:① 研究的方法学质量(偏倚风险)和(或)发表偏倚对直接和(或)间接证据效应值产生影响而导致直接证据效应值与间接证据效应值的不一致;② 直接证据和(或)间接证据的效应量受到间接性的影响;③ 不可传递性造成的间接证据效应量的偏差,进一步导致直接证据与间接证据效应量的不一致。当直接证据和间接证据的不一致无法用偶然来解释时,需要进一步探讨不一致的来源,并考虑是否需要对不一致性进行降级[7,17]。
1.4.2 不精确性
NMA证据在考虑不精确性时遵循与传统双臂Meta分析相同的基本逻辑,即当CI跨越了预定的阈值或者样本量未满足OIS时,需考虑对不精确性降级。但在考察样本量是否满足OIS时,两者的样本量计算方法却有所不同,传统双臂Meta分析在考虑OIS问题时采用报告结局中所有研究的样本量相加计算的方式获得总样本量;而NMA证据效应量是通过直接证据和间接证据的效应量计算而来,无法获取具体的样本量。虽然当NMA证据的CI与直接证据的CI相似(间接证据对NMA证据贡献度很低)时,可以将直接比较两种干预的试验中的参与者人数相加获得总样本量,但在直接证据和间接证据效应量一致时,仅考虑直接证据将低估对NMA证据的有效样本量;而在直接证据和间接证据效应量不一致时,仅考虑直接证据将高估对NMA证据的有效样本量。因此若NMA证据是由直接证据与间接证据结合而成,则考虑NMA证据的不精确性时需计算NMA证据的有效样本量以确保不对不精确性的评估产生误导。NMA有效样本量在三种不同结局指标的计算方式如下所示[15,26]。
(1)结局指标为相对危险度(relative risk,RR)时:由于在双臂等样本试验中,试验的标准误(standard error,SE)可通过点估计值(RR)、对照组结局发生率(pc)和单臂样本量(n)计算[公式(1)],而NMA证据的SE可通过效应量的CI上下限以e为底的对数计算[公式(2)],因此假设NMA证据来自于一个双臂等样本试验,则SE试验=SENMA,NMA的单臂样本量计算方法为公式(3)。
![]() |
![]() |
![]() |
(2)当结局指标为比值比(odds ratio,OR)时:假定NMA证据来自于一个双臂等样本试验,该试验的SE可通过点估计值(OR)、对照组结局发生率(pc)、试验/观察组结局发生率(pt)和单臂样本量(n)计算[公式(4)],pt可由OR和pc计算[公式(5)],则NMA的单臂样本量计算方法为公式(6)。
![]() |
![]() |
![]() |
(3)当结局指标为连续变量时:双臂等样本试验中SE可由平均差(stand deviation,SD)和单臂样本量(n)计算[公式(7)];NMA证据的SE可通过效应量的上下限计算[公式(8)],假定两者相等,则NMA的单臂样本量计算方法为公式(9)。
![]() |
![]() |
![]() |
为简化NMA证据确信度分级流程,降低分级难度,在出现以下两种情况时,无需考察OIS,可直接根据CI判断证据的不精确性:① 证据的CI过宽。例如当RR的CI的上限与下限之比高于3或OR的CI的上限与下限之比高于2.5时,无论效应大小、最小重要差异和基线风险如何,NMA的有效样本量都不会满足OIS[15];② 证据效应量的大小适中并合理,且CI没有跨过预定的阈值。当效应量大小适中且符合常理或临床判断时,狭窄且未超过相关阈值的CI表明NMA具有足够的样本量,此时增加样本量也不会对结论造成影响。反之,由于过少的样本量可能夸大干预措施的效果,当证据的效应量过大且CI没有跨过阈值时,也需要评估有效样本量是否满足OIS。为方便研究人员判断有效样本量与OIS之间的关系,可将相对危险度减少25%或0.2个标准差作为结局的最小重要差异来对OIS进行计算[27],但GRADE工作组也强调这只是一种基于经验的做法,可能会提供错误的信息。准确的OIS应基于不同背景的需要选择生理学上合理的效应、真正的最小重要差异或背景化下的特定效应计算[28]。
综上所述,如NMA证据CI跨越了阈值,则对不精确性进行降级,如未跨越,则进一步考虑证据效应量的大小;如效应量适中或效应量很大且样本量满足OIS,则无需降级;如效应量很大且样本量不满足OIS,则对不精确性进行降级(图2)。同时在对不精确性进行降级时,如果直接证据与间接证据不一致,则应检查是否因不一致性而导致的不精确,防止在同一领域重复降级[7];在稀疏网络的NMA中还需考虑导致NMA证据CI更宽的原因是否为数据不足或研究之间采用共同的异质性参数[11,17],以避免对NMA证据的不精确性产生错误判断。

1.4.3 分级原理
NMA证据由直接证据和间接证据组合而成。因此,NMA证据的确信度与直接和间接证据的确信度密切相关,可基于直接或间接证据的确信度形成NMA证据的确信度。NMA证据的GRADE分级共有三种情况:① 仅有直接证据或者间接证据时,NMA证据直接以直接证据或间接证据的确信度为NMA证据的确信度;② 直接证据与间接证据对NMA证据的贡献度相等时,则NMA证据采用就高原则以较高的确信度为起点;③ 直接证据与间接证据对NMA证据的贡献度不等,则NMA证据基于以主导证据的确信度为起点(图1 C2)[16,29]。直接证据和间接证据对NMA的贡献度可通过观察直接、间接和NMA的CI或者通过贡献比例矩阵等方式判断[7,30]。当处于情况②和③时,需检测直接证据与间接证据是否不一致,基于检测结果考虑是否对不一致性降级,并考虑不精确性确定NMA证据确信度。
1.4.4 案例
扎来普隆与安慰剂对照组具有直接证据和间接证据,且直接证据确信度与间接证据确信度相等,不一致性检测结果显示直接证据与间接证据一致,不对不一致性进行降级;NMA证据效应量的CI未跨越无效线,但效应量较大,根据公式(7)(8)(9)计算有效样本量为418,符合OIS,不考虑对不精确性降级,NMA证据的确信度为低(表8)[21]。

1.5 NMA最佳证据
1.5.1 选取原理
当NMA证据存在高异质性和不一致性时,直接证据和间接证据的确信度可能会高于NMA证据,在该情况下NMA证据并不是支持决策的最佳证据。因此在选择NMA最佳证据时应判断NMA证据是否具有不一致性以及NMA证据是否比直接证据和间接证据更精确,当NMA证据同时满足这两个条件时,可直接选择NMA证据作为NMA的最佳证据;反之,应基于就高原则从直接证据、间接证据或NMA证据中选择确信度最高的证据作为NMA的最佳证据(当NMA证据确信度与其他证据确信度级并列时,首选NMA证据)[16,29]。
1.5.2 案例
因直接证据与间接证据一致,选择NMA证据作为NMA的最佳证据(表9)[21]。

2 基于GRADE分级结果形成结论
NMA的优势之一是能将所有纳入措施进行量化比较,并对某一结局中所有干预措施的效果优劣进行排序。然而,实际临床决策需从效应量,证据确信度以及安全性等多维度对干预措施进行考量,仅依据效应量的高低难以判断一种干预措施绝对优于其他所有的干预措施确信度[31],且排序高与排序低的干预措施之间并不一定存在重要差异,这种情况在纳入研究数量较多的NMA中更为常见[32]。因此,在对NMA结果进行解释并形成结论时,不能单纯考虑干预措施的排序结果,还需同时考虑干预措施效应量大小和证据确信度,避免对决策和指南制作产生误导,从而影响决策的进行和指南的实施[33-35]。为此,GRADE工作组开发了最小背景化和部分背景化两种方法学框架指导研究人员对NMA结果进行解读分析[8,9]。两者均以寻找最有效干预措施为目标,根据各个措施的效应量,排序和证据确信度,基于较高类别可能比较低类别的干预措施更有效的推论,判断出最有效且可靠的干预措施为决策提供支持[18,19]。
两者的基本步骤相似:① 选择参考组和决策阈值;② 基于对比参考组对干预措施进行分类;③ 基于证据确信度对干预措施进行分类;④ 检查成对比较与排序结果的一致性。区别在于最小背景化更多关注决策阈值以及证据本身,通过CI相对于决策阈值的位置来判断干预措施的效果,并基于干预措施间的差异对干预措施进行第二次分类,形成从最有效到最无效/有害的类别,会更加强调证据的不精确性,最大限度地减少了对特定背景的判断需求,以确保结论在不同环境中的简便性和适用性。而部分背景化框架则更依赖研究人员通过干预措施效果的潜在益处或危害的程度形成结论,根据证据的点估计值将干预措施最终分为无效、较小、中等和重大效应的类别,适用于医疗保健指南等需要判断健康益处与利弊平衡的情况[8,9]。
以案例文章中使用最小背景化对主观睡眠发作潜伏期结局形成结论为例:① 案例中安慰剂与NMA其他干预措施的连接最为紧密,因此选择安慰剂作为参考组,以无效值为决策阈值;② 根据治疗失眠药物与安慰剂比较效应值的CI是否跨过无效线,将各药物分为有效的药物和与无效的药物两类(附件表1);③ 基于是否与无效的药物类别中的所有药物的比较效应值的CI均未跨越无效线,将有效的药物类别中的药物再次分为最有效的药物之一和优于无效但次于最有效的药物两类(附件表2);④ 如附件表3所示,基于治疗失眠药物与安慰剂比较的最佳证据的确信度,将干预措施再次分为两个大类:高确信度证据(高和中等确信度)和低确信度证据(低和极低确信度);⑤ 检查发现主观睡眠发作潜伏期结局中各药物与非安慰剂之间的比较结果与比较安慰剂的结果排序一致,不对分类进行更改[21]。最后对不同干预措施治疗失眠在主观睡眠发作潜伏期结局上的疗效按最小背景化框架进行总结,结论见表10。

3 小结
本文对NMA中GRADE证据分级的整体流程进行了梳理,并通过与实际案例相结合的方式对该流程及其要点进行介绍。目前GRADE在NMA中的应用已逐渐趋于成熟,但依旧存在较大的复杂性和一定的主观性。由于对NMA证据进行确信度分级时所需要考虑较多且逻辑复杂的内容以及NMA对比组的庞大数量,导致研究人员既需要对方法有足够的了解,又需要投入较多的精力,尤其是在进行动态指南和动态循证要览制作时,快速准确地对NMA证据进行分级的难度将会进一步提升[36-39]。尽管GRADE工作组提出在评估直接证据和间接证据确信度时,可先不考虑不精确性以及在直接证据确信度为“高”且直接证据对NMA证据的贡献至少与间接证据相等时,可不对间接证据的确信度进行评估等方法,且随着人工智能技术的发展,如何利用程序实现NMA证据的自动分级也逐渐成为一个热点。目前已有NMA证据分级自动化表格和CINeMA等工具来减少NMA证据确信度分级时的工作量[40],MERGE工作组目前也已聚焦证据的自动合成与分级,后续将会继续开发NMA证据自动分级,为NMA证据分级透明化和提高分级质量提供帮助[41]。这些方法和工具极大提高了NMA证据分级的效率,但依旧无法改变NMA证据确信度评估是个巨大工程的事实,研究人员使用这些方法和工具时也应根据研究背景和目的仔细判断,并对省略步骤及其原因进行标注或者说明。此外,GRADE方法还存在由于没有处理小样本结局发表偏倚方法,而导致纳入研究数量多的研究更容易在发表偏倚上降级等问题。尽管为NMA实施GRADE方法较为困难,但证据主体的确信度问题对于最佳决策至关重要,为提高NMA结果的透明度和实用性,并为最佳决策提供支持,进行NMA文章撰写时仍然应该坚持正确的分级方法和流程并完整报告所有的分级结果。
现有的GRADE方法已适用于国内的大部分研究,但由于GRADE是基于现代医学体系而创建,并未考虑到中医药领域的证据多元化问题[42]。经典医籍医案及名家经验作为中医药临床证据体系的重要组成部分,其在GRADE体系中较低的证据确信度拉低了决策者使用中医干预的信心[43]。近年来,多名国内学者为将GRADE体系与中医药临床评价结合进行了诸多尝试,但尚未形成较统一的规范[44]。而随着循证医学的不断探索与发展,为达到最佳决策的目的,研究者们也不再将目光局限于随机对照试验,2020年,GRADE工作组提出了整合随机与非随机干预研究证据的可行方法[45,46],为GRADE方法与经典医籍医案及名家经验相结合提供了良好的思路。如何将循证医学理念与中医实践特点结合,探索国际现有分级标准与中医药的结合,尝试建立相对统一、具有普适性的分级体系,是未来研究者需要进一步探索的问题。
声明 所有作者均声明无利益冲突。