本文介绍不报告偏倚(证据缺失偏倚)风险评价工具ROB-ME的主要内容,包括其制订背景、适用范围、相关信号问题以及决策路径等。ROB-ME工具具有逻辑清晰、细节完善、操作简便、适用性良好等优点,在评价不报告偏倚风险方面具有相当大的优势,可为临床研究者提供权威参考,值得推广和应用。
引用本文: 邓湘金, 胡玉鹏, 高歌, 刘伟, 曾维, 陈金龙, 汤炜, 刘畅. 不报告偏倚风险评价工具ROB-ME中文解读. 中国循证医学杂志, 2023, 23(7): 843-848. doi: 10.7507/1672-2531.202303107 复制
1 ROB-ME工具的制订背景
系统评价作为循证医学研究的重要工具和方法,强调尽可能收集所有符合纳入标准的原始研究并进行方法学质量评价,提取特征和数据,对原始研究结果数据进行合并,最后进行证据评级,其中系统评价的数据合并(synthesis)包括Meta分析、Meta回归等方法。对每项数据合并进行GRADE证据评级时需要充分考虑到报告偏倚(reporting bias),例如:RoB 2[1]、ROBINS-I[2]或ROBINS-E[3]等偏倚风险评价工具中的选择性报告偏倚(selective reporting bias)[4-5],基于漏斗图等分析的发表偏倚(publication bias)[6]等。
当研究者根据研究结果的P值、大小或方向,从多个测量指标、多种统计分析方法、多个亚组中刻意选择一部分结果进行报告时,就会产生选择性报告偏倚。例如,研究人员使用两种工具来进行疼痛程度的测量,但只报告了统计学上具有显著性的测量结果,而没有报告另一种疼痛测量工具的结果,若这时进行系统评价便有一个可用的结果纳入数据合并,使用该结果将有较高的偏倚风险。因此,在开发偏倚风险评价工具时,RoB 2[1]、ROBINS-I[2]和ROBINS-E[3]等工具开发团队都已经充分考虑到了这种选择性报告研究结果所致偏倚风险。
然而,除了选择性报告偏倚以外,还会因为研究结果的P值、效应值的大小或方向而导致研究结果没有报告、报告不可获取、报告的研究结果不可用于数据合并等情况的报告偏倚。Page等[7]将这类选择性报告偏倚以外的报告偏倚定义为“不报告偏倚”(non-reporting bias):因为研究结果的P值、大小或方向影响研究结果的可用性,导致证据缺失(missing evidence)即无法获取所有的研究和结果,故又叫做“证据缺失偏倚”(bias due to missing evidence)。不报告偏倚(证据缺失偏倚)包括:① 研究内的不报告偏倚(with-study non-reporting bias)即研究者根据研究结果的P值、大小或方向,在研究报告中刻意不报告某些结果,这种情况下证据缺失表现为研究结果缺失(missing results),可以通过研究计划书、试验注册、统计分析计划等渠道进行验证,因此比喻为“已知的未知”(known unknowns);② 研究间的不报告偏倚(across-study non-reporting bias)即由于研究结果的P值、大小或方向导致研究报告无法发表或延迟发表[8],或即使发表也无法被系统评价获取(如发表在非英文期刊、未被数据库索引的期刊上)[8],这类情况下证据缺失表现为研究缺失(missing studies),因此比喻为“未知的未知”(unknown unknowns)。关于报告偏倚的总结见图1。

基于此背景,Page等[7]2017年开始开发新的偏倚风险评价工具,用于评价数据合并中的不报告偏倚(证据缺失偏倚),并且2020年在Risk of bias tools官网上正式发布了ROB-ME(Risk Of Bias due to Missing Evidence)工具。ROB-ME工具遵循了与RoB 2[1]、ROBINS-I[2]等工具相似的开发原则,故而比较严谨科学,本文旨在对ROB-ME工具进行解读。
2 ROB-ME工具解读
ROB-ME工具用于系统评价中每项数据合并的证据缺失偏倚风险评价,其过程较为简便,分为四步:第一是选择并定义将进行证据缺失偏倚风险评价的数据合并;第二是确定哪些纳入的研究有结果缺失,为评价研究内的不报告偏倚风险做准备;第三是评价系统评价中研究缺失的可能性,为评价研究间的不报告偏倚风险做准备;第四是基于前三步的准备工作,对每项数据合并的证据缺失偏倚风险做出评价。
ROB-ME工具包含了多个不同的信号问题,在评价证据缺失偏倚风险时,需做出判断并客观地回答这些问题。与RoB 2[1]、ROBINS-I[2]等工具类似,ROB-ME工具的信号问题的供选答案有:是(yes,Y)、可能是(probably yes,PY)、可能否(probably no,PN)、否(no,N)、没有信息(no information,NI)、不适用(not applicable,NA)。
2.1 步骤一:选择并定义将进行证据缺失偏倚风险评价的数据合并
在系统评价中同时评价所有数据合并的证据缺失偏倚风险可行性较差,尤其是系统评价进行了多项数据合并,而且每项数据合并纳入了多项研究。因此,评价者应该预先指定将进行证据缺失偏倚风险评价的数据合并(一般选择患者和医务人员最关心的结局),并明确定义符合每项数据合并的研究结果类型,即确定每项数据合并限定于哪些特定条件(表1),否则将很难确定哪些结果有缺失。

2.2 步骤二:确定哪些纳入的研究有结果缺失
对每项符合系统评价纳入标准的研究,将可用的结果与预先指定的信息(包括将测量哪些结局、进行哪些分析等)进行比较。这些信息可能来自文章的方法部分、试验注册、研究计划书、统计分析计划书、其他研究来源(如临床研究报告)或与研究者联系。然后完成下面的结果可用性矩阵(表2),以表明研究结果对将进行偏倚风险评价的每项数据合并的可用性,一旦确定某项研究没有可纳入数据合并的结果时,必须考虑其结果不可用的原因,可参考表3中的情况。同时还需明确每项研究纳入分析的受试者总数,以表明数据合并中每项研究的可能权重。


2.3 步骤三:评价系统评价中研究缺失的可能性
无论纳入的研究是否存在结果缺失,数据合并都有可能由于研究缺失而造成结果缺失。ROB-ME工具第三步的信号问题用于确定是否因为结果的P值、大小或方向,一些符合纳入标准的研究可能没有被纳入。相关信号问题及供选答案见表4。

2.4 步骤四:对每项数据合并的证据缺失偏倚风险评价
ROB-ME工具第四步包括8个信号问题,用于判断证据缺失偏倚风险。这些问题根据是由目前为止在上述步骤中整理的材料提出的,分别评价研究内的不报告偏倚和研究间的不报告偏倚。与步骤一至步骤三只需要完成一次不同,这部分需分别评价每项数据合并中的证据缺失偏倚风险。相关信号问题及供选答案见表5。

基于对步骤四中信号问题的回答,每项数据合并的证据缺失偏倚风险可分为三个等级:“低风险”,即不太可能由于证据缺失而造成偏倚;“高风险”,即很可能由于证据缺失而造成偏倚;“中风险”,即证据缺失的程度或潜在影响存在不确定性,从而排除了对低风险或高风险的判断。相关偏倚风险分级的决策路径见图2。

此外,对每项数据合并的证据缺失偏倚风险做出判断后,评价者还可预计偏倚的方向:对试验组有利、对对照组有利、趋于无效假设、远离无效假设、无法预计以及不适用(not applicable,NA)。
3 ROB-ME工具的使用示例
我们以2015年的一篇系统评价为例[9],其数据合并1.5(Analysis 1.5)共纳入分析6项研究,包括244名受试者,且已知3项存在结果缺失的研究。对此,步骤三3.1~3.3及步骤四4.1~4.8相关信号问题的回答见表6。根据图2所示偏倚风险决策路径图可知:本项数据合并的不报告偏倚风险为高风险。

4 讨论
4.1 研究内的不报告偏倚(研究结果缺失)
为了更加直观地对有结果缺失的数据合并进行可视化表达,Page等[7]建议在传统森林图[9]的基础上加上有结果缺失的研究,提供了一个改良的森林图示例[7]。研究者可将存在结果缺失的已知研究添加到森林图中,同时补充样本量信息以及任何与结果相关的信息(例如结果的P值、效应的方向等)。使用时需注意,森林图不需要包括以下研究:一是没有测量感兴趣的结局的研究;二是研究结果缺失的原因与结果的P值、大小或方向无关(例如由于大量数据缺失);三是无法确认研究产生了待纳入的结果(例如公开来源或与作者联系均未提供预先指定结局的信息)。
4.2 研究间的不报告偏倚(研究缺失)
长期以来,循证医学研究对研究间的不报告偏倚主要关注在发表偏倚上,并且在GRADE证据评级时也很重视发表偏倚[6]。对发表偏倚的分析方法对研究间的不报告偏倚同样适用,在信号问题4.7和4.8所提及的分析方法主要基于观察的研究结果的图形(pattern of observed results)和敏感性分析,包括:① 漏斗图的观察[10];② 漏斗图对称性检验[11];③ 比较固定效应与随机效应的Meta分析效应值[7];④ 观察森林图或表格中的研究结果的P值、大小或方向[7]。在漏斗图中,横坐标是效应值,纵坐标是倒序的标准误、代表样本量或精确性:对于大样本研究所对应的散点,其精确性高、随机误差小,其效应值与合并效应值的距离往往较近;对于小样本研究所对应的散点,其精确性差、随机误差大,其效应值与合并效应值的距离可能波动较远[10]。理想状态下(没有发生证据缺失的情况下),漏斗图应该是以合并效应值为对称轴、左右大致对称的上窄下宽的分布图像,即倒置的漏斗形状。在报告研究结果时,通常是样本量小、研究结果阴性的研究容易发生研究间的不报告偏倚,即漏斗图下端小样本研究靠近无效假设的区域散点较远离无效假设的区域稀疏,导致小样本研究估计的效应值与大样本研究估计的效应值不同,因此研究间的不报告偏倚在漏斗图的表现又被叫做“小样本研究效应”(small-study effects)[7,10-11]。Sterne等[11]发现当纳入研究不足10个时,漏斗图对称性检验效能较低,因此建议超过10个研究才绘制漏斗图、进行对称性检验。
综上所述,不报告偏倚(证据缺失偏倚)会影响系统评价和相关数据合并结论的可靠性。因此对证据缺失偏倚采用恰当的方法学质量评价显得尤为重要。ROB-ME工具通过回答一系列逻辑严密的相关信号问题,可以对每项数据合并的证据缺失偏倚风险做出准确判断,其评价流程科学严谨,操作简便,具有逻辑清晰、细节完善、适用性良好的优点。目前,ROB-ME工具尚处于初步测试阶段,尚未提供Excel或Access的文档工具,ROB-ME仍在进一步完善和改进中。简而言之,ROB-ME工具在评价证据缺失偏倚风险方面具有相当大的优势,虽然尚在初步测试阶段,仍可为临床研究者提供权威参考,值得推广和应用。
1 ROB-ME工具的制订背景
系统评价作为循证医学研究的重要工具和方法,强调尽可能收集所有符合纳入标准的原始研究并进行方法学质量评价,提取特征和数据,对原始研究结果数据进行合并,最后进行证据评级,其中系统评价的数据合并(synthesis)包括Meta分析、Meta回归等方法。对每项数据合并进行GRADE证据评级时需要充分考虑到报告偏倚(reporting bias),例如:RoB 2[1]、ROBINS-I[2]或ROBINS-E[3]等偏倚风险评价工具中的选择性报告偏倚(selective reporting bias)[4-5],基于漏斗图等分析的发表偏倚(publication bias)[6]等。
当研究者根据研究结果的P值、大小或方向,从多个测量指标、多种统计分析方法、多个亚组中刻意选择一部分结果进行报告时,就会产生选择性报告偏倚。例如,研究人员使用两种工具来进行疼痛程度的测量,但只报告了统计学上具有显著性的测量结果,而没有报告另一种疼痛测量工具的结果,若这时进行系统评价便有一个可用的结果纳入数据合并,使用该结果将有较高的偏倚风险。因此,在开发偏倚风险评价工具时,RoB 2[1]、ROBINS-I[2]和ROBINS-E[3]等工具开发团队都已经充分考虑到了这种选择性报告研究结果所致偏倚风险。
然而,除了选择性报告偏倚以外,还会因为研究结果的P值、效应值的大小或方向而导致研究结果没有报告、报告不可获取、报告的研究结果不可用于数据合并等情况的报告偏倚。Page等[7]将这类选择性报告偏倚以外的报告偏倚定义为“不报告偏倚”(non-reporting bias):因为研究结果的P值、大小或方向影响研究结果的可用性,导致证据缺失(missing evidence)即无法获取所有的研究和结果,故又叫做“证据缺失偏倚”(bias due to missing evidence)。不报告偏倚(证据缺失偏倚)包括:① 研究内的不报告偏倚(with-study non-reporting bias)即研究者根据研究结果的P值、大小或方向,在研究报告中刻意不报告某些结果,这种情况下证据缺失表现为研究结果缺失(missing results),可以通过研究计划书、试验注册、统计分析计划等渠道进行验证,因此比喻为“已知的未知”(known unknowns);② 研究间的不报告偏倚(across-study non-reporting bias)即由于研究结果的P值、大小或方向导致研究报告无法发表或延迟发表[8],或即使发表也无法被系统评价获取(如发表在非英文期刊、未被数据库索引的期刊上)[8],这类情况下证据缺失表现为研究缺失(missing studies),因此比喻为“未知的未知”(unknown unknowns)。关于报告偏倚的总结见图1。

基于此背景,Page等[7]2017年开始开发新的偏倚风险评价工具,用于评价数据合并中的不报告偏倚(证据缺失偏倚),并且2020年在Risk of bias tools官网上正式发布了ROB-ME(Risk Of Bias due to Missing Evidence)工具。ROB-ME工具遵循了与RoB 2[1]、ROBINS-I[2]等工具相似的开发原则,故而比较严谨科学,本文旨在对ROB-ME工具进行解读。
2 ROB-ME工具解读
ROB-ME工具用于系统评价中每项数据合并的证据缺失偏倚风险评价,其过程较为简便,分为四步:第一是选择并定义将进行证据缺失偏倚风险评价的数据合并;第二是确定哪些纳入的研究有结果缺失,为评价研究内的不报告偏倚风险做准备;第三是评价系统评价中研究缺失的可能性,为评价研究间的不报告偏倚风险做准备;第四是基于前三步的准备工作,对每项数据合并的证据缺失偏倚风险做出评价。
ROB-ME工具包含了多个不同的信号问题,在评价证据缺失偏倚风险时,需做出判断并客观地回答这些问题。与RoB 2[1]、ROBINS-I[2]等工具类似,ROB-ME工具的信号问题的供选答案有:是(yes,Y)、可能是(probably yes,PY)、可能否(probably no,PN)、否(no,N)、没有信息(no information,NI)、不适用(not applicable,NA)。
2.1 步骤一:选择并定义将进行证据缺失偏倚风险评价的数据合并
在系统评价中同时评价所有数据合并的证据缺失偏倚风险可行性较差,尤其是系统评价进行了多项数据合并,而且每项数据合并纳入了多项研究。因此,评价者应该预先指定将进行证据缺失偏倚风险评价的数据合并(一般选择患者和医务人员最关心的结局),并明确定义符合每项数据合并的研究结果类型,即确定每项数据合并限定于哪些特定条件(表1),否则将很难确定哪些结果有缺失。

2.2 步骤二:确定哪些纳入的研究有结果缺失
对每项符合系统评价纳入标准的研究,将可用的结果与预先指定的信息(包括将测量哪些结局、进行哪些分析等)进行比较。这些信息可能来自文章的方法部分、试验注册、研究计划书、统计分析计划书、其他研究来源(如临床研究报告)或与研究者联系。然后完成下面的结果可用性矩阵(表2),以表明研究结果对将进行偏倚风险评价的每项数据合并的可用性,一旦确定某项研究没有可纳入数据合并的结果时,必须考虑其结果不可用的原因,可参考表3中的情况。同时还需明确每项研究纳入分析的受试者总数,以表明数据合并中每项研究的可能权重。


2.3 步骤三:评价系统评价中研究缺失的可能性
无论纳入的研究是否存在结果缺失,数据合并都有可能由于研究缺失而造成结果缺失。ROB-ME工具第三步的信号问题用于确定是否因为结果的P值、大小或方向,一些符合纳入标准的研究可能没有被纳入。相关信号问题及供选答案见表4。

2.4 步骤四:对每项数据合并的证据缺失偏倚风险评价
ROB-ME工具第四步包括8个信号问题,用于判断证据缺失偏倚风险。这些问题根据是由目前为止在上述步骤中整理的材料提出的,分别评价研究内的不报告偏倚和研究间的不报告偏倚。与步骤一至步骤三只需要完成一次不同,这部分需分别评价每项数据合并中的证据缺失偏倚风险。相关信号问题及供选答案见表5。

基于对步骤四中信号问题的回答,每项数据合并的证据缺失偏倚风险可分为三个等级:“低风险”,即不太可能由于证据缺失而造成偏倚;“高风险”,即很可能由于证据缺失而造成偏倚;“中风险”,即证据缺失的程度或潜在影响存在不确定性,从而排除了对低风险或高风险的判断。相关偏倚风险分级的决策路径见图2。

此外,对每项数据合并的证据缺失偏倚风险做出判断后,评价者还可预计偏倚的方向:对试验组有利、对对照组有利、趋于无效假设、远离无效假设、无法预计以及不适用(not applicable,NA)。
3 ROB-ME工具的使用示例
我们以2015年的一篇系统评价为例[9],其数据合并1.5(Analysis 1.5)共纳入分析6项研究,包括244名受试者,且已知3项存在结果缺失的研究。对此,步骤三3.1~3.3及步骤四4.1~4.8相关信号问题的回答见表6。根据图2所示偏倚风险决策路径图可知:本项数据合并的不报告偏倚风险为高风险。

4 讨论
4.1 研究内的不报告偏倚(研究结果缺失)
为了更加直观地对有结果缺失的数据合并进行可视化表达,Page等[7]建议在传统森林图[9]的基础上加上有结果缺失的研究,提供了一个改良的森林图示例[7]。研究者可将存在结果缺失的已知研究添加到森林图中,同时补充样本量信息以及任何与结果相关的信息(例如结果的P值、效应的方向等)。使用时需注意,森林图不需要包括以下研究:一是没有测量感兴趣的结局的研究;二是研究结果缺失的原因与结果的P值、大小或方向无关(例如由于大量数据缺失);三是无法确认研究产生了待纳入的结果(例如公开来源或与作者联系均未提供预先指定结局的信息)。
4.2 研究间的不报告偏倚(研究缺失)
长期以来,循证医学研究对研究间的不报告偏倚主要关注在发表偏倚上,并且在GRADE证据评级时也很重视发表偏倚[6]。对发表偏倚的分析方法对研究间的不报告偏倚同样适用,在信号问题4.7和4.8所提及的分析方法主要基于观察的研究结果的图形(pattern of observed results)和敏感性分析,包括:① 漏斗图的观察[10];② 漏斗图对称性检验[11];③ 比较固定效应与随机效应的Meta分析效应值[7];④ 观察森林图或表格中的研究结果的P值、大小或方向[7]。在漏斗图中,横坐标是效应值,纵坐标是倒序的标准误、代表样本量或精确性:对于大样本研究所对应的散点,其精确性高、随机误差小,其效应值与合并效应值的距离往往较近;对于小样本研究所对应的散点,其精确性差、随机误差大,其效应值与合并效应值的距离可能波动较远[10]。理想状态下(没有发生证据缺失的情况下),漏斗图应该是以合并效应值为对称轴、左右大致对称的上窄下宽的分布图像,即倒置的漏斗形状。在报告研究结果时,通常是样本量小、研究结果阴性的研究容易发生研究间的不报告偏倚,即漏斗图下端小样本研究靠近无效假设的区域散点较远离无效假设的区域稀疏,导致小样本研究估计的效应值与大样本研究估计的效应值不同,因此研究间的不报告偏倚在漏斗图的表现又被叫做“小样本研究效应”(small-study effects)[7,10-11]。Sterne等[11]发现当纳入研究不足10个时,漏斗图对称性检验效能较低,因此建议超过10个研究才绘制漏斗图、进行对称性检验。
综上所述,不报告偏倚(证据缺失偏倚)会影响系统评价和相关数据合并结论的可靠性。因此对证据缺失偏倚采用恰当的方法学质量评价显得尤为重要。ROB-ME工具通过回答一系列逻辑严密的相关信号问题,可以对每项数据合并的证据缺失偏倚风险做出准确判断,其评价流程科学严谨,操作简便,具有逻辑清晰、细节完善、适用性良好的优点。目前,ROB-ME工具尚处于初步测试阶段,尚未提供Excel或Access的文档工具,ROB-ME仍在进一步完善和改进中。简而言之,ROB-ME工具在评价证据缺失偏倚风险方面具有相当大的优势,虽然尚在初步测试阶段,仍可为临床研究者提供权威参考,值得推广和应用。