临床研究结果判读不仅需要关注统计学意义(P<0.05),还应关注结果的临床意义。最小临床意义差值(MCID)的提出为结果临床意义的判断提供了依据。此外,MCID 还可在指南制订过程中协助证据质量判断、为临床试验提供样本量估算依据和指导临床决策等。本文主要介绍 MCID 的概念和定义的演变、四种常用估算方法的细节、影响因素、各自的优缺点和适用范围,为研究者进行 MCID 估算方法选择提供参考和指导。
引用本文: 杨丽虹, 刘少南, 吴大嵘, 葛龙, 郭新峰. 最小临床意义差值的概念及其估算方法. 中国循证医学杂志, 2020, 20(11): 1345-1352. doi: 10.7507/1672-2531.202007091 复制
对临床研究结果的判断已从单纯关注统计学差异(P<0.05),发展到同时关注结果的临床意义和临床效应量的大小。随机对照试验报告规范 CONSORT 及其补充声明强调,试验结果推导时除了统计学意义还需结合临床意义考虑[1]。假设检验能帮助我们判断结果看到的差异是否来自随机误差(即两组数据是否真正存在差异)[2],但差异的变化幅度是否具有临床意义呢?这个问题可以通过最小临床意义差值(minimal clinically important difference,MCID)来回答,临床研究结果必须大于 MCID 方可认为具有临床意义。此外,MCID 还可在指南制订过程中协助证据质量判断、为临床试验提供样本量估算依据和指导临床决策等。本文主要通过介绍 MCID 的概念和定义的演变、四种常用估算方法的细节、影响因素、各自的优缺点和适用范围等,为研究者对 MCID 估算方法的选择提供参考和指导。
1 MCID 的概念与定义
MCID 最早提出是为解决生存质量量表和临床疗效问卷分值变化的临床意义解释的问题。随后,学者们从不同角度对 MCID 的概念和定义做出修订(表 1)[3],其使用范围也在扩展和延伸。

1.1 MCID
1987 年,麦克马斯特大学 Guyatt 等 3 位学者提出,评价量表实用性时除了常用的信度和效度之外,还应考虑其发现最小临床差异的能力,即量表的反应度[4]。虽然没有给出 MCID 的定义,但提出了这个差异值可通过已知其效应大小的治疗措施引起的变化进行初步估算。1989 年,Jaeschke 和 Guyatt 等正式对 MCID 进行了定义:在不考虑副作用和成本负担的情况下,患者认为有获益的最小变化值,该变化可促使改变患者管理方案[5]。这是 MCID 发展史上最具影响力的定义。2002 年,Guyatt 等指出临床意义的目标受众包括医生、患者和卫生政策制定者等,“临床”的界定应该更加广泛,故他们将其称为最小重要差值(minimal important difference,MID)[6]。MCID 和 MID 两者均是被广泛使用的术语。
1.2 最小可测变化值
2003 年,Norman 等指出 Jaeschke 等提出的 MCID 概念并没有考虑到获益和副作用或费用的权衡,因此更适合于将该定义视为最小可测差值(minimally detectable difference,MDD)[7]。MDD 或最小可测变化值(minimal detectable change,MDC)是一个与测量误差高度相关的概念:指除测量误差外,测量工具可以检测到的最小变化。但并非任何变化都是有真正意义的改变,微小的变化可能是因为测量误差引起的。de Vet 等认为不应将 MDC 等同与 MCID,两者是不同的概念[8, 9],且基于分布法计算出来的 MDC 是个统计界值,并没有体现任何“临床意义”。
1.3 充分变化值
在上述提及的 MCID 定义中,均没有把成本和风险等纳入考虑。2005 年,Barrett 等对“临床意义”进行了延伸,提出充分重要差值(sufficiently important difference,SID)的概念:在考虑相关成本、风险和便捷性等因素后,患者认为重要的最小获益[10]。
2 MCID 的估算方法
目前主要使用的方法包括效标法、分布法、文献分析法和专家共识法等。效标法的估算过程结合了专业临床意义,是主要推荐的估算方法;但它忽略了测量误差。分布法考虑了测量误差,对多种指标的估算方法均有明确的计算公式,易于操作;但单纯从统计学角度得出的估算结果无法反映其临床意义,一般作为辅助方法,不单独使用。文献分析法是对既往不断累积的临床试验结果进行系统回顾,可能提供目标测量指标与主要临床终点相关性的数据,可作为确定 MCID 的参考依据。专家共识法基于群组决策和共识确定 MCID,受到参与专家经验和知识领域的影响,主观性较强;虽不建议直接使用共识法确定 MCID,但可对其他方法获得多个 MCID 估计值开展专家共识,确定最终的 MCID。
2.1 效标法
效标法,亦翻译为锚定法,又称“外部参照”法,是通过检验目标测量工具与另一个独立的测量工具(外部效标)的关系来阐明目标测量工具数值变化的含义[6]。效标法包括 3 个重要内容:效标的选择、截点值的确定和统计方法的选择。
2.1.1 效标的选择
效标的选择是效标法的核心。选择效标时,需考虑其与疾病进展和预后的相关性、临床可解释性和临床接受程度,并且与目标测量工具之间应具有中等程度以上的相关性。Revicki 等[19]推荐两者的相关系数应≥0.3~0.35。两者相关性越强,其结果推论的可信度则越高;反之,弱相关容易产生误导性的推论[20];若相关性为零,则基于该效标估算的 MCID 没有任何意义。效标可选择一个或多个。当仅选用一个效标来估算时,需要两者有更强的相关性才能产生令人信服的推论。另外,考虑到效标选择的多样性和定义最小差异的临界值的不确定性,单一效标估算的结果往往容易出现偏差,故学者们普遍建议采用多个独立效标进行估算的策略。
效标包括主观效标和客观效标。主观效标按评价者分为患者观点、医生观点和费用支付者观点等类型[21]。主观效标是对既往一段时间内病情变化的判断,容易出现多种偏倚。客观效标可选择实验室检查指标、生理检查指标和临床结局等。如 Witt 等选用 6 分钟步行距离(6 min walking distance,6MWD)、用力肺活量百分比(percent of forced vital capacity,FVC%)和一氧化碳弥散量百分比(percent of diffusing capacity for carbon monoxide,DLCO%)等客观效标来估算 SF-36 身体因子分和心理因子分在特发性肺纤维化患者治疗中的 MCID[22]。
对于病死率这一终点指标是否适合作为效标,学者们有着不同的观点。Gupta[23]等对 Polkey 等[24]通过病死率为效标估算 6MWD 在慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)患者的 MCID 提出质疑。Gupta 等认为没有比死亡更差的结局了,以其为效标估算出来的步行距离的改变应该是最大而不是最小的临床差异[23]。但 Polkey 等认为对于非致死性或病死率极低的疾病来说,使用生存质量或反映疾病严重程度变化的替代指标可能是更合适的效标,但对如 COPD 中晚期死亡风险较高的疾病,以临床相关重要结局如病死率为效标,通过 6MWD 的变化预测死亡风险,对临床实践决策和临床研究设计都更有价值[25]。
2.1.2 截点值的确定
对于已建立 MCID 的效标,可直接采用 MCID 作为截点值;等级变量的效标,可结合临床判断改变一个或多个等级作为截点值。
2.1.3 效标法的统计方法
2.1.3.1 均数差法
均数差法根据数据分布选择统计值:若差值服从正态分布,以差值的均值为 MCID;若服从偏态分布,以中位数作为 MCID[26, 27]。依据效标的截点值可划分出轻微变化组和无变化组人群。在横断面设计中,MCID 是轻微变化组和无变化组的目标测量指标的均数差。在纵向设计中,MCID 可通过两组均数差进行估算,亦可通过轻微变化组的目标测量指标在治疗前后的均数差获得。
首个 MCID 的研究采用了纵向数据组内差异的均数差法[5]。以患者主观判断的总体评价为效标,对气促、疲倦等症状进行 15 个等级的总体评价(−7:严重恶化,0:没有变化,7:明显好转)。评价为 1~3 分/−3~−1 分者为轻微改善/恶化组。轻微改善/恶化组患者治疗前后的慢性呼吸问卷和慢性心力衰竭问卷评分的均数差为相应的 MCID。
2.1.3.2 受试者工作特征(receiver operating characteristic,ROC)曲线法
采用类似诊断试验的思路,将目标测量指标视为新方法,效标视为金标准。通过设定多个效标的截点值,计算其敏感度和特异度;并以敏感度作为纵坐标、1−特异度作为横坐标绘制 ROC 曲线。选择约登指数(敏感度+特异度−1)最大的点作为 MCID 估计值。通过 ROC 曲线下面积(area under curve,AUC)判断该截点值的准确性。AUC>0.7 说明准确性较高[28]。
2.1.3.3 回归分析法
通过建立效标和目标测量指标的数学模型估算 MCID。Patrick 等以血红蛋白(hemoglobin,Hb)为效标,估算促红素治疗白血病患者贫血的健康相关生活质量量表(health-related quality of life,HrQOL)的 MCID,采用线性回归模型建立量表和 Hb 两者变化值的回归方程(ΔHrQOL=α+βΔHb+ε,其中 α 为常数项,β 为回归系数,ΔHb 为 Hb 变化的截点值,ε 为误差项)。临床医生可根据各自经验设定效标(Hb)的截点值,Hb 改变达截点值的单位数时相应量表的分数变化即为量表的 MCID[29]。
2.1.4 效标法的优点及其局限
效标法对所估算的 MCID 可以给出专业的临床意义解释。这也是学者们推荐以效标法为主确定 MCID 的原因。但其估算过程涉及样本、效标和统计方法的选择等多个环节均可能会影响估算结果。使用不同的效标可能会得出不同的 MCID。不同估算方法采用人群内部前后变化数据或是人群组间差异数据来估算、使用指标的绝对值或是相对值来估算及使用改善或是恶化两个不同方向来估算等及样本选择方面包括人群的人口学特征、疾病诊断及其严重程度、基线状态和接受的干预措施等因素均可能会影响其结果。其次,效标法忽略了测量误差,效标法估算的 MCID 很有可能在测量工具的随机误差范围内,那么这个估算值则没有指导意义,不适宜选作为 MCID。再者,效标的数据分布特征可能会影响结果。如效标呈高度偏态分布,MCID 的估算则会受到异常值的影响[30]。
2.2 分布法
分布法,又称为“内部参照”法[20],是基于样本数据分布情况从统计学角度来估算 MCID(表 2)。

2.2.1 基于统计学差异的估算方法
Speer 和 Greenbaum 提出生长曲线分析法,使用个体数据的估计生长系数来测量个体变化[31]。计算方法是斜率的经验贝叶斯估计值除以斜率标准误的经验贝叶斯估计值[31]。该法要求较大的样本量,且其他条件不变情况下,该法计算的指标随样本量增加而增加[32]。另外,该法需要满足缺失数据类型为随机缺失的使用假设[33]。
2.2.2 基于样本变异性的估算方法
与基于统计差异的估算方法相比,本类估算方法的特征是不受样本量影响。
2.2.2.1 效应值(effect size,ES)
ES 是一个反映“信噪比”的统计量,通过前后两次测量结果的均数差除以基线测量结果的标准差[ES=(Xpost−Xpre)/SDpre]。对于效应量的大小解释,Cohen 建议分别以 0.2、0.5 和 0.8 作为弱效应量、中等效应量和大效应量的判断界值[34]。Samsa 等基于文献回顾,提出以 ES 为 0.2 作为 MCID 的估算[35]。Norman 等认为 ES 为 0.5 适合作为 MCID 的估算[7]。由 ES 计算公式可知,ES 估算 MCID 容易受到基线数据分布所影响,基线数据的标准差越大,产生的效应则越小[36]。另外,ES 估算没有考虑到前后差值的分布情况[32]。
2.2.2.2 标准化反应平均数(standardized response mean,SRM)
SRM 是与 ES 相似的统计量,但 SRM 考虑了前后数据差值的分布,不受基线数据分布的影响,弥补了 ES 估算的不足。具体计算是前后两次测量结果的均数差除以其标准差[SRM=(Xpost−Xpre)/SDdiff]。SRM 同样以 0.2、05 和 0.8 为效应大小的判断界值[37]。
2.2.2.3 标准差(standard deviation,SD)
Norman 等对 38 个研究分析的结果显示除少数研究外,HrQOL 的 MCID 接近于 0.5 个 SD,提示以 0.5 个 SD 估算 MCID[7]。也有研究使用 1/3 或 1 个 SD 来估算[7]。
2.2.3 基于测量工具精确性的估算方法
2.2.3.1 标准测量误差(standard error of measurement,SEM)
理论上来说,一个测量工具所测得的实际数值应该等于真实数值加上误差。误差越小,实际数值越接近真实值。任何低于 SEM 的实际数值都可能是由测量误差引起的,而并非真正变化。SEM 反映的是测量工具的特性,而不是样本的特征(SEM=SD0,其中 SD0 为基线数据的标准差,r 为测量工具的可靠性系数)。对于量表结局指标,r 一般采用重测信度,在重测信度系数缺如的情况下可采用克朗巴赫系数(Cronbach’s α);对于非量表结局指标,r 可采用组内相关系数(intra-class correlation reliability,ICC)。上述系数均是反映前后两次测量结果一致性的相关系数指标,取值范围在 0~1 之间,>0.7 认为信度较好[38]。在实际应用中,因为 r 的取值方法不同和极端值的存在,同一个测量工具在不同样本中会得到不同的 SEM。
大部分研究使用 1 个 SEM 作为 MCID 的估计值[39-41]。也有学者建议使用更保守的 1.96 个 SEM[32](1.96 是标准正态曲线上 95% 可信区间对应的值)来减少结果的假阳性的概率。对于数据来源于两组样本而非同一组样本前后的结果时,可使用调整了样本抽样误差的 2.77 个 SEM 作为估计值()[42, 43]。
2.2.3.2 可靠变化指数(reliable change index,RCI)
RCI 是与 SEM 相关的统计量。RCI=(Xpost–Xpre)/SEdiff,其中,SEdiff 是前后测量结果差值的测量误差的标准差(SEdiff=)[44]。有学者建议将 RCI 与所选可信区间水平的 z 值相乘来估算 MCID[45]。如,选择 95%CI,则将 RCI 乘以 1.96 为 MCID 的估算值。
2.2.4 分布法的优点和局限
分布法考虑了测量误差,有明确的计算公式,实际操作易于实现;且分布法得出的是标准化无量纲的指标,可以在不同人群和研究之间进行比较[32]。分布法中基于测量工具精确度的估算方法(如 SEM 和 RCI)更为可靠。它们量化了测量工具的随机误差,并且不受样本量、基线数据以及前后差值变异程度的影响。
但分布法基于纯粹的统计推理,它们本身并不能表明所观察到变化的临床意义,只能识别出 MDC[30]。样本大小不同会改变其结果,样本量越大,样本数据的变异性相对变小,估算的 MCID 相应变小,甚至接近于零。这是分布法的数学特性,与临床变化无关。不少学者认为分布法不适合作为 MCID 的估算方法,其结果仅作为参考。FDA 建议将分布法作为效标法的辅助方法来确定 MCID[46]。只有在效标法无法实施的情况下,才考虑单独使用分布法。而分布法的拥护者对于哪个截点最合适作为 MCID 估计值的问题也存在争议,并且他们也认识到这些方法需要与其他临床标准进行比较以提高其临床重要性的可解释性[32]。分布法的另外一个局限是它们都是基于群体数据变化进行估算,故其适用于临床研究,但不适用于对临床中单个患者进行临床疗效评价。
2.3 文献分析法
不断累积的临床试验证据为确定 MCID 提供了丰富且有价值的信息。Revicki 等建议在确定 MCID 时,应系统回顾既往发表的临床试验结果,综合目标测量工具的疗效变化作为 MCID 选择的参考依据[19]。如 OMERACT 组织通过系统性回顾风湿性关节炎、骨关节炎、骨质疏松和腰痛的临床研究文献中常用结局评价指标治疗前后的变化作为其 MCID 的参考范围[15]。
2.4 专家共识法
专家共识法是基于群组决策和共识的方法来确定 MCID 或是从多种方法估算的 MCID 中最终确定一个 MCID 值。风湿病结局评价组织(Outcome Measures in Rheumatology,OMERACT)认为专家共识法是确定评价风湿病关节结构性损伤进展影像学检查的 MCID 的合理方法[47]。骨关节炎课题组在开展临床试验前,通过 3 轮的德尔菲专家共识确定系列结局评价指标的 MCID[48]。该法主要受到参与专家的经验和知识领域等影响,主观性较强。在共识过程中,结合文献分析法以及实际临床数据拟定 MCID 参考值或参考范围供专家参考评价,可提高结果的可信度和可行性。如美国风湿病学学会类风湿性关节炎临床疗效标准 ACR20(American College of Rheumatology 20% improvement criteria)的确定过程是一个很好的例子[49]。首先进行临床医生调查:从既往开展的临床试验中随机选择疗效接近期望改善阈值(20%~45%)的受试者信息,由 89 名风湿病学家根据核心指标的变化情况判断每位受试者是否有临床改善。然后是备选改善标准筛选:选择 80% 以上风湿病学家判断为有临床改善的受试者,用项目组预先确定的多种改善标准进行判断,并保留与专家判断相一致的改善标准。其次是备选改善标准确定:在含有 5 个随机安慰剂对照试验的数据集中分析备选改善标准,选择具有最大能力区分出治疗措施和安慰剂之间疗效差异的改善标准。最后通过专家共识法,确定 ACR 核心指标较基线改善 20%(ACR20)作为评价类风湿性关节炎治疗疗效的标准[49]。
3 实例解析
Oliveira 等基于除外需要住院、紧急插管、机械通气的 COPD 急性加重期患者的队列,收集急性加重 48 小时内(发作期 T1)和加重后 45 天(稳定期 T2)的 COPD 自我评估测试(COPD assessment test,CAT)、改良 Borg 量表(modified Borg scale,MBS),呼吸困难评分(modified British Medical Research Council,mMRC)、外周氧饱和度(peripheral oxygen saturation,SpO2)和 1 秒用力呼气容积(forced expiratory volume in one second,FEV1)等数据,通过分步法和效标法计算系列评价指标的 MCID[50]。本文仅取其中 MBS、mMRC、SpO2 和 FEV1 四个指标的 MCID 计算举例。研究分为以下三步进行:① 分步法估算 MDC:分别使用 ES=(MT1-MT2)、0.5SDT1、SEM=SDT1
和
进行计算,其中 ICC1,2 为各指标既往发表的两次测量结果的组内相关系数,如 SpO2 的 ICC=0.89[51]、MBS 的 ICC=0.95[51]、FEV1 的 ICC=0.96[52]。② 效标法估算 MCID:选择 CAT 为效标,计算皮尔逊相关系数判断效标与各目标测量指标的相关程度,仅对相关系数>0.3 符合效标选择要求者使用效标法估算[19]。以 CAT 的 MCID(2 分)[53]为截点值区分队列人群的轻微改善组和未改善组,分别采用线性回归模型和 ROC 曲线进行估算。③ 分布法和效标法的估算值合并:通过 Meta XL5.3 软件,采用质量效应模型予以效标法更大的权重对两类估算结果进行合并。研究结果显示仅 MBS、mMRC 和 FEV1 三个指标和效标的相关系数>0.3,故效标法仅适用于上述三个指标。但因 MBS 和 FEV1 的 ROC 曲线的 AUC 分别为 0.63 和 0.67,故不取两者的 ROC 曲线估算的 MCID 值。四个指标各种方法的估算值和合并 MCID 估算值见表 3。

4 小结
目前,MCID 的最佳估算方法尚无共识,每种方法都有其优点和局限,且各种方法估算结果有一定差异。以效标法为主、其他方法辅助是学者们主要推荐的 MCID 估算策略。Johnston 等在 2015 年启动了 MCID 研究数据库项目,全面检索 PubMed、EMbase 和 PsycINFO 数据库获取基于效标法估算 PRO 测量工具的 MCID 研究,并开发 MCID 可信度评估工具,对所有获取的研究进可信度评价,为研究者们提供详尽的 MCID 估算方法的资料[54]。对各种方法估算出来的多个 MCID 该如何选择或如何综合及 MCID 应用过程中的注意事项等,有待于新的研究进一步分析。
对临床研究结果的判断已从单纯关注统计学差异(P<0.05),发展到同时关注结果的临床意义和临床效应量的大小。随机对照试验报告规范 CONSORT 及其补充声明强调,试验结果推导时除了统计学意义还需结合临床意义考虑[1]。假设检验能帮助我们判断结果看到的差异是否来自随机误差(即两组数据是否真正存在差异)[2],但差异的变化幅度是否具有临床意义呢?这个问题可以通过最小临床意义差值(minimal clinically important difference,MCID)来回答,临床研究结果必须大于 MCID 方可认为具有临床意义。此外,MCID 还可在指南制订过程中协助证据质量判断、为临床试验提供样本量估算依据和指导临床决策等。本文主要通过介绍 MCID 的概念和定义的演变、四种常用估算方法的细节、影响因素、各自的优缺点和适用范围等,为研究者对 MCID 估算方法的选择提供参考和指导。
1 MCID 的概念与定义
MCID 最早提出是为解决生存质量量表和临床疗效问卷分值变化的临床意义解释的问题。随后,学者们从不同角度对 MCID 的概念和定义做出修订(表 1)[3],其使用范围也在扩展和延伸。

1.1 MCID
1987 年,麦克马斯特大学 Guyatt 等 3 位学者提出,评价量表实用性时除了常用的信度和效度之外,还应考虑其发现最小临床差异的能力,即量表的反应度[4]。虽然没有给出 MCID 的定义,但提出了这个差异值可通过已知其效应大小的治疗措施引起的变化进行初步估算。1989 年,Jaeschke 和 Guyatt 等正式对 MCID 进行了定义:在不考虑副作用和成本负担的情况下,患者认为有获益的最小变化值,该变化可促使改变患者管理方案[5]。这是 MCID 发展史上最具影响力的定义。2002 年,Guyatt 等指出临床意义的目标受众包括医生、患者和卫生政策制定者等,“临床”的界定应该更加广泛,故他们将其称为最小重要差值(minimal important difference,MID)[6]。MCID 和 MID 两者均是被广泛使用的术语。
1.2 最小可测变化值
2003 年,Norman 等指出 Jaeschke 等提出的 MCID 概念并没有考虑到获益和副作用或费用的权衡,因此更适合于将该定义视为最小可测差值(minimally detectable difference,MDD)[7]。MDD 或最小可测变化值(minimal detectable change,MDC)是一个与测量误差高度相关的概念:指除测量误差外,测量工具可以检测到的最小变化。但并非任何变化都是有真正意义的改变,微小的变化可能是因为测量误差引起的。de Vet 等认为不应将 MDC 等同与 MCID,两者是不同的概念[8, 9],且基于分布法计算出来的 MDC 是个统计界值,并没有体现任何“临床意义”。
1.3 充分变化值
在上述提及的 MCID 定义中,均没有把成本和风险等纳入考虑。2005 年,Barrett 等对“临床意义”进行了延伸,提出充分重要差值(sufficiently important difference,SID)的概念:在考虑相关成本、风险和便捷性等因素后,患者认为重要的最小获益[10]。
2 MCID 的估算方法
目前主要使用的方法包括效标法、分布法、文献分析法和专家共识法等。效标法的估算过程结合了专业临床意义,是主要推荐的估算方法;但它忽略了测量误差。分布法考虑了测量误差,对多种指标的估算方法均有明确的计算公式,易于操作;但单纯从统计学角度得出的估算结果无法反映其临床意义,一般作为辅助方法,不单独使用。文献分析法是对既往不断累积的临床试验结果进行系统回顾,可能提供目标测量指标与主要临床终点相关性的数据,可作为确定 MCID 的参考依据。专家共识法基于群组决策和共识确定 MCID,受到参与专家经验和知识领域的影响,主观性较强;虽不建议直接使用共识法确定 MCID,但可对其他方法获得多个 MCID 估计值开展专家共识,确定最终的 MCID。
2.1 效标法
效标法,亦翻译为锚定法,又称“外部参照”法,是通过检验目标测量工具与另一个独立的测量工具(外部效标)的关系来阐明目标测量工具数值变化的含义[6]。效标法包括 3 个重要内容:效标的选择、截点值的确定和统计方法的选择。
2.1.1 效标的选择
效标的选择是效标法的核心。选择效标时,需考虑其与疾病进展和预后的相关性、临床可解释性和临床接受程度,并且与目标测量工具之间应具有中等程度以上的相关性。Revicki 等[19]推荐两者的相关系数应≥0.3~0.35。两者相关性越强,其结果推论的可信度则越高;反之,弱相关容易产生误导性的推论[20];若相关性为零,则基于该效标估算的 MCID 没有任何意义。效标可选择一个或多个。当仅选用一个效标来估算时,需要两者有更强的相关性才能产生令人信服的推论。另外,考虑到效标选择的多样性和定义最小差异的临界值的不确定性,单一效标估算的结果往往容易出现偏差,故学者们普遍建议采用多个独立效标进行估算的策略。
效标包括主观效标和客观效标。主观效标按评价者分为患者观点、医生观点和费用支付者观点等类型[21]。主观效标是对既往一段时间内病情变化的判断,容易出现多种偏倚。客观效标可选择实验室检查指标、生理检查指标和临床结局等。如 Witt 等选用 6 分钟步行距离(6 min walking distance,6MWD)、用力肺活量百分比(percent of forced vital capacity,FVC%)和一氧化碳弥散量百分比(percent of diffusing capacity for carbon monoxide,DLCO%)等客观效标来估算 SF-36 身体因子分和心理因子分在特发性肺纤维化患者治疗中的 MCID[22]。
对于病死率这一终点指标是否适合作为效标,学者们有着不同的观点。Gupta[23]等对 Polkey 等[24]通过病死率为效标估算 6MWD 在慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)患者的 MCID 提出质疑。Gupta 等认为没有比死亡更差的结局了,以其为效标估算出来的步行距离的改变应该是最大而不是最小的临床差异[23]。但 Polkey 等认为对于非致死性或病死率极低的疾病来说,使用生存质量或反映疾病严重程度变化的替代指标可能是更合适的效标,但对如 COPD 中晚期死亡风险较高的疾病,以临床相关重要结局如病死率为效标,通过 6MWD 的变化预测死亡风险,对临床实践决策和临床研究设计都更有价值[25]。
2.1.2 截点值的确定
对于已建立 MCID 的效标,可直接采用 MCID 作为截点值;等级变量的效标,可结合临床判断改变一个或多个等级作为截点值。
2.1.3 效标法的统计方法
2.1.3.1 均数差法
均数差法根据数据分布选择统计值:若差值服从正态分布,以差值的均值为 MCID;若服从偏态分布,以中位数作为 MCID[26, 27]。依据效标的截点值可划分出轻微变化组和无变化组人群。在横断面设计中,MCID 是轻微变化组和无变化组的目标测量指标的均数差。在纵向设计中,MCID 可通过两组均数差进行估算,亦可通过轻微变化组的目标测量指标在治疗前后的均数差获得。
首个 MCID 的研究采用了纵向数据组内差异的均数差法[5]。以患者主观判断的总体评价为效标,对气促、疲倦等症状进行 15 个等级的总体评价(−7:严重恶化,0:没有变化,7:明显好转)。评价为 1~3 分/−3~−1 分者为轻微改善/恶化组。轻微改善/恶化组患者治疗前后的慢性呼吸问卷和慢性心力衰竭问卷评分的均数差为相应的 MCID。
2.1.3.2 受试者工作特征(receiver operating characteristic,ROC)曲线法
采用类似诊断试验的思路,将目标测量指标视为新方法,效标视为金标准。通过设定多个效标的截点值,计算其敏感度和特异度;并以敏感度作为纵坐标、1−特异度作为横坐标绘制 ROC 曲线。选择约登指数(敏感度+特异度−1)最大的点作为 MCID 估计值。通过 ROC 曲线下面积(area under curve,AUC)判断该截点值的准确性。AUC>0.7 说明准确性较高[28]。
2.1.3.3 回归分析法
通过建立效标和目标测量指标的数学模型估算 MCID。Patrick 等以血红蛋白(hemoglobin,Hb)为效标,估算促红素治疗白血病患者贫血的健康相关生活质量量表(health-related quality of life,HrQOL)的 MCID,采用线性回归模型建立量表和 Hb 两者变化值的回归方程(ΔHrQOL=α+βΔHb+ε,其中 α 为常数项,β 为回归系数,ΔHb 为 Hb 变化的截点值,ε 为误差项)。临床医生可根据各自经验设定效标(Hb)的截点值,Hb 改变达截点值的单位数时相应量表的分数变化即为量表的 MCID[29]。
2.1.4 效标法的优点及其局限
效标法对所估算的 MCID 可以给出专业的临床意义解释。这也是学者们推荐以效标法为主确定 MCID 的原因。但其估算过程涉及样本、效标和统计方法的选择等多个环节均可能会影响估算结果。使用不同的效标可能会得出不同的 MCID。不同估算方法采用人群内部前后变化数据或是人群组间差异数据来估算、使用指标的绝对值或是相对值来估算及使用改善或是恶化两个不同方向来估算等及样本选择方面包括人群的人口学特征、疾病诊断及其严重程度、基线状态和接受的干预措施等因素均可能会影响其结果。其次,效标法忽略了测量误差,效标法估算的 MCID 很有可能在测量工具的随机误差范围内,那么这个估算值则没有指导意义,不适宜选作为 MCID。再者,效标的数据分布特征可能会影响结果。如效标呈高度偏态分布,MCID 的估算则会受到异常值的影响[30]。
2.2 分布法
分布法,又称为“内部参照”法[20],是基于样本数据分布情况从统计学角度来估算 MCID(表 2)。

2.2.1 基于统计学差异的估算方法
Speer 和 Greenbaum 提出生长曲线分析法,使用个体数据的估计生长系数来测量个体变化[31]。计算方法是斜率的经验贝叶斯估计值除以斜率标准误的经验贝叶斯估计值[31]。该法要求较大的样本量,且其他条件不变情况下,该法计算的指标随样本量增加而增加[32]。另外,该法需要满足缺失数据类型为随机缺失的使用假设[33]。
2.2.2 基于样本变异性的估算方法
与基于统计差异的估算方法相比,本类估算方法的特征是不受样本量影响。
2.2.2.1 效应值(effect size,ES)
ES 是一个反映“信噪比”的统计量,通过前后两次测量结果的均数差除以基线测量结果的标准差[ES=(Xpost−Xpre)/SDpre]。对于效应量的大小解释,Cohen 建议分别以 0.2、0.5 和 0.8 作为弱效应量、中等效应量和大效应量的判断界值[34]。Samsa 等基于文献回顾,提出以 ES 为 0.2 作为 MCID 的估算[35]。Norman 等认为 ES 为 0.5 适合作为 MCID 的估算[7]。由 ES 计算公式可知,ES 估算 MCID 容易受到基线数据分布所影响,基线数据的标准差越大,产生的效应则越小[36]。另外,ES 估算没有考虑到前后差值的分布情况[32]。
2.2.2.2 标准化反应平均数(standardized response mean,SRM)
SRM 是与 ES 相似的统计量,但 SRM 考虑了前后数据差值的分布,不受基线数据分布的影响,弥补了 ES 估算的不足。具体计算是前后两次测量结果的均数差除以其标准差[SRM=(Xpost−Xpre)/SDdiff]。SRM 同样以 0.2、05 和 0.8 为效应大小的判断界值[37]。
2.2.2.3 标准差(standard deviation,SD)
Norman 等对 38 个研究分析的结果显示除少数研究外,HrQOL 的 MCID 接近于 0.5 个 SD,提示以 0.5 个 SD 估算 MCID[7]。也有研究使用 1/3 或 1 个 SD 来估算[7]。
2.2.3 基于测量工具精确性的估算方法
2.2.3.1 标准测量误差(standard error of measurement,SEM)
理论上来说,一个测量工具所测得的实际数值应该等于真实数值加上误差。误差越小,实际数值越接近真实值。任何低于 SEM 的实际数值都可能是由测量误差引起的,而并非真正变化。SEM 反映的是测量工具的特性,而不是样本的特征(SEM=SD0,其中 SD0 为基线数据的标准差,r 为测量工具的可靠性系数)。对于量表结局指标,r 一般采用重测信度,在重测信度系数缺如的情况下可采用克朗巴赫系数(Cronbach’s α);对于非量表结局指标,r 可采用组内相关系数(intra-class correlation reliability,ICC)。上述系数均是反映前后两次测量结果一致性的相关系数指标,取值范围在 0~1 之间,>0.7 认为信度较好[38]。在实际应用中,因为 r 的取值方法不同和极端值的存在,同一个测量工具在不同样本中会得到不同的 SEM。
大部分研究使用 1 个 SEM 作为 MCID 的估计值[39-41]。也有学者建议使用更保守的 1.96 个 SEM[32](1.96 是标准正态曲线上 95% 可信区间对应的值)来减少结果的假阳性的概率。对于数据来源于两组样本而非同一组样本前后的结果时,可使用调整了样本抽样误差的 2.77 个 SEM 作为估计值()[42, 43]。
2.2.3.2 可靠变化指数(reliable change index,RCI)
RCI 是与 SEM 相关的统计量。RCI=(Xpost–Xpre)/SEdiff,其中,SEdiff 是前后测量结果差值的测量误差的标准差(SEdiff=)[44]。有学者建议将 RCI 与所选可信区间水平的 z 值相乘来估算 MCID[45]。如,选择 95%CI,则将 RCI 乘以 1.96 为 MCID 的估算值。
2.2.4 分布法的优点和局限
分布法考虑了测量误差,有明确的计算公式,实际操作易于实现;且分布法得出的是标准化无量纲的指标,可以在不同人群和研究之间进行比较[32]。分布法中基于测量工具精确度的估算方法(如 SEM 和 RCI)更为可靠。它们量化了测量工具的随机误差,并且不受样本量、基线数据以及前后差值变异程度的影响。
但分布法基于纯粹的统计推理,它们本身并不能表明所观察到变化的临床意义,只能识别出 MDC[30]。样本大小不同会改变其结果,样本量越大,样本数据的变异性相对变小,估算的 MCID 相应变小,甚至接近于零。这是分布法的数学特性,与临床变化无关。不少学者认为分布法不适合作为 MCID 的估算方法,其结果仅作为参考。FDA 建议将分布法作为效标法的辅助方法来确定 MCID[46]。只有在效标法无法实施的情况下,才考虑单独使用分布法。而分布法的拥护者对于哪个截点最合适作为 MCID 估计值的问题也存在争议,并且他们也认识到这些方法需要与其他临床标准进行比较以提高其临床重要性的可解释性[32]。分布法的另外一个局限是它们都是基于群体数据变化进行估算,故其适用于临床研究,但不适用于对临床中单个患者进行临床疗效评价。
2.3 文献分析法
不断累积的临床试验证据为确定 MCID 提供了丰富且有价值的信息。Revicki 等建议在确定 MCID 时,应系统回顾既往发表的临床试验结果,综合目标测量工具的疗效变化作为 MCID 选择的参考依据[19]。如 OMERACT 组织通过系统性回顾风湿性关节炎、骨关节炎、骨质疏松和腰痛的临床研究文献中常用结局评价指标治疗前后的变化作为其 MCID 的参考范围[15]。
2.4 专家共识法
专家共识法是基于群组决策和共识的方法来确定 MCID 或是从多种方法估算的 MCID 中最终确定一个 MCID 值。风湿病结局评价组织(Outcome Measures in Rheumatology,OMERACT)认为专家共识法是确定评价风湿病关节结构性损伤进展影像学检查的 MCID 的合理方法[47]。骨关节炎课题组在开展临床试验前,通过 3 轮的德尔菲专家共识确定系列结局评价指标的 MCID[48]。该法主要受到参与专家的经验和知识领域等影响,主观性较强。在共识过程中,结合文献分析法以及实际临床数据拟定 MCID 参考值或参考范围供专家参考评价,可提高结果的可信度和可行性。如美国风湿病学学会类风湿性关节炎临床疗效标准 ACR20(American College of Rheumatology 20% improvement criteria)的确定过程是一个很好的例子[49]。首先进行临床医生调查:从既往开展的临床试验中随机选择疗效接近期望改善阈值(20%~45%)的受试者信息,由 89 名风湿病学家根据核心指标的变化情况判断每位受试者是否有临床改善。然后是备选改善标准筛选:选择 80% 以上风湿病学家判断为有临床改善的受试者,用项目组预先确定的多种改善标准进行判断,并保留与专家判断相一致的改善标准。其次是备选改善标准确定:在含有 5 个随机安慰剂对照试验的数据集中分析备选改善标准,选择具有最大能力区分出治疗措施和安慰剂之间疗效差异的改善标准。最后通过专家共识法,确定 ACR 核心指标较基线改善 20%(ACR20)作为评价类风湿性关节炎治疗疗效的标准[49]。
3 实例解析
Oliveira 等基于除外需要住院、紧急插管、机械通气的 COPD 急性加重期患者的队列,收集急性加重 48 小时内(发作期 T1)和加重后 45 天(稳定期 T2)的 COPD 自我评估测试(COPD assessment test,CAT)、改良 Borg 量表(modified Borg scale,MBS),呼吸困难评分(modified British Medical Research Council,mMRC)、外周氧饱和度(peripheral oxygen saturation,SpO2)和 1 秒用力呼气容积(forced expiratory volume in one second,FEV1)等数据,通过分步法和效标法计算系列评价指标的 MCID[50]。本文仅取其中 MBS、mMRC、SpO2 和 FEV1 四个指标的 MCID 计算举例。研究分为以下三步进行:① 分步法估算 MDC:分别使用 ES=(MT1-MT2)、0.5SDT1、SEM=SDT1
和
进行计算,其中 ICC1,2 为各指标既往发表的两次测量结果的组内相关系数,如 SpO2 的 ICC=0.89[51]、MBS 的 ICC=0.95[51]、FEV1 的 ICC=0.96[52]。② 效标法估算 MCID:选择 CAT 为效标,计算皮尔逊相关系数判断效标与各目标测量指标的相关程度,仅对相关系数>0.3 符合效标选择要求者使用效标法估算[19]。以 CAT 的 MCID(2 分)[53]为截点值区分队列人群的轻微改善组和未改善组,分别采用线性回归模型和 ROC 曲线进行估算。③ 分布法和效标法的估算值合并:通过 Meta XL5.3 软件,采用质量效应模型予以效标法更大的权重对两类估算结果进行合并。研究结果显示仅 MBS、mMRC 和 FEV1 三个指标和效标的相关系数>0.3,故效标法仅适用于上述三个指标。但因 MBS 和 FEV1 的 ROC 曲线的 AUC 分别为 0.63 和 0.67,故不取两者的 ROC 曲线估算的 MCID 值。四个指标各种方法的估算值和合并 MCID 估算值见表 3。

4 小结
目前,MCID 的最佳估算方法尚无共识,每种方法都有其优点和局限,且各种方法估算结果有一定差异。以效标法为主、其他方法辅助是学者们主要推荐的 MCID 估算策略。Johnston 等在 2015 年启动了 MCID 研究数据库项目,全面检索 PubMed、EMbase 和 PsycINFO 数据库获取基于效标法估算 PRO 测量工具的 MCID 研究,并开发 MCID 可信度评估工具,对所有获取的研究进可信度评价,为研究者们提供详尽的 MCID 估算方法的资料[54]。对各种方法估算出来的多个 MCID 该如何选择或如何综合及 MCID 应用过程中的注意事项等,有待于新的研究进一步分析。