诊断试验 Meta 分析需要获取纳入诊断性试验的真阳性、假阳性、假阴性、真阴性的受试者例数。当原始文献无法直接获得这些指标,又无法取得原始数据时,可对数据进行深度提取。本文介绍 3 种对诊断试验的数据进行深度提取的方法,并通过实例分析展示操作过程。
引用本文: 刘海宁, 吴昊, 张宁萍, 李煜, 曾于珍, 沈锡中, 刘韬韬. 诊断准确性试验 Meta 分析四格表数据的提取方法. 中国循证医学杂志, 2018, 18(9): 995-1000. doi: 10.7507/1672-2531.201805153 复制
诊断试验 Meta 分析是针对诊断准确性研究的统计学合并方法,其提取数据和统计计算的过程与其他类型的 Meta 分析有明显不同。诊断试验 Meta 分析需提取纳入文献的真阳性(true positive,TP)、假阳性(false positive,FP)、假阴性(false negative,FN)、真阴性(true negative,TN)的受试者例数。根据“诊断准确性研究报告规范”(standards for reporting diagnostic accuracy studies,STARD)[1]及其 2015 年更新版[2],诊断试验应报告诊断准确性的估计结果及其精确度(如 95% 可信区间)。然而,一些诊断准确性试验没有提供完整的四格表数据,并不能轻易得出 TP、FP、FN、TN 的具体数值。下面即针对多种无法直接获得四格表数据的情况介绍如何对数据进行深度提取的方法。
1 方法介绍
1.1 由其他诊断指标计算
绝大多数文献并不会直接给出 TP、FP、FN、TN 的数值。诊断试验的数据四格表见表 1,常见的诊断指标及计算公式见表 2。通常,文献中会给出灵敏度(Sen)、特异度(Spe)、病例数、对照数。此时,a=N1×Sen,d=N2×Spe,c=N1-TP,b=N2-TN。少数情况下,文献中只给出其他诊断指标,如预测值、似然比等。从数学计算的角度来看,要求出 a、b、c、d,一共 4 个未知数,需要解一个四元一次方程组。表示例数的量有 a、b、c、d、N1、N2、N3、N4、N,表示比例的量有 Sen、Spe、PPV、NPV。任意给出其中 4 个量的数值,均可求出其他量的数值,但要满足 2 个前提:一是 4 个数值中至少要有 1 个表示例数的量;二是 4 个量中某一个量不能由给出的其他几个量直接算出,例如给出 Sen、a、c,而 Sen 可以由 a 和 c 直接算出,或是给出 a、c、N1,而 N1 可以由 a 和 c 直接算出。有两个很特殊的量,即 PLR 和 NLR,其计算公式比较复杂。当同时知道 PLR、NLR、N1、N2 时,也可求出 a、b、c、d。


下面介绍如何用 RevMan 5.3 软件中的“计算器”功能快速求出 TP、FP、FN、TN 的数值。安装软件并打开,点击“File”选项卡→“New”,在新出现的对话框中选择 Meta 分析的种类“Diagnostic test accuracy review”并点击“Finish”。接下来要创建一个需纳入的研究,具体步骤如图 1:点击左侧栏的“Data and analyses”,再点击右侧面板的“Data and analyses”旁的“
”使之展开(默认为折叠状态),再用同样方法展开“Data tables by test”,进而点击按钮“Add Test”。新出现的对话框里直接点击“Finish”,右侧面板就会出现计算器的按钮“
”,点击后即可调出 RevMan 5.3 软件内置的计算器(图 2)。在计算器界面内直接输入已知量的数值,便可计算出 TP、FP、FN、TN。


1.2 从 ROC 曲线中截取数据
当改变诊断试验的诊断阈值(cut-off value)时,灵敏度和特异度会发生变化。诊断试验 Meta 分析需要提取的灵敏度和特异度是二者的最佳组合。所谓“最佳组合”通常有三种,分别是使约登指数(Youden’s index)、product index、Euclidean’s index 三种指数达到最大值的组合[3],三者的计算公式分别是Sen+Spe-1,Sen×Spe,
。
一些文献没有给出最佳灵敏度、特异度的组合,而是给出了受试者工作特征曲线(receiver operating characteristic curve,ROC 曲线)。ROC 曲线是一系列以(1-特异度)为自变量,灵敏度为因变量画出的曲线。ROC 曲线上某一个点(x1,y1)的约登指数是 y1-x1;而经过该点且斜率为 1 的直线为 y-y1=x-x1,其截距也是 y1-x1。因此,要使约登指数最大,只要使经过该点且斜率为 1 的直线的截距最大即可,这正是 ROC 曲线上距离直线 y=x 最远的点。绝大部分文献均以此方法计算最佳灵敏度和特异度。而在 ROC 曲线中使 Euclidean’s index 达到最大值的点是距离坐标(0,1)最近的点。大多数情况下,使三种指数达到最大值的点是同一个点。
另需注意,当患病率(即病例数除以受试者总数)极高或极低时,最佳灵敏度、特异度的组合并非是 ROC 曲线上使约登指数最大的点[4]。当患病率极高时,需要尽量提高诊断试验的特异度,应选取 ROC 曲线上距离 x 轴近且距离直线 y=x 尽量远的点;当患病率极低时,需要尽量提高诊断试验的灵敏度,应选取 ROC 曲线上距离直线 y=1 近且距离直线 y=x 尽量远的点。此外,Habibzadeh 等[5]还介绍了寻找最佳诊断阈值的其他几种方法,这里不作详细介绍。
瞿振等[6]介绍了如何利用 GetData Graph Digitizer 及 Origin 两个软件提取四格表数据。其原理是用 GetData Graph Digitizer 软件把 ROC 曲线图网格化,提取 ROC 曲线中每个关键点的位置信息,再导出到 Origin 软件中输出曲线下面积(area under curve,AUC)和每个点的坐标值。本文介绍如何利用 Photoshop CS5 软件快速提取 ROC 曲线的 AUC 值和灵敏度、特异度。
用 Photoshop CS5 软件打开图片后,点击“窗口”选项卡→“信息”,会弹出“信息”窗口,可以显示鼠标所指的点在图片中对应的位置坐标(图 3)。用前文所述方法,找到 ROC 曲线上距离直线 y=x 最远的点 A(m,n)、图中坐标(0,1)的点 B、坐标(1,0)的点 C,假设三者在 Photoshop CS5 中的位置坐标分别是(xA,yA)、(xB,yB)、(xC,yC),可推知坐标原点(0,0)的位置坐标是(xB,yC)。

由
,可推得灵敏度
;
由
,可推得特异度
;
视线向左倾斜 45° 后,很容易凭肉眼找到 ROC 曲线上距离直线 y=x 最远的点。有时有多个点,无法确认哪一个点距离直线 y=x 最远,可先算出它们的灵敏度、特异度,再选出其中使约登指数最大的点。
AUC 值可以通过选中区域的像素值来计算。点击“窗口”选项卡→“直方图”。使用左侧工具栏的“矩形选框工具”(“
”),选择曲线图中从原点(0,0)到坐标(1,1)的区域,记录“直方图”窗口显示的像素值 p。如图 3,再使用左侧工具栏的“快速选择工具”(“
”),快速选中 ROC 曲线与直线 y=x 合围的淡灰色区域,记录“直方图”窗口显示的像素值 q。则 AUC=q/p+0.5。若选中的是 ROC 曲线与直线 x=1 及 x 轴合围的区域(即“曲线下面积”),记录的像素值为 r,则 AUC=r/p。
1.3 合并多组数据
有些诊断试验的受试者被分为筛选集(screening set)、训练集(training set)、验证集(validation set),即一篇文献中含有多个数据集(亚组)。此时需要对多组数据进行合并。目前尚无方法学文献给出合并多组数据的具体建议。我们提出三个方法:一是每个亚组算作一个独立研究纳入 Meta 分析;二是直接把各亚组的 TP、FP、FN、TN 的数值相加,再纳入 Meta 分析;三是先对该文献的各亚组进行 Meta 分析,算出灵敏度和特异度,继而由总病例数和总对照数计算出 TP、FP、FN、TN 的数值,再纳入 Meta 分析。
诊断试验 Meta 分析中,灵敏度、特异度、阳性预测值和阴性预测值的计算实际上是进行“率”的 Meta 分析。因此,方法三先用 Meta 分析的方法合并各亚组,是在估算该文献总体的“真阳性率”和“真阴性率”,具有理论依据和可行性。从理论上来说,方法三好于方法一,因为同一篇文献的受试者的临床异质性要远小于不同文献受试者间的临床异质性。Cochrane 手册中对于连续性数据的亚组也是建议先计算总的样本量、均数、标准差,再纳入 Meta 分析[7, 8]。当使用方法三对各亚组进行 Meta 分析时,亚组间的异质性也须同时检验。若 Q 检验 P<0.05 或I2 >75%,表明各亚组间存在异质性 [9],各数据集差异较大、诊断试验结果不稳定,不宜作 Meta 分析定量合并数据。此时建议改用方法一;或是弃用筛选集与训练集,仅保留受试者例数更多的验证集。
当多个诊断数据集使用同一个诊断阈值时,方案二最优,因为其并非估算灵敏度和特异度,而是直接计算真实的总体 TP、FP、FN、TN 的数值。
现举例来看三个合并方法的可靠性。PubMed 和 WanFang Data 数据库中检索“微小 RNA-223 对结直肠癌患者的诊断价值”,可纳入 3 篇文献[10-12],其中一篇文献[7]可获取原始数据(病例组 85 例和对照组 78 例)。将该原始数据分为两个数据集,一个数据集包含 30 例病例及 30 例对照,另一个数据集包含 55 例病例及 48 例对照。3 篇原始文献及用 3 种方法进行 Meta 分析的诊断指标详见表 3。比较方法三与直接对 3 篇文献进行 Meta 分析的约登指数、AUC,二者差距均在可接受范围内。另外,使用多种方法调整数据集(增减病例数和对照数、改变灵敏度和特异度等),可发现方法一和方法三得出的约登指数和 AUC 均相差不大。

一些诊断试验文献同时给出 1 个病例组对多个对照组的诊断指标。例如,给出肝癌患者与肝硬化患者以及肝癌患者与健康对照者的甲胎蛋白浓度的诊断指标,需要对肝癌患者与非肝癌患者的甲胎蛋白浓度的诊断指标进行 Meta 分析。这时须将两个亚组的数据合并后纳入 Meta 分析。当两个亚组使用同一诊断阈值时,与前述方法二类似,直接取用 TP 和 FN 的数值即可(两个亚组相同),而 FP 和 TN 需要将两个亚组的数值相加。当两个亚组的诊断阈值不同时,采用前述方法一显然是不合适的,因为同一病例组会被纳入两次。这种情况推荐方法三,即先用 Meta 分析的方法合并各亚组,计算出灵敏度和特异度。此时总对照例数为各亚组对照例数相加。
2 实例分析
陈玉琢等[13]研究了微小 RNA-767-3p 对结直肠癌患者的诊断价值,其诊断的 ROC 曲线图见图 3。该研究纳入 85 例结直肠癌患者与 84 例健康对照者。用 Photoshop CS5 软件打开图片,调出“信息”窗口。找到 ROC 曲线上距离直线 y=x 最远的点 A,其位置坐标为(3.06,1.36)。点 B(0,1)和点 C(1,0)的位置坐标分别为(1.47,0.37),(6.55,5.42)。接下来调出“直方图”窗口,用“快速选择工具”选中浅灰色区域,读取该区域像素值为 87 606。选择从原点(0,0)到坐标(1,1)的点的区域,读取该区域像素值为 328 800。由此可计算:
灵敏度:
特异度:
AUC=87 606÷328 800+0.5=0.766
该文献中报道,灵敏度 80%,特异度 68%,AUC 值为 0.770。可见图片中提取的数据较精确。
再使用 RevMan 5.3 软件调出计算器(图 4),输入病例数 85、对照数 84、灵敏度 0.804、特异度 0.687,可得出 TP、FP、FN、TN 分别为 68、26、17、58。

3 讨论
Meta 分析提取数据的过程中常会遇到数据缺失的情况。此时最好的方法是向原始文献的通讯作者发送电子邮件索要数据。然而,这种方式常常难以得到回应,仍需要自行对数据进行深度提取。
本文介绍了 3 种数据深度提取的方法。当原始文献给出 Sen、Spe、PV、LR 及病例组、对照组、诊断试验阳性、诊断试验阴性的人数时,可通过简单的四则运算或求解四元一次方程组获得 TP、FP、FN、TN 的数值。瞿振等[14]介绍了通过 Microsoft Excel 宏的方法快速求解方程组获取数据的方法,然而并未给出 Excel 宏的源代码。本文介绍了如何使用 Revman 5.3 软件快速求出 TP、FP、FN、TN 的数值,并给出示例。
当原始文献只给出 ROC 曲线图时,可以提取图片中数据。本文探讨了 ROC 曲线上约登指数最大的点是距离直线 y=x 最远的点的原理,并介绍了如何使用 Photoshop CS5 软件快速计算灵敏度、特异度、AUC 值。由于 TP、FP、FN、TN 的数值均为整数,因而根据图片截取数据计算出的 TP、FP、FN、TN 可以与原始文献的数据完全一致。本文的示例展示了从 ROC 曲线图中提取数据的具体操作过程。
有时诊断实验包含多个数据集,或者同时给出 1 个病例组对多个对照组的诊断指标。此前并没有中英文文献对这种情况给出具体建议。本文认为应分两种情况讨论。当多组数据共用一个诊断阈值时,各组 TP、FP、FN、TN 简单相加,使 TP+FN、FP+TN 等于真实的病例组、对照组人数即可。当多组未用同一个诊断阈值时,先对各亚组数据进行 Meta 分析,再用估算出的灵敏度、特异度与总的病例组、对照组人数计算该原始文献合并后的 TP、FP、FN、TN。由于 Meta 分析计算灵敏度、特异度采用“率”的计算方法,因此此种估计方法具有理论上的可行性。其后的示例亦表明此方法可靠。然而,使用各亚组数据进行 Meta 分析的同时,还需进行异质性检验,若各亚组间存在显著异质性,不宜进行 Meta 分析。此时,可以把每个亚组算作一个独立研究纳入总的 Meta 分析;或是弃用筛选集与训练集,仅保留受试者例数更多的验证集。
诊断试验 Meta 分析是针对诊断准确性研究的统计学合并方法,其提取数据和统计计算的过程与其他类型的 Meta 分析有明显不同。诊断试验 Meta 分析需提取纳入文献的真阳性(true positive,TP)、假阳性(false positive,FP)、假阴性(false negative,FN)、真阴性(true negative,TN)的受试者例数。根据“诊断准确性研究报告规范”(standards for reporting diagnostic accuracy studies,STARD)[1]及其 2015 年更新版[2],诊断试验应报告诊断准确性的估计结果及其精确度(如 95% 可信区间)。然而,一些诊断准确性试验没有提供完整的四格表数据,并不能轻易得出 TP、FP、FN、TN 的具体数值。下面即针对多种无法直接获得四格表数据的情况介绍如何对数据进行深度提取的方法。
1 方法介绍
1.1 由其他诊断指标计算
绝大多数文献并不会直接给出 TP、FP、FN、TN 的数值。诊断试验的数据四格表见表 1,常见的诊断指标及计算公式见表 2。通常,文献中会给出灵敏度(Sen)、特异度(Spe)、病例数、对照数。此时,a=N1×Sen,d=N2×Spe,c=N1-TP,b=N2-TN。少数情况下,文献中只给出其他诊断指标,如预测值、似然比等。从数学计算的角度来看,要求出 a、b、c、d,一共 4 个未知数,需要解一个四元一次方程组。表示例数的量有 a、b、c、d、N1、N2、N3、N4、N,表示比例的量有 Sen、Spe、PPV、NPV。任意给出其中 4 个量的数值,均可求出其他量的数值,但要满足 2 个前提:一是 4 个数值中至少要有 1 个表示例数的量;二是 4 个量中某一个量不能由给出的其他几个量直接算出,例如给出 Sen、a、c,而 Sen 可以由 a 和 c 直接算出,或是给出 a、c、N1,而 N1 可以由 a 和 c 直接算出。有两个很特殊的量,即 PLR 和 NLR,其计算公式比较复杂。当同时知道 PLR、NLR、N1、N2 时,也可求出 a、b、c、d。


下面介绍如何用 RevMan 5.3 软件中的“计算器”功能快速求出 TP、FP、FN、TN 的数值。安装软件并打开,点击“File”选项卡→“New”,在新出现的对话框中选择 Meta 分析的种类“Diagnostic test accuracy review”并点击“Finish”。接下来要创建一个需纳入的研究,具体步骤如图 1:点击左侧栏的“Data and analyses”,再点击右侧面板的“Data and analyses”旁的“
”使之展开(默认为折叠状态),再用同样方法展开“Data tables by test”,进而点击按钮“Add Test”。新出现的对话框里直接点击“Finish”,右侧面板就会出现计算器的按钮“
”,点击后即可调出 RevMan 5.3 软件内置的计算器(图 2)。在计算器界面内直接输入已知量的数值,便可计算出 TP、FP、FN、TN。


1.2 从 ROC 曲线中截取数据
当改变诊断试验的诊断阈值(cut-off value)时,灵敏度和特异度会发生变化。诊断试验 Meta 分析需要提取的灵敏度和特异度是二者的最佳组合。所谓“最佳组合”通常有三种,分别是使约登指数(Youden’s index)、product index、Euclidean’s index 三种指数达到最大值的组合[3],三者的计算公式分别是Sen+Spe-1,Sen×Spe,
。
一些文献没有给出最佳灵敏度、特异度的组合,而是给出了受试者工作特征曲线(receiver operating characteristic curve,ROC 曲线)。ROC 曲线是一系列以(1-特异度)为自变量,灵敏度为因变量画出的曲线。ROC 曲线上某一个点(x1,y1)的约登指数是 y1-x1;而经过该点且斜率为 1 的直线为 y-y1=x-x1,其截距也是 y1-x1。因此,要使约登指数最大,只要使经过该点且斜率为 1 的直线的截距最大即可,这正是 ROC 曲线上距离直线 y=x 最远的点。绝大部分文献均以此方法计算最佳灵敏度和特异度。而在 ROC 曲线中使 Euclidean’s index 达到最大值的点是距离坐标(0,1)最近的点。大多数情况下,使三种指数达到最大值的点是同一个点。
另需注意,当患病率(即病例数除以受试者总数)极高或极低时,最佳灵敏度、特异度的组合并非是 ROC 曲线上使约登指数最大的点[4]。当患病率极高时,需要尽量提高诊断试验的特异度,应选取 ROC 曲线上距离 x 轴近且距离直线 y=x 尽量远的点;当患病率极低时,需要尽量提高诊断试验的灵敏度,应选取 ROC 曲线上距离直线 y=1 近且距离直线 y=x 尽量远的点。此外,Habibzadeh 等[5]还介绍了寻找最佳诊断阈值的其他几种方法,这里不作详细介绍。
瞿振等[6]介绍了如何利用 GetData Graph Digitizer 及 Origin 两个软件提取四格表数据。其原理是用 GetData Graph Digitizer 软件把 ROC 曲线图网格化,提取 ROC 曲线中每个关键点的位置信息,再导出到 Origin 软件中输出曲线下面积(area under curve,AUC)和每个点的坐标值。本文介绍如何利用 Photoshop CS5 软件快速提取 ROC 曲线的 AUC 值和灵敏度、特异度。
用 Photoshop CS5 软件打开图片后,点击“窗口”选项卡→“信息”,会弹出“信息”窗口,可以显示鼠标所指的点在图片中对应的位置坐标(图 3)。用前文所述方法,找到 ROC 曲线上距离直线 y=x 最远的点 A(m,n)、图中坐标(0,1)的点 B、坐标(1,0)的点 C,假设三者在 Photoshop CS5 中的位置坐标分别是(xA,yA)、(xB,yB)、(xC,yC),可推知坐标原点(0,0)的位置坐标是(xB,yC)。

由
,可推得灵敏度
;
由
,可推得特异度
;
视线向左倾斜 45° 后,很容易凭肉眼找到 ROC 曲线上距离直线 y=x 最远的点。有时有多个点,无法确认哪一个点距离直线 y=x 最远,可先算出它们的灵敏度、特异度,再选出其中使约登指数最大的点。
AUC 值可以通过选中区域的像素值来计算。点击“窗口”选项卡→“直方图”。使用左侧工具栏的“矩形选框工具”(“
”),选择曲线图中从原点(0,0)到坐标(1,1)的区域,记录“直方图”窗口显示的像素值 p。如图 3,再使用左侧工具栏的“快速选择工具”(“
”),快速选中 ROC 曲线与直线 y=x 合围的淡灰色区域,记录“直方图”窗口显示的像素值 q。则 AUC=q/p+0.5。若选中的是 ROC 曲线与直线 x=1 及 x 轴合围的区域(即“曲线下面积”),记录的像素值为 r,则 AUC=r/p。
1.3 合并多组数据
有些诊断试验的受试者被分为筛选集(screening set)、训练集(training set)、验证集(validation set),即一篇文献中含有多个数据集(亚组)。此时需要对多组数据进行合并。目前尚无方法学文献给出合并多组数据的具体建议。我们提出三个方法:一是每个亚组算作一个独立研究纳入 Meta 分析;二是直接把各亚组的 TP、FP、FN、TN 的数值相加,再纳入 Meta 分析;三是先对该文献的各亚组进行 Meta 分析,算出灵敏度和特异度,继而由总病例数和总对照数计算出 TP、FP、FN、TN 的数值,再纳入 Meta 分析。
诊断试验 Meta 分析中,灵敏度、特异度、阳性预测值和阴性预测值的计算实际上是进行“率”的 Meta 分析。因此,方法三先用 Meta 分析的方法合并各亚组,是在估算该文献总体的“真阳性率”和“真阴性率”,具有理论依据和可行性。从理论上来说,方法三好于方法一,因为同一篇文献的受试者的临床异质性要远小于不同文献受试者间的临床异质性。Cochrane 手册中对于连续性数据的亚组也是建议先计算总的样本量、均数、标准差,再纳入 Meta 分析[7, 8]。当使用方法三对各亚组进行 Meta 分析时,亚组间的异质性也须同时检验。若 Q 检验 P<0.05 或I2 >75%,表明各亚组间存在异质性 [9],各数据集差异较大、诊断试验结果不稳定,不宜作 Meta 分析定量合并数据。此时建议改用方法一;或是弃用筛选集与训练集,仅保留受试者例数更多的验证集。
当多个诊断数据集使用同一个诊断阈值时,方案二最优,因为其并非估算灵敏度和特异度,而是直接计算真实的总体 TP、FP、FN、TN 的数值。
现举例来看三个合并方法的可靠性。PubMed 和 WanFang Data 数据库中检索“微小 RNA-223 对结直肠癌患者的诊断价值”,可纳入 3 篇文献[10-12],其中一篇文献[7]可获取原始数据(病例组 85 例和对照组 78 例)。将该原始数据分为两个数据集,一个数据集包含 30 例病例及 30 例对照,另一个数据集包含 55 例病例及 48 例对照。3 篇原始文献及用 3 种方法进行 Meta 分析的诊断指标详见表 3。比较方法三与直接对 3 篇文献进行 Meta 分析的约登指数、AUC,二者差距均在可接受范围内。另外,使用多种方法调整数据集(增减病例数和对照数、改变灵敏度和特异度等),可发现方法一和方法三得出的约登指数和 AUC 均相差不大。

一些诊断试验文献同时给出 1 个病例组对多个对照组的诊断指标。例如,给出肝癌患者与肝硬化患者以及肝癌患者与健康对照者的甲胎蛋白浓度的诊断指标,需要对肝癌患者与非肝癌患者的甲胎蛋白浓度的诊断指标进行 Meta 分析。这时须将两个亚组的数据合并后纳入 Meta 分析。当两个亚组使用同一诊断阈值时,与前述方法二类似,直接取用 TP 和 FN 的数值即可(两个亚组相同),而 FP 和 TN 需要将两个亚组的数值相加。当两个亚组的诊断阈值不同时,采用前述方法一显然是不合适的,因为同一病例组会被纳入两次。这种情况推荐方法三,即先用 Meta 分析的方法合并各亚组,计算出灵敏度和特异度。此时总对照例数为各亚组对照例数相加。
2 实例分析
陈玉琢等[13]研究了微小 RNA-767-3p 对结直肠癌患者的诊断价值,其诊断的 ROC 曲线图见图 3。该研究纳入 85 例结直肠癌患者与 84 例健康对照者。用 Photoshop CS5 软件打开图片,调出“信息”窗口。找到 ROC 曲线上距离直线 y=x 最远的点 A,其位置坐标为(3.06,1.36)。点 B(0,1)和点 C(1,0)的位置坐标分别为(1.47,0.37),(6.55,5.42)。接下来调出“直方图”窗口,用“快速选择工具”选中浅灰色区域,读取该区域像素值为 87 606。选择从原点(0,0)到坐标(1,1)的点的区域,读取该区域像素值为 328 800。由此可计算:
灵敏度:
特异度:
AUC=87 606÷328 800+0.5=0.766
该文献中报道,灵敏度 80%,特异度 68%,AUC 值为 0.770。可见图片中提取的数据较精确。
再使用 RevMan 5.3 软件调出计算器(图 4),输入病例数 85、对照数 84、灵敏度 0.804、特异度 0.687,可得出 TP、FP、FN、TN 分别为 68、26、17、58。

3 讨论
Meta 分析提取数据的过程中常会遇到数据缺失的情况。此时最好的方法是向原始文献的通讯作者发送电子邮件索要数据。然而,这种方式常常难以得到回应,仍需要自行对数据进行深度提取。
本文介绍了 3 种数据深度提取的方法。当原始文献给出 Sen、Spe、PV、LR 及病例组、对照组、诊断试验阳性、诊断试验阴性的人数时,可通过简单的四则运算或求解四元一次方程组获得 TP、FP、FN、TN 的数值。瞿振等[14]介绍了通过 Microsoft Excel 宏的方法快速求解方程组获取数据的方法,然而并未给出 Excel 宏的源代码。本文介绍了如何使用 Revman 5.3 软件快速求出 TP、FP、FN、TN 的数值,并给出示例。
当原始文献只给出 ROC 曲线图时,可以提取图片中数据。本文探讨了 ROC 曲线上约登指数最大的点是距离直线 y=x 最远的点的原理,并介绍了如何使用 Photoshop CS5 软件快速计算灵敏度、特异度、AUC 值。由于 TP、FP、FN、TN 的数值均为整数,因而根据图片截取数据计算出的 TP、FP、FN、TN 可以与原始文献的数据完全一致。本文的示例展示了从 ROC 曲线图中提取数据的具体操作过程。
有时诊断实验包含多个数据集,或者同时给出 1 个病例组对多个对照组的诊断指标。此前并没有中英文文献对这种情况给出具体建议。本文认为应分两种情况讨论。当多组数据共用一个诊断阈值时,各组 TP、FP、FN、TN 简单相加,使 TP+FN、FP+TN 等于真实的病例组、对照组人数即可。当多组未用同一个诊断阈值时,先对各亚组数据进行 Meta 分析,再用估算出的灵敏度、特异度与总的病例组、对照组人数计算该原始文献合并后的 TP、FP、FN、TN。由于 Meta 分析计算灵敏度、特异度采用“率”的计算方法,因此此种估计方法具有理论上的可行性。其后的示例亦表明此方法可靠。然而,使用各亚组数据进行 Meta 分析的同时,还需进行异质性检验,若各亚组间存在显著异质性,不宜进行 Meta 分析。此时,可以把每个亚组算作一个独立研究纳入总的 Meta 分析;或是弃用筛选集与训练集,仅保留受试者例数更多的验证集。