在真实世界数据研究中,实效性随机对照试验可提供最佳证据。尽管随机化原则可使其免受混杂因素的影响,但是由于依从性问题,其仍然需要面对随机后混杂偏倚。传统意向性治疗分析原则在此情况下会逐渐偏离试验原本所关注的疗效并使最终临床决策出现偏差,而传统代替方法也受到混杂偏倚的影响。因此,需要新方法来解决依从性问题,目前有工具变量估计法和现代符合方案集分析法 2 种。本文介绍了传统方法在实效性随机对照试验中的缺陷,论述了上述两种新方法,并指出其优势和劣势,以期为研究者今后开展实效性随机对照试验选择合理统计分析方法提供思路。
引用本文: 石清阳, 李玲, 李舍予, 孙鑫. 实效性随机对照试验中的统计方法(Ⅰ):解决依从性问题. 中国循证医学杂志, 2021, 21(1): 117-124. doi: 10.7507/1672-2531.202010019 复制
随着真实世界数据研究的不断推进,其逐渐成为医疗实践非常重要的组成部分并且为临床决策提供重要的循证证据[1, 2]。其中实效性随机对照试验(pragmatic randomized controlled trials,pRCT)作为一种重要的真实世界研究设计类型,其同时具有随机化和外推性优势,因此可得到最佳真实世界证据[3]。尽管 pRCT 中的随机化原则可消除因基线不平衡所导致的混杂或纳入患者时带来的选择偏倚,但由于其研究人群异质性较大、不进行施盲、随访时间较长等特点[4, 5],pRCT 相比于传统随机对照试验(randomized controlled trials,RCT)更容易受到随机后混杂偏倚(post-randomization confounding)的影响[6]。其中一个非常重要的原因就是依从性问题,通常解决此问题的方法是使用意向性治疗(intention-to-treat,ITT)分析作为研究主要甚至唯一的统计方法,然而随着依从性逐渐降低,ITT 分析存在着非常严重的缺陷,其作为 pRCT 中推荐的统计方法可能导致最终结果出现偏差,从而影响临床决策。因此,本研究首先回顾 ITT 分析的适用条件和存在的问题,进一步指出其传统代替方法的缺陷,最后指出 pRCT 中更具有优势的统计方法,以期解决依从性问题。
1 意向性治疗分析的使用条件及存在问题
1.1 ITT 分析和 ITT 效应
ITT 分析,或称为“as randomized”分析,定义为干预分配的比较效应[7]。假设在理想的随机对照试验中(无失访、完美测量),研究的随机分配变量为 Z,而由于依从性问题,两组患者实际接受干预变量为 A。当依从性良好时,分配变量 Z 等于接受干预变量 A,当依从性变低时,部分分配至 Z=0 的患者转而接受 A=1,或相反。ITT 是计算分配干预 Z 对结果 Y 的平均因果效应,其表示为:ITT 效应=。
这个结果并不考虑实际干预的接受情况,仅关注干预随机分配的效应。因为干预分配 Z 是随机化的结果,其满足因果推断的识别条件,所以 ITT 分析可表示为:。即,分配至干预组和对照组的患者结局间比较。如因果图 1 所示,分配干预 Z 对结果 Y 有两条因果路径。

第一条是分配干预 Z 通过实际接受干预 A 来对结果 Y 产生影响,此时接受干预 A 属于分配干预 Z 和结果 Y 之间的中介变量(mediator),表示为 Z-A-Y。第二条是分配干预 Z 直接作用于结果 Y,不通过干预 A,表示为 Z-Y。
因此,如上述,只有当第二条路径不存在时,分配干预 Z 的比较结果 Z-A-Y 才可能表示为实际接受干预 A 的比较结果 A-Y(当 Z=A 时,即依从性 100%)。这个额外的假设又被称为“排除限制”(exclusion restriction)[8],解决它的方法通常是采用双盲安慰剂对照设计原则。
当满足排除限制后,ITT 分析最大的特点在于其可对 ITT 效应进行无偏估计,即分配 Z 对结果 Y 的因果效应。然而,随着依从性降低,ITT 效应与实际接受干预 A 的效应的偏差逐渐变大,其可能不再是我们所关注的核心效应,为合理解决此问题,首先引入干预 A 的效应,即符合方案集效应(per-protocol effect,PP effect)。
1.2 PP 效应
PP 效应通常定义为反事实效应(counterfactual effect),即假如全部患者依从于干预方案时的因果效应[9],表示为:
![]() |
当实际情况中所有患者均依从于干预方案时,干预 A 满足因果推断识别条件,则阳性药组(A=1)与阴性药组(A=0)的结果比较即是干预 A 的因果效应,表示为:
![]() |
然而,当依从性降低时,上述公式不再成立,则两组结果之差不等于干预 A 的因果效应(即 PP 效应),此时干预 A 与结果 Y 之间存在已知或未知混杂因素。而相比之下,分配干预 Z 的组间比较依然是 ITT 效应的无偏估计,无论依从性是否良好。因为分配干预 Z 保留了随机化的特性,满足因果推断识别条件。
综上,当依从性 100% 时,干预 A 与分配干预 Z 完全一致,此时 ITT 效应等于 PP 效应。而当依从性下降时,干预 A 与分配干预 Z 不再一致,仅呈正相关性,此时 ITT 效应不等于 PP 效应。
事实上,虽然 ITT 效应并不总是等于 PP 效应,但当依从性下降时,ITT 分析(即分配干预 Z 两组间结果比较)依然可无偏估计 ITT 效应,而干预 A 两组间结果比较并不等于 PP 效应(存在混杂因素),这个比较又被称为“as-treated”分析[10]。
如上所述,ITT 分析最大的优势在于保留随机化,因此估计出的 ITT 效应不被混杂因素影响。尽管 ITT 效应并不是我们所想要的 PP 效应,但其通常存在以下特点[10, 11]:① ITT 效应具有效应保留(null preservation)的特点,即当 PP 效应不存在时,ITT 效应必然也不存在。从因果图 1 可看出,当满足“排除限制”时,或在双盲试验中,Z-Y 间的直接路径消除,仅剩下 Z-A-Y 路径,则当 A-Y 效应消失时,Z 对 Y 的因果效应消失。② ITT 效应通常是 PP 效应的保守估计,即效应趋于零(effect towards the null)。ITT 效应可保证结果在零效应和 PP 效应之间,也就是说随着依从性下降,ITT 效应逐渐从与 PP 效应相等向零效应接近,即“稀释”了真实效应。因此,ITT 效应可作为 PP 效应的下限。
1.3 ITT 分析的缺陷
上述两个 ITT 效应的特点非常有优势,同时也是随机双盲试验中推荐使用的主要原因。当依从性下降,但仍然保持在较高水平时(例如 80%~90% 或以上),ITT 分析是非常好的统计方法。然而,当依从性处于较低水平(例如 60%~80% 或以下),或当试验不再保持双盲,或当试验为阳性药对照等情况时,ITT 分析可能存在非常严重的缺陷[6, 9, 10, 12],而这正是 pRCT 中需要面对的问题。
首先,因为要尽可能接近真实医疗环境中的用药情况,pRCT 中通常不会采取双盲措施,此时 ITT 分析中的“排除限制”不再满足,则 ITT 效应中零效应保留的特点失效,即尽管 PP 效应不存在,ITT 效应依然可能存在。
其次,为保证 ITT 效应是 PP 效应的保守估计,需要满足效应单调性假设(monotonicity of effects),即效应 ,也就是治疗不会使情况变得更差。这个假设相对较弱,一般可认为其满足。然而,即使这个条件满足,ITT 效应的保守估计特点依然可能会在以下几种情况中失效[10, 12, 13]:① 阳性药对照;② 安全性比较;③ 非劣效试验。此三种情况在 pRCT 中是非常常见的,如果这种情况下依然使用 ITT 分析,可能会得到错误甚至完全相反的结论,影响临床决策。
除此之外,ITT 效应在实际应用中并不好直接解释。作为患者,最关注的应该是如果我接受(依从于)治疗,那么预期结果(平均效应)应该如何,这个平均效应绝对不应该包含那些不依从于试验个体的效应。所以,有一种说法将 ITT 效应称作效果(effectiveness)而将 PP 效应称作效力(efficacy),这是错误的[10, 14]。事实上,效果与效力应当从数据获取的途径来区分,从传统 RCT 中获得的数据通常纳入排除标准较严格,研究人群同质性较高,所以效应更加“纯净”,此时称为效力。而从真实世界中获得的数据,效应更贴近真实情况,所以称为效果。也就是说,在 pRCT 中,无论 ITT 效应或 PP 效应均应被称为效果。
综上,由于 pRCT 的特点,使其有别于传统 RCT,因此,ITT 分析作为首选统计方法并不完全适用。在引入新方法前,首先回顾传统代替 ITT 分析的两种方法:朴素 PP 分析(naive PP analysis)和 AT 分析(As-treated analysis)。
2 ITT 分析的传统代替方法:朴素 PP 分析和 AT 分析
如前所述,ITT 分析在 pRCT 的很多情形下是失效的,作为补充,通常会选择另外两种传统的分析方法:朴素 PP 分析和 AT 分析。然而,如 ITT 分析一样,当依从性降低时,这两种分析也存在严重缺陷[10, 15]。
2.1 AT 分析
AT 分析,即实际接受干预分析,指的是仅考虑实际接受阳性药(A=1)与实际接受阴性药(A=0)的两组结果之间的比较,表示为:
![]() |
这个比较不考虑干预分配 Z,无论原来随机分配的干预是否与实际一致,均按实际情况来计算,当依从性 100% 时,AT 分析的结果等于 PP 效应和 ITT 效应。
该计算的问题在于其将随机试验转变为观察性研究,因为实际接受阳性药的患者和实际接受阴性药的患者必然受到某些自身预后相关因素的影响,使得两组间出现混杂偏倚。例如,病情较重的患者更有可能选择自己认为治疗效果更好的方案(如阳性药),无论其是否被随机分配至阳性药组,因此实际接受阳性药(A=1)组的患者总体病情更重,就算不进行治疗也天然比实际接受阴性药组的患者预后更差。如因果图 2 所示,U 代表病人的病情轻重(为不可测变量),L 代表病情轻重所引起的具体生物标记物的变化(为可测变量),干预 A 和结果 Y 之间存在额外的后门路径,即 A-L-U-Y。

2.2 朴素 PP 分析
朴素 PP 分析,也被称为“on-treatment”分析,指的是仅纳入实际干预情况与初始随机分配相同的患者数据进行分析,即纳入 A=Z 的患者进行分析,这个纳入的人群被称为 PP 人群(per-protocol population)。事实上,朴素 PP 分析就是将分析人群限制在 PP 人群中进行 ITT 分析,表示为:
![]() |
朴素 PP 分析的问题在于限制分析人群时,如果恰好人群的选择与某些风险因素相关联,则产生相应的选择偏倚[16]。如因果图 3 所示,U、L 依然分别代表不可测病情情况和可测生物标记物,S 代表是否被选入 PP 人群(S=1 为选入)。当分析限制在 PP 人群时,即控制变量 S,则产生额外的后门路径 Z-S-A-L-U-Y。

综上,传统代替 ITT 分析的两种方法,如果在不额外控制协变量的情况下进行分析,会产生相应的混杂和选择偏倚。
3 解决依从性问题的新方法
3.1 工具变量估计法
工具变量(instrumental variable,IV)估计是一种与常规方法迥异的估计法[8, 17, 18]。通常情况下,所有的常规方法均依赖一个不可验证假设,即无不可测混杂因素(no unmeasured confounder),当存在部分不可测混杂因素时,我们称其存在残余偏倚(residual bias)。而 IV 估计法则不同,在不依赖这个假设的情况下也可无偏估计因果效应,因此在某些情形下,具有自己独特的优势。但是,IV 估计法依然需要依赖另外的一些假设,其中部分假设同样是不可验证的,使用时需要额外注意。下面回顾 IV 估计法,并指出其在 pRCT 中使用的优势与劣势。
3.1.1 工具变量条件
IV 估计法首先需要找一个工具变量作为基础,其中工具变量需要同时满足三个条件。如因果图 4 所示,假设 Z 为工具变量,A 为干预,Y 为结果,U 为 A-Y 之间不可测混杂因素。则工具变量条件可表示为:① Z 与 A 相关;② Z 仅通过 A 影响 Y,即 Z 与 Y 之间无直接效应;③ Z 与 Y 之间不存在混杂因素。

在双盲 RCT 中,随机分配 Z 为理想的工具变量,首先随机分配 Z 与实际干预 A 之间呈高度正相关性,其次因为双盲的实施所以 Z 与 Y 之间无直接效应(即无安慰剂效应),最后因为 Z 的随机化特点,其与 Y 之间不存在混杂因素。然而,在 pRCT 中,因为通常无盲法的应用,第二个条件不一定满足,为不可验证假设,因此使用时需要额外论述这一点并说明其潜在成立的理由。
除了因果图 4 中显示的工具变量以外,还存在一些通过其他路径与 A 相关联的工具变量 Z,称为代理工具变量(surrogate instrument),例如通过与 A 共享共同原因或共享限制后的共同结果。
3.1.2 工具变量识别假设
当 3 个工具变量条件均满足(或假设满足)后,并不能直接做进一步的计算,即不能计算点估计值,此 3 个条件仅仅可证明其是工具变量,除非我们进一步做出第 4 个识别条件假设。工具变量的识别条件通常有两种:同质性假设和单调性假设。
同质性假设是比较强的假设,其分为多个版本,最严格的假设是干预 A 对结果 Y 的因果效应在所有研究个体中均是同一常数,这个假设在生物学中几乎不可能满足,因此并不考虑。其后稍弱的假设是干预 A 对结果 Y 的效应在 Z 的每一层中为常数,事实上,这个假设几乎也不可能满足。更自然的同质性假设为 A 对 Y 的效应在所有混杂因素 U 中均不存在效应修饰作用,尽管这个假设同样不可验证,但至少它是相对较弱的假设,有时可近似认为其满足。除此之外,另一个类似的假设是 Z 与 A 之间的相关性在所有混杂因素 U 中不存在效应修饰作用,与前述不同,这个假设有一些验证的方法[19]。
当我们假设同质性条件满足时,干预 A 对结果 Y 的平均因果效应可表示为:
![]() |
这个又被称为一般 IV 被估量(usual IV estimand),其仅在同质性假设满足的情况下可表示为平均因果效应[20]。相应的,当进行估计时,其变为标准 IV 估计量(standard IV estimator)。如果使用模型法估计,其变为两阶段最小二乘估计量(two-stage-least-squares estimator)。
然而,同质性假设是很强的假设,通常情况下不能直接认为其满足条件。当同质性假设不满足时,平均因果效应是无法识别的,此时有两种代替方案:① 引入基线协变量,并使用结构均值模型(structural mean models)进行估计[21];② 使用另一个识别条件,即单调性假设。
单调性假设指的是分配变量 Z 对干预 A 的作用必然是非降的,表示为 。其意思是作为患者不会故意违反随机分配指示,违反指示指的是当患者分配治疗时故意选择不治疗,或患者分配不治疗时故意选择治疗。在临床试验中,患者首先需要签订知情同意并详细了解试验内容及可能的问题,极少会有患者故意违反指示,因此,单调性假设在临床试验中均可认为其满足条件。事实上,不依从现象的出现大多是因为患者在分配之前就已经有强烈的主观愿望,无论是否分配到治疗或不治疗,均会按照自己最初的想法来选择干预,而这种情况是包含在单调性假设中的。
尽管单调性假设通常情况下可近似成立,但是其仍然不能对平均因果效应进行识别,取而代之的是对局部平均因果效应(local average treatment effect,LATE)进行识别[8],这个效应也被称为依从者因果效应(compliers average causal effect),表示为:
![]() |
从公式可看出,LATE 是总体效应中的一个亚组效应,这个亚组所包含的人群就是试验中所有的依从者。而对于其余两部分人群,即恒接受者(always-takers)和恒不接受者(never-takers),呈不可知论。
事实上,当同质性假设无法满足时,单调性假设成为一个很好的代替品。在 pRCT 中,由于患者自愿参加试验,故意违反指示的患者可近似于无,因此单调性假设成立。所以,当 pRCT 中出现依从性问题时,IV 估计法是一个非常好的选择,可用来估计人群 LATE,并且不受干预 A 和结果 Y 之间混杂因素的影响。
虽然用来估计 LATE 的单调性假设可认为其成立,但这也需要付出相应的代价。首先,pRCT 作为真实世界研究中高质量证据的来源,必然对临床决策是至关重要的依据,然而,LATE 却较难应用到临床决策中。因为对于不同的情形,依从者群体会不断变化。在试验中的依从者和真实世界中的依从者不一定比例相同,同时,如果目标人群中的恒接受者和恒不接受者的比例较大且治疗对其无效,那么我们仅用 LATE 来代表所有人群的治疗效应就会出现决策偏差。
因此,对于这个问题,有学者给出的方案是通过基线变量分布对依从者人群进行特征化处理,比如给出依从者人群的年龄区间、性别比例、种族情况、吸烟饮酒情况等等,依据此进行效应外推和临床决策[22]。然而,真实世界研究最大的优势在于其外推性强,尽管我们可特征化依从者人群,所付出的代价便是降低了外推性,因而减弱了真实世界研究本身的优势。
综上,由于 pRCT 天然的随机化优势,使得 IV 估计法成为一个解决依从性问题很好的选择,然而因其存在额外的识别假设,在实际使用中也需要权衡其优势与代价。
3.2 现代 PP 分析法
包含 pRCT 在内的真实世界研究有一个区别于传统 RCT 的特点是随访时间更长,这种情况下我们考虑依从性时,并不能简单的将其归为“依从”或“不依从”,这样的二分法仅适用于理想的情形。而真实情况是在随访过程中,患者会依据某些指征来改变自己的用药选择,比如当感觉疗效不佳时选择使用另外一种药,或当出现安全性问题后放弃使用药物等,也可能在某些指征消失或被某些因素影响后又恢复用药。因此,越贴近真实世界的研究,用药情况越复杂,统计分析的方法也应该相应考虑更全面,为此我们需要采用现代 PP 分析法来解决这一难题[9, 14]。
如前所述,朴素 PP 分析指的是未经任何调整协变量的 PP 分析,即仅分析那些依从于干预方案的人群(PP 人群)。然而,除非患者的不依从问题是完全随机发生的,即不受任何预后相关因素影响,不然朴素 PP 分析的结果必然存在选择偏倚。相同的情况也发生在 AT 分析中,结果被混杂偏倚影响。
现代 PP 分析指的是经充分调整协变量后,估计假如患者在每一个时间段均依从于干预方案的效应。其有别于上述传统分析的地方是引入时间点来标记患者每一阶段的用药情况,比如基线时用药 ,一个月时的用药
等等。这样标记的好处是允许患者有很多种依从性,如 A0=1,A1=0
表示患者基线时用药、第一个月不用药、第二个月用药的现象。最终每一个患者的干预情况均表示为一个向量
,当 A 为二分类变量时,共有
种干预类型。
3.2.1 时变干预和干预-混杂反馈
前述通过引入时间点来标记干预的方法称为时变干预(time-varying treatments)[23, 24]。对于临床试验,通常我们会预先在试验计划书中指定干预方案或干预策略(treatment strategies),当引入时变干预时,干预策略的指定需要更明确的表达,比如“干预组用药,对照组不用药”的策略可表示为试验全程每一个时间点均用药 ,和每一个时间点均不用药
。因此,我们最终想要得到的 PP 效应表示为:
![]() |
上述干预策略也称为静态干预策略(static treatment strategy),其特点是下一刻的干预仅取决于前一刻的干预情况,不取决于任何其他协变量,表示为:
![]() |
另外一种干预策略称为动态干预策略(Dynamic treatment strategy),其特点是下一刻的干预不仅取决于前一刻的干预情况,同时也取决于协变量 ,表示为:
![]() |
事实上,通常情况下传统 RCT 均仅考虑静态干预策略的情况,即如果患者全程均接受治疗时与如果患者全程均未接受治疗之间的因果效应。然而在 pRCT 中,需要考虑的更全面一些,比如可指定干预策略为“干预组患者全程接受治疗,但当出现不良反正事件时停止治疗”,此时患者的用药情况不仅基于前一刻是否用药,还基于是否出现不良反应这一协变量,因此,属于动态干预策略。动态策略的好处在于更贴近现实情况,比如当患者出现不良反应时出于伦理考虑必然需要停止用药,而此时依然属于“依从于试验方案”的范畴。所以在最终分析时,这类患者均属于依从者人群,同时这样得出的最终效应也更符合“效果”而非“效力”。
当引入时变干预时,为满足因果推断识别条件,需要一系列的协变量 来阻断后门路径,其与时变干预相同,也需要用时间点进行标记,因此被称为时变协变量(time-varying covariates),相对应的混杂因素被称为时变混杂。
然而,当存在时变混杂时,因果识别过程中会出现一种现象称为:干预-混杂反馈(treatment-confounder feedback)。如因果图 5 所示,同前述设定,Z 表示随机分配, 表示时变混杂,
表示时变干预,Y 表示结果,U 表示不可测混杂。图中可看出,基线时的
影响基线接受干预的情况
,同时
又影响下一时刻的
,其后
继续影响干预情况
,因此出现了循环影响的情况,称为干预-混杂反馈。

当干预-混杂反馈存在时,传统调整混杂方法均会失效,即尽管干预 A 对结果 Y 无因果效应,但计算出的值依然是非零的。究其原因则是每一时刻的 都同时被前一时刻的
和不可测混杂 U 影响,因此属于冲撞变量(collider),对冲撞变量进行分层分析会引入新的选择偏倚(打开后门路径
-
-U-Y),也被称为冲撞分层偏倚(collider-stratification bias)[25]。同理,使用模型法线性回归时也会出现此偏倚。因此,当传统调整方法(分层和回归)失效时,我们需要使用新的方法,即 g 方法(g-methods)。
3.2.2 g 方法
g 方法[26]也被称为广义方法(generalized methods),意为包含时变干预比较的方法,其中包括三种具体的方法:逆概率加权(inverse probability weighing,IP weighing)、参数 g 公式(parametric g-formula)、g 估计(g-estimation)。
IP 加权是使用较多的一种方法,然而当在时变干预的情形下,IP 加权的方法需要进行一定拓展。当在时间固定干预情形下,IP 权重为以混杂为条件时干预概率分布的倒数,即 。当存在多个时间点时,IP 权重需要变为一系列时间点 IP 权重的乘积,表示为:
![]() |
或者也可用稳健 IP 权重(stabilized IP weights),即将上式分子变为 。此时经过加权后的伪总体满足因果推断的边际识别条件,因此可用边际结构模型(marginal structural model)进行估计[27]。例如我们想要估计“如果全部患者所有时间点均接受治疗”和“如果全部患者所有时间点均不接受治疗”的效应,首先将干预策略线性化,即表示为累计值:
。其后建立边际模型,表示为:
![]() |
因此,最终治疗风险差(risk difference)等于 。当然,为防止模型指定错误,上式也可使用非线性函数式,如立方样条等。
综上,在更贴近真实情况的 pRCT 中,依从性并非简单的二分法可表示,故需要引入时变干预来更加明确各种依从情况。而当存在时变干预时,会出现一种现象称为干预-混杂反馈,这种现象导致使用传统分层和回归方法调整协变量时引入新的选择偏倚而失效,因此,需要使用新的调整方法,即 g 方法,来处理时变混杂。此时得到的时变干预效应才是我们真正关注的治疗效果,同时也可促进真实世界中更好的临床决策。
4 讨论
RCT 一直以来都是最佳证据质量的代表,因其随机化的原则,使得干预组对照组之间的基线因素趋于平衡,因此免受随机前选择和混杂的影响。然而,因为依从性问题和失访问题,在随访过程中依然会遭受随机后选择和混杂的影响,并最终降低研究内部真实性。事实上,由于伦理要求,每一个临床试验都会有或多或少的不依从现象,这个问题在传统 RCT 中相对较轻,因其受试人群相对更同质、随访时间较短、干预较单一。然而,在 pRCT 中这个问题是不可忽视的。
传统的 ITT 分析由于其保留了随机化的特性,因而是 ITT 效应的无偏估计。当在传统双盲安慰剂 RCT 中,ITT 效应具有两大优势,即零效应保留和效应趋于零,所以是非常好的统计方法。然而,在 pRCT 中,当依从性问题较大时,在非双盲试验、阳性药对照、不良反应比较、非劣效试验等情形下,ITT 效应的优势失效,因此可能得出错误的结论,此时需要更多的统计方法来补充分析。传统替代 ITT 分析的方法是朴素 PP 分析和 AT 分析,然而这两种方法在未经调整协变量时存在相应的选择或混杂偏倚。因此,需要引入新的方法来解决依从性问题。
IV 估计法是一个非常好的代替方法,其最大的特点是不基于传统调整方法中的“无不可测混杂”假设,也就是当存在不可测混杂或调整不充分存在残余偏倚时,IV 法可提供无偏估计。然而这却是有代价的,除非我们假设同质性条件满足,不然无法对平均因果效应进行识别,取而代之的是使用单调性假设并识别 LATE。LATE 在实际应用中需要额外注意依从性人群的区分,比较好的方法是对其进行基线特征化来描述人群特点。
当我们收集了足够充分的协变量集时,最佳代替方法是现代 PP 分析法。考虑到 pRCT 在真实医疗环境时依从性问题的复杂程度,引入时变干预来完整地描述依从过程是至关重要的一步,同时这样做最终得到的治疗效应也更加贴近真实情况,促进更好的临床决策。然而,当引入时变干预后出现干预-混杂反馈现象,此时使用分层或回归的方法会引入新的偏倚,因此,需要新的统计方法(g 方法)来调整时变协变量。无论是 ITT 分析或是 PP 分析,我们均假设不存在失访问题,因此,主要关注点是解决依从性问题。然而,当出现有差别失访(differential loss to follow-up)时,相当于限制在“未失访人群”中进行分析,因而出现选择偏倚,需要额外调整协变量或进行多重插补以解决此问题。
综上,在 pRCT 中,当依从性水平较高时,ITT 分析依然是首选统计方法。然而,当依从性水平逐渐降低时,ITT 效应不再是我们所关注的因果效应,并且可能存在严重缺陷。此时我们更希望得到的是基于 PP 效应的证据,即使用 IV 估计或现代 PP 分析。因此,在 pRCT 的统计分析中,应同时报告 ITT 效应和 PP 效应,并讨论它们是否互相兼容,以期促进更好的临床决策。
随着真实世界数据研究的不断推进,其逐渐成为医疗实践非常重要的组成部分并且为临床决策提供重要的循证证据[1, 2]。其中实效性随机对照试验(pragmatic randomized controlled trials,pRCT)作为一种重要的真实世界研究设计类型,其同时具有随机化和外推性优势,因此可得到最佳真实世界证据[3]。尽管 pRCT 中的随机化原则可消除因基线不平衡所导致的混杂或纳入患者时带来的选择偏倚,但由于其研究人群异质性较大、不进行施盲、随访时间较长等特点[4, 5],pRCT 相比于传统随机对照试验(randomized controlled trials,RCT)更容易受到随机后混杂偏倚(post-randomization confounding)的影响[6]。其中一个非常重要的原因就是依从性问题,通常解决此问题的方法是使用意向性治疗(intention-to-treat,ITT)分析作为研究主要甚至唯一的统计方法,然而随着依从性逐渐降低,ITT 分析存在着非常严重的缺陷,其作为 pRCT 中推荐的统计方法可能导致最终结果出现偏差,从而影响临床决策。因此,本研究首先回顾 ITT 分析的适用条件和存在的问题,进一步指出其传统代替方法的缺陷,最后指出 pRCT 中更具有优势的统计方法,以期解决依从性问题。
1 意向性治疗分析的使用条件及存在问题
1.1 ITT 分析和 ITT 效应
ITT 分析,或称为“as randomized”分析,定义为干预分配的比较效应[7]。假设在理想的随机对照试验中(无失访、完美测量),研究的随机分配变量为 Z,而由于依从性问题,两组患者实际接受干预变量为 A。当依从性良好时,分配变量 Z 等于接受干预变量 A,当依从性变低时,部分分配至 Z=0 的患者转而接受 A=1,或相反。ITT 是计算分配干预 Z 对结果 Y 的平均因果效应,其表示为:ITT 效应=。
这个结果并不考虑实际干预的接受情况,仅关注干预随机分配的效应。因为干预分配 Z 是随机化的结果,其满足因果推断的识别条件,所以 ITT 分析可表示为:。即,分配至干预组和对照组的患者结局间比较。如因果图 1 所示,分配干预 Z 对结果 Y 有两条因果路径。

第一条是分配干预 Z 通过实际接受干预 A 来对结果 Y 产生影响,此时接受干预 A 属于分配干预 Z 和结果 Y 之间的中介变量(mediator),表示为 Z-A-Y。第二条是分配干预 Z 直接作用于结果 Y,不通过干预 A,表示为 Z-Y。
因此,如上述,只有当第二条路径不存在时,分配干预 Z 的比较结果 Z-A-Y 才可能表示为实际接受干预 A 的比较结果 A-Y(当 Z=A 时,即依从性 100%)。这个额外的假设又被称为“排除限制”(exclusion restriction)[8],解决它的方法通常是采用双盲安慰剂对照设计原则。
当满足排除限制后,ITT 分析最大的特点在于其可对 ITT 效应进行无偏估计,即分配 Z 对结果 Y 的因果效应。然而,随着依从性降低,ITT 效应与实际接受干预 A 的效应的偏差逐渐变大,其可能不再是我们所关注的核心效应,为合理解决此问题,首先引入干预 A 的效应,即符合方案集效应(per-protocol effect,PP effect)。
1.2 PP 效应
PP 效应通常定义为反事实效应(counterfactual effect),即假如全部患者依从于干预方案时的因果效应[9],表示为:
![]() |
当实际情况中所有患者均依从于干预方案时,干预 A 满足因果推断识别条件,则阳性药组(A=1)与阴性药组(A=0)的结果比较即是干预 A 的因果效应,表示为:
![]() |
然而,当依从性降低时,上述公式不再成立,则两组结果之差不等于干预 A 的因果效应(即 PP 效应),此时干预 A 与结果 Y 之间存在已知或未知混杂因素。而相比之下,分配干预 Z 的组间比较依然是 ITT 效应的无偏估计,无论依从性是否良好。因为分配干预 Z 保留了随机化的特性,满足因果推断识别条件。
综上,当依从性 100% 时,干预 A 与分配干预 Z 完全一致,此时 ITT 效应等于 PP 效应。而当依从性下降时,干预 A 与分配干预 Z 不再一致,仅呈正相关性,此时 ITT 效应不等于 PP 效应。
事实上,虽然 ITT 效应并不总是等于 PP 效应,但当依从性下降时,ITT 分析(即分配干预 Z 两组间结果比较)依然可无偏估计 ITT 效应,而干预 A 两组间结果比较并不等于 PP 效应(存在混杂因素),这个比较又被称为“as-treated”分析[10]。
如上所述,ITT 分析最大的优势在于保留随机化,因此估计出的 ITT 效应不被混杂因素影响。尽管 ITT 效应并不是我们所想要的 PP 效应,但其通常存在以下特点[10, 11]:① ITT 效应具有效应保留(null preservation)的特点,即当 PP 效应不存在时,ITT 效应必然也不存在。从因果图 1 可看出,当满足“排除限制”时,或在双盲试验中,Z-Y 间的直接路径消除,仅剩下 Z-A-Y 路径,则当 A-Y 效应消失时,Z 对 Y 的因果效应消失。② ITT 效应通常是 PP 效应的保守估计,即效应趋于零(effect towards the null)。ITT 效应可保证结果在零效应和 PP 效应之间,也就是说随着依从性下降,ITT 效应逐渐从与 PP 效应相等向零效应接近,即“稀释”了真实效应。因此,ITT 效应可作为 PP 效应的下限。
1.3 ITT 分析的缺陷
上述两个 ITT 效应的特点非常有优势,同时也是随机双盲试验中推荐使用的主要原因。当依从性下降,但仍然保持在较高水平时(例如 80%~90% 或以上),ITT 分析是非常好的统计方法。然而,当依从性处于较低水平(例如 60%~80% 或以下),或当试验不再保持双盲,或当试验为阳性药对照等情况时,ITT 分析可能存在非常严重的缺陷[6, 9, 10, 12],而这正是 pRCT 中需要面对的问题。
首先,因为要尽可能接近真实医疗环境中的用药情况,pRCT 中通常不会采取双盲措施,此时 ITT 分析中的“排除限制”不再满足,则 ITT 效应中零效应保留的特点失效,即尽管 PP 效应不存在,ITT 效应依然可能存在。
其次,为保证 ITT 效应是 PP 效应的保守估计,需要满足效应单调性假设(monotonicity of effects),即效应 ,也就是治疗不会使情况变得更差。这个假设相对较弱,一般可认为其满足。然而,即使这个条件满足,ITT 效应的保守估计特点依然可能会在以下几种情况中失效[10, 12, 13]:① 阳性药对照;② 安全性比较;③ 非劣效试验。此三种情况在 pRCT 中是非常常见的,如果这种情况下依然使用 ITT 分析,可能会得到错误甚至完全相反的结论,影响临床决策。
除此之外,ITT 效应在实际应用中并不好直接解释。作为患者,最关注的应该是如果我接受(依从于)治疗,那么预期结果(平均效应)应该如何,这个平均效应绝对不应该包含那些不依从于试验个体的效应。所以,有一种说法将 ITT 效应称作效果(effectiveness)而将 PP 效应称作效力(efficacy),这是错误的[10, 14]。事实上,效果与效力应当从数据获取的途径来区分,从传统 RCT 中获得的数据通常纳入排除标准较严格,研究人群同质性较高,所以效应更加“纯净”,此时称为效力。而从真实世界中获得的数据,效应更贴近真实情况,所以称为效果。也就是说,在 pRCT 中,无论 ITT 效应或 PP 效应均应被称为效果。
综上,由于 pRCT 的特点,使其有别于传统 RCT,因此,ITT 分析作为首选统计方法并不完全适用。在引入新方法前,首先回顾传统代替 ITT 分析的两种方法:朴素 PP 分析(naive PP analysis)和 AT 分析(As-treated analysis)。
2 ITT 分析的传统代替方法:朴素 PP 分析和 AT 分析
如前所述,ITT 分析在 pRCT 的很多情形下是失效的,作为补充,通常会选择另外两种传统的分析方法:朴素 PP 分析和 AT 分析。然而,如 ITT 分析一样,当依从性降低时,这两种分析也存在严重缺陷[10, 15]。
2.1 AT 分析
AT 分析,即实际接受干预分析,指的是仅考虑实际接受阳性药(A=1)与实际接受阴性药(A=0)的两组结果之间的比较,表示为:
![]() |
这个比较不考虑干预分配 Z,无论原来随机分配的干预是否与实际一致,均按实际情况来计算,当依从性 100% 时,AT 分析的结果等于 PP 效应和 ITT 效应。
该计算的问题在于其将随机试验转变为观察性研究,因为实际接受阳性药的患者和实际接受阴性药的患者必然受到某些自身预后相关因素的影响,使得两组间出现混杂偏倚。例如,病情较重的患者更有可能选择自己认为治疗效果更好的方案(如阳性药),无论其是否被随机分配至阳性药组,因此实际接受阳性药(A=1)组的患者总体病情更重,就算不进行治疗也天然比实际接受阴性药组的患者预后更差。如因果图 2 所示,U 代表病人的病情轻重(为不可测变量),L 代表病情轻重所引起的具体生物标记物的变化(为可测变量),干预 A 和结果 Y 之间存在额外的后门路径,即 A-L-U-Y。

2.2 朴素 PP 分析
朴素 PP 分析,也被称为“on-treatment”分析,指的是仅纳入实际干预情况与初始随机分配相同的患者数据进行分析,即纳入 A=Z 的患者进行分析,这个纳入的人群被称为 PP 人群(per-protocol population)。事实上,朴素 PP 分析就是将分析人群限制在 PP 人群中进行 ITT 分析,表示为:
![]() |
朴素 PP 分析的问题在于限制分析人群时,如果恰好人群的选择与某些风险因素相关联,则产生相应的选择偏倚[16]。如因果图 3 所示,U、L 依然分别代表不可测病情情况和可测生物标记物,S 代表是否被选入 PP 人群(S=1 为选入)。当分析限制在 PP 人群时,即控制变量 S,则产生额外的后门路径 Z-S-A-L-U-Y。

综上,传统代替 ITT 分析的两种方法,如果在不额外控制协变量的情况下进行分析,会产生相应的混杂和选择偏倚。
3 解决依从性问题的新方法
3.1 工具变量估计法
工具变量(instrumental variable,IV)估计是一种与常规方法迥异的估计法[8, 17, 18]。通常情况下,所有的常规方法均依赖一个不可验证假设,即无不可测混杂因素(no unmeasured confounder),当存在部分不可测混杂因素时,我们称其存在残余偏倚(residual bias)。而 IV 估计法则不同,在不依赖这个假设的情况下也可无偏估计因果效应,因此在某些情形下,具有自己独特的优势。但是,IV 估计法依然需要依赖另外的一些假设,其中部分假设同样是不可验证的,使用时需要额外注意。下面回顾 IV 估计法,并指出其在 pRCT 中使用的优势与劣势。
3.1.1 工具变量条件
IV 估计法首先需要找一个工具变量作为基础,其中工具变量需要同时满足三个条件。如因果图 4 所示,假设 Z 为工具变量,A 为干预,Y 为结果,U 为 A-Y 之间不可测混杂因素。则工具变量条件可表示为:① Z 与 A 相关;② Z 仅通过 A 影响 Y,即 Z 与 Y 之间无直接效应;③ Z 与 Y 之间不存在混杂因素。

在双盲 RCT 中,随机分配 Z 为理想的工具变量,首先随机分配 Z 与实际干预 A 之间呈高度正相关性,其次因为双盲的实施所以 Z 与 Y 之间无直接效应(即无安慰剂效应),最后因为 Z 的随机化特点,其与 Y 之间不存在混杂因素。然而,在 pRCT 中,因为通常无盲法的应用,第二个条件不一定满足,为不可验证假设,因此使用时需要额外论述这一点并说明其潜在成立的理由。
除了因果图 4 中显示的工具变量以外,还存在一些通过其他路径与 A 相关联的工具变量 Z,称为代理工具变量(surrogate instrument),例如通过与 A 共享共同原因或共享限制后的共同结果。
3.1.2 工具变量识别假设
当 3 个工具变量条件均满足(或假设满足)后,并不能直接做进一步的计算,即不能计算点估计值,此 3 个条件仅仅可证明其是工具变量,除非我们进一步做出第 4 个识别条件假设。工具变量的识别条件通常有两种:同质性假设和单调性假设。
同质性假设是比较强的假设,其分为多个版本,最严格的假设是干预 A 对结果 Y 的因果效应在所有研究个体中均是同一常数,这个假设在生物学中几乎不可能满足,因此并不考虑。其后稍弱的假设是干预 A 对结果 Y 的效应在 Z 的每一层中为常数,事实上,这个假设几乎也不可能满足。更自然的同质性假设为 A 对 Y 的效应在所有混杂因素 U 中均不存在效应修饰作用,尽管这个假设同样不可验证,但至少它是相对较弱的假设,有时可近似认为其满足。除此之外,另一个类似的假设是 Z 与 A 之间的相关性在所有混杂因素 U 中不存在效应修饰作用,与前述不同,这个假设有一些验证的方法[19]。
当我们假设同质性条件满足时,干预 A 对结果 Y 的平均因果效应可表示为:
![]() |
这个又被称为一般 IV 被估量(usual IV estimand),其仅在同质性假设满足的情况下可表示为平均因果效应[20]。相应的,当进行估计时,其变为标准 IV 估计量(standard IV estimator)。如果使用模型法估计,其变为两阶段最小二乘估计量(two-stage-least-squares estimator)。
然而,同质性假设是很强的假设,通常情况下不能直接认为其满足条件。当同质性假设不满足时,平均因果效应是无法识别的,此时有两种代替方案:① 引入基线协变量,并使用结构均值模型(structural mean models)进行估计[21];② 使用另一个识别条件,即单调性假设。
单调性假设指的是分配变量 Z 对干预 A 的作用必然是非降的,表示为 。其意思是作为患者不会故意违反随机分配指示,违反指示指的是当患者分配治疗时故意选择不治疗,或患者分配不治疗时故意选择治疗。在临床试验中,患者首先需要签订知情同意并详细了解试验内容及可能的问题,极少会有患者故意违反指示,因此,单调性假设在临床试验中均可认为其满足条件。事实上,不依从现象的出现大多是因为患者在分配之前就已经有强烈的主观愿望,无论是否分配到治疗或不治疗,均会按照自己最初的想法来选择干预,而这种情况是包含在单调性假设中的。
尽管单调性假设通常情况下可近似成立,但是其仍然不能对平均因果效应进行识别,取而代之的是对局部平均因果效应(local average treatment effect,LATE)进行识别[8],这个效应也被称为依从者因果效应(compliers average causal effect),表示为:
![]() |
从公式可看出,LATE 是总体效应中的一个亚组效应,这个亚组所包含的人群就是试验中所有的依从者。而对于其余两部分人群,即恒接受者(always-takers)和恒不接受者(never-takers),呈不可知论。
事实上,当同质性假设无法满足时,单调性假设成为一个很好的代替品。在 pRCT 中,由于患者自愿参加试验,故意违反指示的患者可近似于无,因此单调性假设成立。所以,当 pRCT 中出现依从性问题时,IV 估计法是一个非常好的选择,可用来估计人群 LATE,并且不受干预 A 和结果 Y 之间混杂因素的影响。
虽然用来估计 LATE 的单调性假设可认为其成立,但这也需要付出相应的代价。首先,pRCT 作为真实世界研究中高质量证据的来源,必然对临床决策是至关重要的依据,然而,LATE 却较难应用到临床决策中。因为对于不同的情形,依从者群体会不断变化。在试验中的依从者和真实世界中的依从者不一定比例相同,同时,如果目标人群中的恒接受者和恒不接受者的比例较大且治疗对其无效,那么我们仅用 LATE 来代表所有人群的治疗效应就会出现决策偏差。
因此,对于这个问题,有学者给出的方案是通过基线变量分布对依从者人群进行特征化处理,比如给出依从者人群的年龄区间、性别比例、种族情况、吸烟饮酒情况等等,依据此进行效应外推和临床决策[22]。然而,真实世界研究最大的优势在于其外推性强,尽管我们可特征化依从者人群,所付出的代价便是降低了外推性,因而减弱了真实世界研究本身的优势。
综上,由于 pRCT 天然的随机化优势,使得 IV 估计法成为一个解决依从性问题很好的选择,然而因其存在额外的识别假设,在实际使用中也需要权衡其优势与代价。
3.2 现代 PP 分析法
包含 pRCT 在内的真实世界研究有一个区别于传统 RCT 的特点是随访时间更长,这种情况下我们考虑依从性时,并不能简单的将其归为“依从”或“不依从”,这样的二分法仅适用于理想的情形。而真实情况是在随访过程中,患者会依据某些指征来改变自己的用药选择,比如当感觉疗效不佳时选择使用另外一种药,或当出现安全性问题后放弃使用药物等,也可能在某些指征消失或被某些因素影响后又恢复用药。因此,越贴近真实世界的研究,用药情况越复杂,统计分析的方法也应该相应考虑更全面,为此我们需要采用现代 PP 分析法来解决这一难题[9, 14]。
如前所述,朴素 PP 分析指的是未经任何调整协变量的 PP 分析,即仅分析那些依从于干预方案的人群(PP 人群)。然而,除非患者的不依从问题是完全随机发生的,即不受任何预后相关因素影响,不然朴素 PP 分析的结果必然存在选择偏倚。相同的情况也发生在 AT 分析中,结果被混杂偏倚影响。
现代 PP 分析指的是经充分调整协变量后,估计假如患者在每一个时间段均依从于干预方案的效应。其有别于上述传统分析的地方是引入时间点来标记患者每一阶段的用药情况,比如基线时用药 ,一个月时的用药
等等。这样标记的好处是允许患者有很多种依从性,如 A0=1,A1=0
表示患者基线时用药、第一个月不用药、第二个月用药的现象。最终每一个患者的干预情况均表示为一个向量
,当 A 为二分类变量时,共有
种干预类型。
3.2.1 时变干预和干预-混杂反馈
前述通过引入时间点来标记干预的方法称为时变干预(time-varying treatments)[23, 24]。对于临床试验,通常我们会预先在试验计划书中指定干预方案或干预策略(treatment strategies),当引入时变干预时,干预策略的指定需要更明确的表达,比如“干预组用药,对照组不用药”的策略可表示为试验全程每一个时间点均用药 ,和每一个时间点均不用药
。因此,我们最终想要得到的 PP 效应表示为:
![]() |
上述干预策略也称为静态干预策略(static treatment strategy),其特点是下一刻的干预仅取决于前一刻的干预情况,不取决于任何其他协变量,表示为:
![]() |
另外一种干预策略称为动态干预策略(Dynamic treatment strategy),其特点是下一刻的干预不仅取决于前一刻的干预情况,同时也取决于协变量 ,表示为:
![]() |
事实上,通常情况下传统 RCT 均仅考虑静态干预策略的情况,即如果患者全程均接受治疗时与如果患者全程均未接受治疗之间的因果效应。然而在 pRCT 中,需要考虑的更全面一些,比如可指定干预策略为“干预组患者全程接受治疗,但当出现不良反正事件时停止治疗”,此时患者的用药情况不仅基于前一刻是否用药,还基于是否出现不良反应这一协变量,因此,属于动态干预策略。动态策略的好处在于更贴近现实情况,比如当患者出现不良反应时出于伦理考虑必然需要停止用药,而此时依然属于“依从于试验方案”的范畴。所以在最终分析时,这类患者均属于依从者人群,同时这样得出的最终效应也更符合“效果”而非“效力”。
当引入时变干预时,为满足因果推断识别条件,需要一系列的协变量 来阻断后门路径,其与时变干预相同,也需要用时间点进行标记,因此被称为时变协变量(time-varying covariates),相对应的混杂因素被称为时变混杂。
然而,当存在时变混杂时,因果识别过程中会出现一种现象称为:干预-混杂反馈(treatment-confounder feedback)。如因果图 5 所示,同前述设定,Z 表示随机分配, 表示时变混杂,
表示时变干预,Y 表示结果,U 表示不可测混杂。图中可看出,基线时的
影响基线接受干预的情况
,同时
又影响下一时刻的
,其后
继续影响干预情况
,因此出现了循环影响的情况,称为干预-混杂反馈。

当干预-混杂反馈存在时,传统调整混杂方法均会失效,即尽管干预 A 对结果 Y 无因果效应,但计算出的值依然是非零的。究其原因则是每一时刻的 都同时被前一时刻的
和不可测混杂 U 影响,因此属于冲撞变量(collider),对冲撞变量进行分层分析会引入新的选择偏倚(打开后门路径
-
-U-Y),也被称为冲撞分层偏倚(collider-stratification bias)[25]。同理,使用模型法线性回归时也会出现此偏倚。因此,当传统调整方法(分层和回归)失效时,我们需要使用新的方法,即 g 方法(g-methods)。
3.2.2 g 方法
g 方法[26]也被称为广义方法(generalized methods),意为包含时变干预比较的方法,其中包括三种具体的方法:逆概率加权(inverse probability weighing,IP weighing)、参数 g 公式(parametric g-formula)、g 估计(g-estimation)。
IP 加权是使用较多的一种方法,然而当在时变干预的情形下,IP 加权的方法需要进行一定拓展。当在时间固定干预情形下,IP 权重为以混杂为条件时干预概率分布的倒数,即 。当存在多个时间点时,IP 权重需要变为一系列时间点 IP 权重的乘积,表示为:
![]() |
或者也可用稳健 IP 权重(stabilized IP weights),即将上式分子变为 。此时经过加权后的伪总体满足因果推断的边际识别条件,因此可用边际结构模型(marginal structural model)进行估计[27]。例如我们想要估计“如果全部患者所有时间点均接受治疗”和“如果全部患者所有时间点均不接受治疗”的效应,首先将干预策略线性化,即表示为累计值:
。其后建立边际模型,表示为:
![]() |
因此,最终治疗风险差(risk difference)等于 。当然,为防止模型指定错误,上式也可使用非线性函数式,如立方样条等。
综上,在更贴近真实情况的 pRCT 中,依从性并非简单的二分法可表示,故需要引入时变干预来更加明确各种依从情况。而当存在时变干预时,会出现一种现象称为干预-混杂反馈,这种现象导致使用传统分层和回归方法调整协变量时引入新的选择偏倚而失效,因此,需要使用新的调整方法,即 g 方法,来处理时变混杂。此时得到的时变干预效应才是我们真正关注的治疗效果,同时也可促进真实世界中更好的临床决策。
4 讨论
RCT 一直以来都是最佳证据质量的代表,因其随机化的原则,使得干预组对照组之间的基线因素趋于平衡,因此免受随机前选择和混杂的影响。然而,因为依从性问题和失访问题,在随访过程中依然会遭受随机后选择和混杂的影响,并最终降低研究内部真实性。事实上,由于伦理要求,每一个临床试验都会有或多或少的不依从现象,这个问题在传统 RCT 中相对较轻,因其受试人群相对更同质、随访时间较短、干预较单一。然而,在 pRCT 中这个问题是不可忽视的。
传统的 ITT 分析由于其保留了随机化的特性,因而是 ITT 效应的无偏估计。当在传统双盲安慰剂 RCT 中,ITT 效应具有两大优势,即零效应保留和效应趋于零,所以是非常好的统计方法。然而,在 pRCT 中,当依从性问题较大时,在非双盲试验、阳性药对照、不良反应比较、非劣效试验等情形下,ITT 效应的优势失效,因此可能得出错误的结论,此时需要更多的统计方法来补充分析。传统替代 ITT 分析的方法是朴素 PP 分析和 AT 分析,然而这两种方法在未经调整协变量时存在相应的选择或混杂偏倚。因此,需要引入新的方法来解决依从性问题。
IV 估计法是一个非常好的代替方法,其最大的特点是不基于传统调整方法中的“无不可测混杂”假设,也就是当存在不可测混杂或调整不充分存在残余偏倚时,IV 法可提供无偏估计。然而这却是有代价的,除非我们假设同质性条件满足,不然无法对平均因果效应进行识别,取而代之的是使用单调性假设并识别 LATE。LATE 在实际应用中需要额外注意依从性人群的区分,比较好的方法是对其进行基线特征化来描述人群特点。
当我们收集了足够充分的协变量集时,最佳代替方法是现代 PP 分析法。考虑到 pRCT 在真实医疗环境时依从性问题的复杂程度,引入时变干预来完整地描述依从过程是至关重要的一步,同时这样做最终得到的治疗效应也更加贴近真实情况,促进更好的临床决策。然而,当引入时变干预后出现干预-混杂反馈现象,此时使用分层或回归的方法会引入新的偏倚,因此,需要新的统计方法(g 方法)来调整时变协变量。无论是 ITT 分析或是 PP 分析,我们均假设不存在失访问题,因此,主要关注点是解决依从性问题。然而,当出现有差别失访(differential loss to follow-up)时,相当于限制在“未失访人群”中进行分析,因而出现选择偏倚,需要额外调整协变量或进行多重插补以解决此问题。
综上,在 pRCT 中,当依从性水平较高时,ITT 分析依然是首选统计方法。然而,当依从性水平逐渐降低时,ITT 效应不再是我们所关注的因果效应,并且可能存在严重缺陷。此时我们更希望得到的是基于 PP 效应的证据,即使用 IV 估计或现代 PP 分析。因此,在 pRCT 的统计分析中,应同时报告 ITT 效应和 PP 效应,并讨论它们是否互相兼容,以期促进更好的临床决策。