医学研究的人群中常存在潜在亚人群具有与其他个体不同的特征或变化趋势,但无法直接识别。潜变量混合模型基于“总体是由有限个亚群混合构成”的思想,可根据后验概率为个体分配潜在类别组,既适用于横断面数据,也可用于纵向数据。本文从统计学角度出发,详细阐述潜变量混合模型的4种常见方法的基本原理,总结基本建模流程,并结合既往案例和实际数据对其合理应用进行述评。潜变量混合模型是一种灵活的分类工具,可用于识别和分析研究人群中的潜在类别,深入探讨影响潜在类别的预测因素或其对结局变量的影响,具有重要的临床应用价值。
引用本文: 李秉哲, 姜棋竞, 卢珍珍, 黄丽红. 潜变量混合模型原理及其在临床研究中的应用价值. 中国循证医学杂志, 2024, 24(10): 1224-1230. doi: 10.7507/1672-2531.202402003 复制
人类认识世界往往首先将被认识的对象进行分类,分类学变成了人类认识世界的基础科学。在医学研究中,常存在潜在的亚人群在临床症状、行为模式等方面具有相似的特征或变化趋势。在横断面数据中表现为亚人群内部变量值接近,在纵向数据中表现为亚人群内部变量随时间变化趋势相似。为了能够更精确识别个体特征的异质性和潜在亚人群,可采用潜变量混合模型(latent variable mixture modeling,LVMM)的分析方法。
相较于传统方法,LVMM基于个体数据,可清晰识别个体间的相似性和差异性,并据此将人群分为若干潜在亚人群,每个亚人群具有独特的变量/趋势特征[1]。其“潜变量”指那些未测量的,需要从已测量变量中推断的变量,可分为连续型和分类型;“混合”即变量分布是由有限数量的亚人群混合而成,这也是LVMM的基本假设[2]。用于区分个体属于哪个亚人群的分组变量称为分类型潜变量。用于反映指标变量随时间变化动态过程的变量称为连续型潜变量,例如决定曲线变化趋势的截距和斜率。2001年,Muthen[2]提出了LVMM框架,根据潜变量和数据的类型对建模方法进行分类(图1)。

潜变量混合模型最先应用于心理和社会学领域,该领域通常研究个体行为的纵向发展轨迹,即人格发展或社会行为如何随时间推移而变化。例如:Nagin等[3]研究青少年的攻击性行为随年龄的变化,Jackson等[4]研究酒精依赖情况随时间的变化模式。近年来,此类方法也开始应用于医学研究领域。本研究将详细介绍常见LVMM方法的基本原理,总结基本建模流程,并结合实际案例对LVMM在医学领域的应用进行解析。
1 LVMM的原理及常见类型
1.1 用于纵向重复测量数据的LVMM
1.1.1 模型基础
潜在增长曲线模型(latent growth curve modeling,LGCM)是用于纵向数据的潜变量混合模型的理论基础,用于研究个体观测指标的动态变化趋势。可表示为:
![]() |
![]() |
![]() |
y代表个体i在t个时间点的观测值向量,连续型潜变量 α 和 β 分别代表个体i的潜在截距和潜在斜率。 和
分别表示全部个体平均初始状态和平均增长率,
和
分别代表个体初始状态和增长率的变异程度;
表示个体i在t时刻的残差项。潜变量 α 和β 也称为生长因子,通过因子载荷向量
和
与观测指标相联系。通常截距因子的载荷向量固定为1,表示每次测量的截距不变;斜率因子的载荷向量代表时间效应,可设定具体值,也可估算,不同的设定表示不同的时间函数或增长类型,若为等间距则代表线性变化。
在LGCM中,虽然允许个体间存在变异,但该方法假设所有个体来自同一人群,得到的结果是单个人群的平均轨迹,无法识别潜在亚人群[5]。为解决这一局限性,在LGCM的基础上引入潜在类别的概念,衍生了用于重复测量数据的潜变量混合模型增长混合模型(growth mixture modeling,GMM)和组基轨迹模型(group-based trajectory modeling,GBTM)。
1.1.2 GMM
GMM是一种有限的混合参数模型。该模型假设总人群由有限数量的亚人群组成,同一亚人群中存在个体变异。研究目的是识别群体中某变量具有不同发展轨迹的亚群并描述亚群发展轨迹,可用于数值变量和分类变量。GMM根据后验概率将个体分入不同的潜在类别,通过LGCM分别估计每个潜在类别的发展轨迹。
GMM的模型可表示如下:
![]() |
![]() |
![]() |
GMM在LGCM的基础上引入了分类型潜变量c,代表个体分配到潜在类别k的概率;当估计的潜分类数量等于1时,GMM简化为LGCM。
使用GMM需要满足模型假设,且变量具有至少三个时间点的测量值,个体的测量时间点可以相同或不同。其需要估计的参数较多,能够较为准确地估计和识别分类。但当样本量较小,或类间差异不够明显时,易出现收敛困难的问题[6]。且结果解释相对复杂,因此在实际应用中,常常使用简化的GBTM。
1.1.3 GBTM
GBTM也被称作潜类别增长分析(latent class growth modeling,LCGM),是一种有限的混合半参数模型。GBTM假设人群是离散分布的,在人群中存在亚人群,但亚人群内部个体同质。GBTM的研究目的与使用条件与GMM相同,但在估计时限制所有时间点和所有类别的残差方差相同[7]。
其与GMM的主要区别在于 和
中无
项,即单个潜在类别内所有个体具有相同的平均增长曲线。本质上,GBTM是GMM的一种特定情况下的简化,优势是可以简化估计,其出现是为了平衡模型的复杂性和可理解性,便于识别和总结纵向数据中的复杂模式。Feldman等[8]从统计指标和可解释性等方面比较了不同模型应用于青少年饮酒数据的建模结果,发现GBTM在模型拟合和可解释性上要优于GMM。
1.2 用于横断面数据的LVMM
潜在类别分析(latent class analysis,LCA)和潜在剖面分析(latent profile analysis,LPA)是用于横断面数据分析的半参数模型。其假设存在潜在未观察到的分类变量,根据一组预先指定的响应变量的整体特征将人群划分为潜在亚人群。其研究目的为识别人群中的潜在类别,并描述亚人群响应变量的分布特征[9, 10]。LPA与LCA本质相同,但LCA的响应变量是一组分类变量,潜在类别间响应概率不同,而LPA的响应变量是一组连续变量,潜在类别间均值不同。
LCA模型可用如下公式表示:
![]() |
式中u代表响应变量;c代表潜在类别,共有k个分类。该模型基于个体对一组分类变量响应概率的相似性来识别亚人群。LCA中也可以纳入协变量来探讨其对个体归属于某个潜在类别概率的影响。
此外,对于重复测量数据,可使用潜在转变分析(latent transition analysis,LTA)分析个体从一个时间点的潜在类别到下一个时间点潜在类别的转换概率[11]。LTA是潜在类别分析的纵向扩展,目的在于研究LCA中个体所属潜在类别随时间推移的变化情况。该模型需要人群在多个时间点进行LCA的结果,并描述个体从前一个时间过渡到下一个时间的关于响应变量响应概率的过渡概率矩阵。通过每个时间的潜在类别归属和时间点之间响应概率的过渡概率矩阵共同描述个体潜在类别变化情况[12]。
以上方法的应用场景、优势、局限性及可用软件如表1所示。

2 LVMM建模框架
LVMM的建模流程如图2示。关键决策点在于模型比较和模型选择。

进行LVMM分析,首先需要根据研究问题和数据类型选择分析方法,并根据先验知识或描述性分析假设人群特征的潜在类别数量。横断面数据采用LCA等识别变量分布特征的潜在类别方法,纵向数据采用GMM、GBTM等识别变化轨迹潜在类别的方法。潜在类别数量的确定需要结合数据情况和文献报道。此外,当数据真实来自K个类别的混合时需要预设多于K个类别来提取数据的主要特征[13],通常初始设定1~7个潜在类别[14]。
在用于纵向数据的LVMM中,建模还需要考虑时间多项式的设置和方差结构的选择。为了更好地拟合随时间变化的轨迹,除最常用的线性关系外,还可以根据数据情况加入时间的二次项或三次项,以提高模型拟合效果。方差结构的设置需要权衡模型反映真实情况的能力、拟合难度和可解释性。常见方差结构包括时间点和/或类别之间具有不同协方差结构,或约束残差方差在时间点和/或类别之间相同。如果复杂的协方差结构模型拟合过程中出现收敛问题,可简化为跨类同方差结构进行拟合[15],但不适当的跨类相同方差结构更容易导致错误的分类结果[7]。通常对具有不同潜在类别组数、时间多项式设置和方差结构的模型分别估计,然后根据临床可解释性、简约性和模型拟合优度指标进行综合选择。
模型选择过程中最关键的是客观统计学指标和主观可解释性的综合权衡[14]。模型选择需要同时考虑以下内容:① 简约可解释性和区分度:选择轨迹组数量,要首先考虑该分组数量下的每个轨迹组是否具有临床意义的可解释性。同时,在比较k组和k+1组的选择上,若多出来的一组与前面几组区分度差,则不建议选择k+1的组合。② 模型评价指标:评估模型拟合最常用的标准包括贝叶斯信息标准(Bayesian information criterion,BIC),Akaike信息准则(Akaike information criterion,AIC),罗-门德尔-鲁宾似然比检验(Lo-Mendell-Rubin likelihood ratio test,LMR-LRT),自举似然比检验(bootstrap likelihood ratio test,BLRT)和熵[16]。AIC和BIC值越低,表明模型拟合效果越好。LMR-LRT和BLRT检验比较了k类和k+1类模型之间的改进,并提供P值。熵是评价类别划分准确性的指标,其范围是0~1,熵值>0.8表明分类的可信度高,并且潜在类别之间有足够的区分度[17]。在选择评价指标相似的模型时,具有较高熵的模型更受青睐。基于信息准则的BIC和基于模型比较的BLRT通常是优选指标[16]。然而,有时由于过拟合,BIC值可能会随着更多的组和参数的添加而减少,因此也需要考虑BIC值的减少幅度。③ 潜在类别成员平均后验概率:各潜在类别所有个体平均最大后验分配概率大于70%是可接受的[18]。④ 为了防止分组是由于过拟合或偶然产生的,同时也使分组具有实际意义,通常轨迹组成员数量要大于总人群的5%。
根据选择的最优模型,将每个个体分入后验概率最高的潜在类别作为个体分组结果。最终获得潜在类别分组后通常有三种应用场景:① 对不同潜在类别组的发展轨迹或变量响应特征进行描述和比较;② 以潜在类别作为因变量,探讨影响不同发展轨迹和变量响应模式的相关因素;③ 以潜在类别作为自变量,探讨不同发展轨迹和变量响应模式对某个结局变量的影响。
3 应用案例
上述各类LVMM既往已有经典案例。Loupy等[19]利用法国国家登记中心和欧洲移植登记中心的1 301人10年随访队列,使用GMM识别了四个同种异体心脏移植血管病变的潜在发展轨迹组,并进一步识别了六个对发展轨迹的早期预测因子。Zhang等[20]基于NHANES和UK Biobank数据库,采用LCA方法,将家庭收入水平、职业、教育水平和健康保险归纳为了高、中、低社会经济地位的三个潜在类别,并探讨不同社会经济地位对全因死亡率及心血管疾病死亡率和发病率的影响。Ni等[21]利用中国健康与退休纵向研究(CHARLS)的纵向数据,通过LCA识别了三个抑郁症亚组并进一步通过LTA方法发现轻度抑郁和严重抑郁的个体均有较大概率转变为缺乏积极情感的状态。
笔者以研究收缩压逐年变化趋势的潜变量混合模型为实际案例,展示模型的选择过程和潜在类别的识别。案例数据来自社区的糖尿病居民自然人群队列,包含1 000位60~75岁居民6年内每一年的血压测量值。该人群6次测量的平均收缩压值分别为131/134/134/133/137/143 mmHg,整体呈现稳定趋势,在后两年略有增加。但发现其中部分个体存在不同的收缩压变化趋势,因此采用用于重复测量数据的LVMM方法识别不同收缩压发展轨迹并描述变化趋势。同时采用GMM和GBTM建模,时间函数分别考虑线性、二次、三次函数,潜在类别数考虑1~5。模型的选择根据似然值、AIC、BIC、熵和最小类别人数占比几个指标进行综合决策。GMM三次函数的4类建模具有最高的似然比,最低的AIC、BIC和可接受的熵值,且平均后验概率均大于0.7,因此被选为最合适模型(表2)。最终所得收缩压轨迹如图3所示,四个潜在类别的轨迹组可以分别描述为“稳定组”“轻微下降后快速增加组”“先增加后下降组”“快速增加组”。


4 讨论
LVMM在医学研究领域应用越发广泛。该方法为横断面数据的分析提供了新的角度,且在纵向数据的处理上更具优势,可从纵向数据中识别不同的发展轨迹并深入剖析其中个体发展情况。
使用LVMM分析也存在局限性。一方面是需注意前提假设:必须预先假设发展中不同的轨迹的存在,而不能检验它们的存在[22]。也需要对协方差结构做出假设,当假设与实际不符时会导致轨迹和方差参数的估计出现偏差以及收敛问题[23]。另一方面对模型的选择和解释需要谨慎,潜在变量分析往往需要构建多个模型并最终从中选择一个合适的模型。虽然有客观的统计学指标作为支撑,但仍需要结合主观判断来进行选择,可能出现不同研究者对模型选择意见的不一致。
除前文所述外,GMM和GBTM模型也可基于广义线性混合模型的理论,通过链接函数将该模型的应用范围拓展,不限于连续性的、具有高斯随机偏差的纵向变量,也可用于如二元数据、泊松分布数据等。链接函数可选logit变换、泊松变换、贝塔分布的累积分布函数、具有n个节点的样条函数来处理不同分布类型的数据[24]。Proust-Lima等[25]还提出了一种联合建模方法处理生存资料的非随机缺失数据。此外,在医学研究中,有时会遇到关注多个纵向变量间的关联,Proust等[25]提出了多轨迹联合建模的方法,该方法假设多个变量随时间变化的轨迹受一个共同的潜在过程影响,根据所有感兴趣的变量来定义一个共同轨迹,并通过链接函数将多个结果关联。
综上所述,LVMM具有广泛的应用范围,且已在多个研究领域有成功的应用。随着人们对医疗大数据认识的不断深入,统计理论和软件计算能力的提升,LVMM将在越来越多的医学数据分析中被采用,为研究者提供科学合理的研究信息,具有重要的临床应用价值。
声明 所有作者均声明无利益冲突。
人类认识世界往往首先将被认识的对象进行分类,分类学变成了人类认识世界的基础科学。在医学研究中,常存在潜在的亚人群在临床症状、行为模式等方面具有相似的特征或变化趋势。在横断面数据中表现为亚人群内部变量值接近,在纵向数据中表现为亚人群内部变量随时间变化趋势相似。为了能够更精确识别个体特征的异质性和潜在亚人群,可采用潜变量混合模型(latent variable mixture modeling,LVMM)的分析方法。
相较于传统方法,LVMM基于个体数据,可清晰识别个体间的相似性和差异性,并据此将人群分为若干潜在亚人群,每个亚人群具有独特的变量/趋势特征[1]。其“潜变量”指那些未测量的,需要从已测量变量中推断的变量,可分为连续型和分类型;“混合”即变量分布是由有限数量的亚人群混合而成,这也是LVMM的基本假设[2]。用于区分个体属于哪个亚人群的分组变量称为分类型潜变量。用于反映指标变量随时间变化动态过程的变量称为连续型潜变量,例如决定曲线变化趋势的截距和斜率。2001年,Muthen[2]提出了LVMM框架,根据潜变量和数据的类型对建模方法进行分类(图1)。

潜变量混合模型最先应用于心理和社会学领域,该领域通常研究个体行为的纵向发展轨迹,即人格发展或社会行为如何随时间推移而变化。例如:Nagin等[3]研究青少年的攻击性行为随年龄的变化,Jackson等[4]研究酒精依赖情况随时间的变化模式。近年来,此类方法也开始应用于医学研究领域。本研究将详细介绍常见LVMM方法的基本原理,总结基本建模流程,并结合实际案例对LVMM在医学领域的应用进行解析。
1 LVMM的原理及常见类型
1.1 用于纵向重复测量数据的LVMM
1.1.1 模型基础
潜在增长曲线模型(latent growth curve modeling,LGCM)是用于纵向数据的潜变量混合模型的理论基础,用于研究个体观测指标的动态变化趋势。可表示为:
![]() |
![]() |
![]() |
y代表个体i在t个时间点的观测值向量,连续型潜变量 α 和 β 分别代表个体i的潜在截距和潜在斜率。 和
分别表示全部个体平均初始状态和平均增长率,
和
分别代表个体初始状态和增长率的变异程度;
表示个体i在t时刻的残差项。潜变量 α 和β 也称为生长因子,通过因子载荷向量
和
与观测指标相联系。通常截距因子的载荷向量固定为1,表示每次测量的截距不变;斜率因子的载荷向量代表时间效应,可设定具体值,也可估算,不同的设定表示不同的时间函数或增长类型,若为等间距则代表线性变化。
在LGCM中,虽然允许个体间存在变异,但该方法假设所有个体来自同一人群,得到的结果是单个人群的平均轨迹,无法识别潜在亚人群[5]。为解决这一局限性,在LGCM的基础上引入潜在类别的概念,衍生了用于重复测量数据的潜变量混合模型增长混合模型(growth mixture modeling,GMM)和组基轨迹模型(group-based trajectory modeling,GBTM)。
1.1.2 GMM
GMM是一种有限的混合参数模型。该模型假设总人群由有限数量的亚人群组成,同一亚人群中存在个体变异。研究目的是识别群体中某变量具有不同发展轨迹的亚群并描述亚群发展轨迹,可用于数值变量和分类变量。GMM根据后验概率将个体分入不同的潜在类别,通过LGCM分别估计每个潜在类别的发展轨迹。
GMM的模型可表示如下:
![]() |
![]() |
![]() |
GMM在LGCM的基础上引入了分类型潜变量c,代表个体分配到潜在类别k的概率;当估计的潜分类数量等于1时,GMM简化为LGCM。
使用GMM需要满足模型假设,且变量具有至少三个时间点的测量值,个体的测量时间点可以相同或不同。其需要估计的参数较多,能够较为准确地估计和识别分类。但当样本量较小,或类间差异不够明显时,易出现收敛困难的问题[6]。且结果解释相对复杂,因此在实际应用中,常常使用简化的GBTM。
1.1.3 GBTM
GBTM也被称作潜类别增长分析(latent class growth modeling,LCGM),是一种有限的混合半参数模型。GBTM假设人群是离散分布的,在人群中存在亚人群,但亚人群内部个体同质。GBTM的研究目的与使用条件与GMM相同,但在估计时限制所有时间点和所有类别的残差方差相同[7]。
其与GMM的主要区别在于 和
中无
项,即单个潜在类别内所有个体具有相同的平均增长曲线。本质上,GBTM是GMM的一种特定情况下的简化,优势是可以简化估计,其出现是为了平衡模型的复杂性和可理解性,便于识别和总结纵向数据中的复杂模式。Feldman等[8]从统计指标和可解释性等方面比较了不同模型应用于青少年饮酒数据的建模结果,发现GBTM在模型拟合和可解释性上要优于GMM。
1.2 用于横断面数据的LVMM
潜在类别分析(latent class analysis,LCA)和潜在剖面分析(latent profile analysis,LPA)是用于横断面数据分析的半参数模型。其假设存在潜在未观察到的分类变量,根据一组预先指定的响应变量的整体特征将人群划分为潜在亚人群。其研究目的为识别人群中的潜在类别,并描述亚人群响应变量的分布特征[9, 10]。LPA与LCA本质相同,但LCA的响应变量是一组分类变量,潜在类别间响应概率不同,而LPA的响应变量是一组连续变量,潜在类别间均值不同。
LCA模型可用如下公式表示:
![]() |
式中u代表响应变量;c代表潜在类别,共有k个分类。该模型基于个体对一组分类变量响应概率的相似性来识别亚人群。LCA中也可以纳入协变量来探讨其对个体归属于某个潜在类别概率的影响。
此外,对于重复测量数据,可使用潜在转变分析(latent transition analysis,LTA)分析个体从一个时间点的潜在类别到下一个时间点潜在类别的转换概率[11]。LTA是潜在类别分析的纵向扩展,目的在于研究LCA中个体所属潜在类别随时间推移的变化情况。该模型需要人群在多个时间点进行LCA的结果,并描述个体从前一个时间过渡到下一个时间的关于响应变量响应概率的过渡概率矩阵。通过每个时间的潜在类别归属和时间点之间响应概率的过渡概率矩阵共同描述个体潜在类别变化情况[12]。
以上方法的应用场景、优势、局限性及可用软件如表1所示。

2 LVMM建模框架
LVMM的建模流程如图2示。关键决策点在于模型比较和模型选择。

进行LVMM分析,首先需要根据研究问题和数据类型选择分析方法,并根据先验知识或描述性分析假设人群特征的潜在类别数量。横断面数据采用LCA等识别变量分布特征的潜在类别方法,纵向数据采用GMM、GBTM等识别变化轨迹潜在类别的方法。潜在类别数量的确定需要结合数据情况和文献报道。此外,当数据真实来自K个类别的混合时需要预设多于K个类别来提取数据的主要特征[13],通常初始设定1~7个潜在类别[14]。
在用于纵向数据的LVMM中,建模还需要考虑时间多项式的设置和方差结构的选择。为了更好地拟合随时间变化的轨迹,除最常用的线性关系外,还可以根据数据情况加入时间的二次项或三次项,以提高模型拟合效果。方差结构的设置需要权衡模型反映真实情况的能力、拟合难度和可解释性。常见方差结构包括时间点和/或类别之间具有不同协方差结构,或约束残差方差在时间点和/或类别之间相同。如果复杂的协方差结构模型拟合过程中出现收敛问题,可简化为跨类同方差结构进行拟合[15],但不适当的跨类相同方差结构更容易导致错误的分类结果[7]。通常对具有不同潜在类别组数、时间多项式设置和方差结构的模型分别估计,然后根据临床可解释性、简约性和模型拟合优度指标进行综合选择。
模型选择过程中最关键的是客观统计学指标和主观可解释性的综合权衡[14]。模型选择需要同时考虑以下内容:① 简约可解释性和区分度:选择轨迹组数量,要首先考虑该分组数量下的每个轨迹组是否具有临床意义的可解释性。同时,在比较k组和k+1组的选择上,若多出来的一组与前面几组区分度差,则不建议选择k+1的组合。② 模型评价指标:评估模型拟合最常用的标准包括贝叶斯信息标准(Bayesian information criterion,BIC),Akaike信息准则(Akaike information criterion,AIC),罗-门德尔-鲁宾似然比检验(Lo-Mendell-Rubin likelihood ratio test,LMR-LRT),自举似然比检验(bootstrap likelihood ratio test,BLRT)和熵[16]。AIC和BIC值越低,表明模型拟合效果越好。LMR-LRT和BLRT检验比较了k类和k+1类模型之间的改进,并提供P值。熵是评价类别划分准确性的指标,其范围是0~1,熵值>0.8表明分类的可信度高,并且潜在类别之间有足够的区分度[17]。在选择评价指标相似的模型时,具有较高熵的模型更受青睐。基于信息准则的BIC和基于模型比较的BLRT通常是优选指标[16]。然而,有时由于过拟合,BIC值可能会随着更多的组和参数的添加而减少,因此也需要考虑BIC值的减少幅度。③ 潜在类别成员平均后验概率:各潜在类别所有个体平均最大后验分配概率大于70%是可接受的[18]。④ 为了防止分组是由于过拟合或偶然产生的,同时也使分组具有实际意义,通常轨迹组成员数量要大于总人群的5%。
根据选择的最优模型,将每个个体分入后验概率最高的潜在类别作为个体分组结果。最终获得潜在类别分组后通常有三种应用场景:① 对不同潜在类别组的发展轨迹或变量响应特征进行描述和比较;② 以潜在类别作为因变量,探讨影响不同发展轨迹和变量响应模式的相关因素;③ 以潜在类别作为自变量,探讨不同发展轨迹和变量响应模式对某个结局变量的影响。
3 应用案例
上述各类LVMM既往已有经典案例。Loupy等[19]利用法国国家登记中心和欧洲移植登记中心的1 301人10年随访队列,使用GMM识别了四个同种异体心脏移植血管病变的潜在发展轨迹组,并进一步识别了六个对发展轨迹的早期预测因子。Zhang等[20]基于NHANES和UK Biobank数据库,采用LCA方法,将家庭收入水平、职业、教育水平和健康保险归纳为了高、中、低社会经济地位的三个潜在类别,并探讨不同社会经济地位对全因死亡率及心血管疾病死亡率和发病率的影响。Ni等[21]利用中国健康与退休纵向研究(CHARLS)的纵向数据,通过LCA识别了三个抑郁症亚组并进一步通过LTA方法发现轻度抑郁和严重抑郁的个体均有较大概率转变为缺乏积极情感的状态。
笔者以研究收缩压逐年变化趋势的潜变量混合模型为实际案例,展示模型的选择过程和潜在类别的识别。案例数据来自社区的糖尿病居民自然人群队列,包含1 000位60~75岁居民6年内每一年的血压测量值。该人群6次测量的平均收缩压值分别为131/134/134/133/137/143 mmHg,整体呈现稳定趋势,在后两年略有增加。但发现其中部分个体存在不同的收缩压变化趋势,因此采用用于重复测量数据的LVMM方法识别不同收缩压发展轨迹并描述变化趋势。同时采用GMM和GBTM建模,时间函数分别考虑线性、二次、三次函数,潜在类别数考虑1~5。模型的选择根据似然值、AIC、BIC、熵和最小类别人数占比几个指标进行综合决策。GMM三次函数的4类建模具有最高的似然比,最低的AIC、BIC和可接受的熵值,且平均后验概率均大于0.7,因此被选为最合适模型(表2)。最终所得收缩压轨迹如图3所示,四个潜在类别的轨迹组可以分别描述为“稳定组”“轻微下降后快速增加组”“先增加后下降组”“快速增加组”。


4 讨论
LVMM在医学研究领域应用越发广泛。该方法为横断面数据的分析提供了新的角度,且在纵向数据的处理上更具优势,可从纵向数据中识别不同的发展轨迹并深入剖析其中个体发展情况。
使用LVMM分析也存在局限性。一方面是需注意前提假设:必须预先假设发展中不同的轨迹的存在,而不能检验它们的存在[22]。也需要对协方差结构做出假设,当假设与实际不符时会导致轨迹和方差参数的估计出现偏差以及收敛问题[23]。另一方面对模型的选择和解释需要谨慎,潜在变量分析往往需要构建多个模型并最终从中选择一个合适的模型。虽然有客观的统计学指标作为支撑,但仍需要结合主观判断来进行选择,可能出现不同研究者对模型选择意见的不一致。
除前文所述外,GMM和GBTM模型也可基于广义线性混合模型的理论,通过链接函数将该模型的应用范围拓展,不限于连续性的、具有高斯随机偏差的纵向变量,也可用于如二元数据、泊松分布数据等。链接函数可选logit变换、泊松变换、贝塔分布的累积分布函数、具有n个节点的样条函数来处理不同分布类型的数据[24]。Proust-Lima等[25]还提出了一种联合建模方法处理生存资料的非随机缺失数据。此外,在医学研究中,有时会遇到关注多个纵向变量间的关联,Proust等[25]提出了多轨迹联合建模的方法,该方法假设多个变量随时间变化的轨迹受一个共同的潜在过程影响,根据所有感兴趣的变量来定义一个共同轨迹,并通过链接函数将多个结果关联。
综上所述,LVMM具有广泛的应用范围,且已在多个研究领域有成功的应用。随着人们对医疗大数据认识的不断深入,统计理论和软件计算能力的提升,LVMM将在越来越多的医学数据分析中被采用,为研究者提供科学合理的研究信息,具有重要的临床应用价值。
声明 所有作者均声明无利益冲突。