肺癌是全球癌症相关死亡的主要原因[1]。非小细胞肺癌(non-small cell lung cancer,NSCLC)约占所有肺癌的85%,其主要组织学亚型是肺腺癌(lung adenocarcinoma,LUAD),约占肺癌发病率的40%[2]。尽管LUAD的靶向治疗和免疫治疗取得了重大进展,但由于疾病的隐匿性和缺乏特异性,大多数患者在确诊时已处于晚期,5年总生存率仍低于20%[3]。因此,迫切需要探索新的生物标志物和可靠的预后预测模型来改善LUAD患者的生存结局。
昼夜节律系统协调人体生理和行为节律以适应24 h生理周期[4]。昼夜节律基因主要分为两类:核心时钟基因和时钟控制基因,前者控制人体生理昼夜节律,后者调节核心时钟基因的表达[5]。许多研究[4,6-7]表明,昼夜节律紊乱不仅会导致代谢、心血管和免疫功能障碍,而且还与患癌风险和较差的预后有关。随着现代医学的发展,在高通量RNA测序技术和人工智能的辅助下,生物信息学结合机器学习算法已被广泛应用于基因组和蛋白质组研究,越来越多疾病的筛查、诊断和预后模型被开发出来[8]。单细胞RNA测序技术(single cell sequencing,scRNA-seq)被用于分析肿瘤微环境(tumor microenvironment,TME)的细胞类型和肿瘤异质性等相关生物学信息[9],能够在单细胞水平上检测基因表达量,从而有助于剖析肿瘤细胞群体中基因表达的异质性[10]。借助这一优势,scRNA-seq和生物信息学数据分析方法的发展为揭示TME中不同细胞群体的分子特征提供了前所未有的机会[3]。
1 资料与方法
本研究首先对癌症基因组图谱(The Cancer Genome Atlas,TCGA)的LUAD昼夜节律基因表达量和临床病理数据进行全面分析。然后通过Cox回归和3种不同的机器学习算法筛选出与LUAD预后相关的特征昼夜节律基因,构建LUAD预后的昼夜节律基因预测模型,并验证该模型在外部数据集的稳定性。此外,我们还评估了该模型与免疫细胞和免疫检查点基因的关联。最后在scRNA-seq分析的基础上,探讨预后相关的特征昼夜节律基因与TME中不同免疫细胞群体之间的分子特征。研究流程见图1。

1.1 数据来源
昼夜节律基因集(210个基因)于2023年6月27日从昼夜节律基因数据库(Circadian Genes Database,CGDB;http://cgdb.biocuckoo.org)得到,同期在TCGA数据库(https://portal.gdc.cancer.gov)获得LUAD RNA-Seq数据和临床病理数据(524例癌症样本,58例癌旁正常组织样本),筛选出LUAD患者昼夜节律基因表达量,并经过log2的转化。从Gene Expression Omnibus(GEO)数据库(https://www.ncbi.nlm.nih.gov/geo)获得外部验证数据集GSE68465(443例癌症样本,19例癌旁正常组织样本)。
1.2 昼夜节律差异基因筛选、突变及拷贝数变异分析
从TCGA数据库下载LUAD基因突变数据和拷贝数变异(copy number variations,CNVs)数据,与昼夜节律基因相对应,分别通过R-4.3.0软件“maftools”和“Rcircos”包处理并可视化。采用“DESeq2”包以P≤0.05和|log2(fold change)|>1的标准筛选昼夜节律差异表达基因(differentially expressed genes,DEGs),并使用“pheatmap”“ggplot2”和“psych”包绘制火山图和基因与临床性状相关性热图。
1.3 功能富集分析和构建蛋白质相互作用网络
使用“enrichplot”“org.Hs.eg.db”和“clusterProfiler”包对DEGs进行基因本体功能富集分析(gene ontology,GO)、京都基因与基因组百科全书通路分析(Kyoto Encyclopedia of Genes and Genomes,KEGG)和基因集富集分析(gene set enrichment analysis,GSEA),使用“ggplot2”包对结果进行可视化。通过The STRING网站(www.string-db.org)以最低相关分数0.400为阈值生成DEGs蛋白质相互作用网络(protein-protein interaction network,PPI)[11]。数据以TSV格式从数据库下载,并用Cytoscape_v3.9.0软件可视化。P≤0.05为差异有统计学意义。
1.4 构建风险评分预测模型
将训练组524例LUAD样本的昼夜节律DEGs表达量和生存信息合并,剔除15例无总生存期(overall survival,OS)及生存状态的患者,余509例LUAD样本依次纳入Cox回归和3种机器学习算法[最小绝对收缩和选择算子(LASSO)回归、支持向量机递归特征消除(SVM-RFE)、随机森林]。选择4种算法计算DEGs的交集基因,最终构建风险评分(RiskScore)预测模型。RiskScore预测模型计算公式:RiskScore=Exp1×C1+Exp2×C2+…+Expn×Cn(Exp为预后特征基因的表达量,C为LASSO回归分析得到的回归系数,n为交集基因的数目)。
根据上面的公式计算每例样本的RiskScore,以RiskScore中位数为截断值将LUAD样本分为低风险组和高风险组,P≤0.05为差异有统计学意义。
1.5 评价风险预测模型和绘制列线图
首先绘制Kaplan-Meier生存曲线比较低风险组和高风险组的OS。其次通过“timeROC”包绘制时间依赖性受试者工作特征(receiver operating characteristic,ROC)曲线,计算出训练组中模型预测1、3、5年OS率的曲线下面积(area under the curve,AUC),评价预测风险模型的准确性。最后将两组的临床病理因素和RiskScore纳入Cox回归分析,并构建列线图。利用校准曲线和ROC曲线评价生存预测的准确性。使用GSE68465数据集验证构建的预测模型。
1.6 评估肿瘤微环境的免疫学特征
通过应用“CIBERSORT”包对22种不同免疫细胞的浸润状态进行评估,以探讨RiskScore与免疫细胞浸润之间的关系。此外,从相关文献中检索出46个常见的免疫检查点,探索RiskScore与46个免疫检查点基因之间的联系[12]。P≤0.05为差异有统计学意义。
1.7 药物敏感性分析
相关基因表达和药物数据从CellMiner数据库(https://discover.nci.nih.gov/cellminer/home.do)下载。使用临床实验室验证以及国家药品监督管理局标准认证相结合的方法对药物数据进行筛选。然后,将预后特征昼夜节律基因的表达数据与药物数据合并,进行Pearson相关性检验,确定其相关性和药物敏感性。
1.8 特征昼夜节律基因的单细胞群体分子特征
为进一步验证特征昼夜节律基因与TME的关系,采用来自GSE149655数据集(GSM4506699、GSM4506701)的2例LUAD 10×scRNA-seq数据,并利用“Seurat”“patchwork”和“dplyr”包进行数据整理、标准化以及主成分分析(principal component analysis,PCA)。首先通过以下筛选标准保留高质量scRNA-seq数据:(1)剔除线粒体基因超过25%的细胞;(2)提取表达>200个且<
2 结果
2.1 昼夜节律基因的差异表达和遗传变异模式
遗传变异数据与昼夜节律基因一一对应后得到的基因突变和CNVs数据(201个基因,447例样本)在LUAD中的体细胞突变频率为68.01%(304/447);见图2a。从TCGA数据库收集的LUAD患者昼夜节律基因以P≤0.05和|log2(fold change)|>1为阈值,筛选出57个DEGs,包括37个上调基因和20个下调基因,昼夜节律DEGs在染色体的位置见图2b。DEGs与临床性状相关性热图、DEGs的火山图可视化结果见图2c~d。

a:447 例肺腺癌患者昼夜节律基因的突变频率,每列代表 1 例患者,顶部的条形图代表肿瘤突变负荷,右侧的数字代表每个基因的突变频率,右侧的条形图显示了每种基因的比例,下面堆叠的条形图显示了每个样本中转化的百分比;b:差异表达基因在23条染色体上的位置;c:差异表达基因与临床特征的相关性热图;d:昼夜节律差异表达基因火山图
2.2 功能富集分析和差异表达基因蛋白质相互作用网络的构建
为探索LUAD中昼夜节律基因的相关生物学功能和途径,对上述57个DEGs进行GO及KEGG分析,富集度最高的GO分类和KEGG通路见图3a~b。GO分析显示,DEGs主要富集在昼夜节律行为、RNA代谢的负调控、序列特异性DNA结合等相关生物学功能;KEGG分析显示,DEGs主要富集在AMPK信号通路、脂肪细胞脂解的调控通路和神经活性配体-受体相互作用通路等。将P≤0.05的昼夜节律基因纳入GSEA分析,其主要富集于cGMP-PKG信号通路、脂质与动脉粥样硬化和JAK-STAT信号通路等相关生物学过程,进一步验证了遗传物质调控和脂肪酸等能量物质代谢与肿瘤进展的密切关系。

a:GO 分析,对前 10 个富集类别(生物过程、细胞成分和分子功能)进行可视化;b:KEGG 分析,显示前 9 个富集通路;c:PPI 网络构建,基于 PPI 网络的前 46 个节点差异表达基因,使用 Degree 算法选择基因,颜色越深表示基因关联的节点越多;PPI:蛋白质相互作用网络
在去除不与其他节点交互的DEGs后,通过Degree算法构建了46个节点的PPI网络,展示昼夜节律DEGs蛋白质之间的相互作用;见图3c[13]。以上分析结果解释了基因层面的关系,也为将来寻找与预后相关生物学标志物的潜在靶点提供了研究思路。
2.3 筛选预后特征基因并构建风险评分预测模型
将上述57个DEGs分别纳入Cox回归、LASSO回归、SVM-RFE和随机森林。Cox回归得到17个与预后独立相关的基因(P<0.05);见图4a。通过LASSO回归的降维分析,获得31个特征基因;见图4b~c。应用SVM-RFE方法根据其重要性评分鉴定出25个准确率最高的基因;见图4d。通过随机森林算法对DEGs重要性评分排序后,识别出25个候选基因;见图4e。最后,将每种方法筛选的DEGs取交集后的7个预后相关特征基因(LGR4、CDK1、KLF10、ARNTL2、RORA、NPAS2、PTGDS)可视化为Venn图;见图4f。根据7个基因的表达量和风险系数构建RiskScore模型:RiskScore=LGR4×

a:Cox 分析显示 17 个基因与预后显著相关;b~c:LASSO 回归分析用于筛选昼夜节律基因的生物标志物,虚线标注处为Log(
2.4 风险评分与临床病理特征的关系
以训练组LUAD样本的RiskScore中位数为截断值将训练组样本分为低风险组(n=255)和高风险组(n=254)。不同风险组患者表现出不同的临床病理特征。病理分期(P<0.001)、T分期(P=0.02)和N分期(P<0.001)均与RiskScore相关,然而年龄(P=0.59)和性别(P=0.31)与RiskScore无关。LGR4(R=0.419,P<0.001)、CDK1(R=0.710,P<0.001)、KLF10(R=0.499,P<0.001)、ARNTL2(R=0.736,P<0.001)和NPAS2(R=0.523,P<0.001)与RiskScore呈正相关,RORA(R=−0.204,P<0.001)和PTGDS(R=−0.356,P<0.001)与RiskScore呈负相关。
2.5 检验风险评分预测模型性能并绘制列线图
Kaplan-Meier生存曲线显示,训练组样本中,高风险和低风险组OS差异有统计学意义(P<0.001),表明高风险组比低风险组预后差;见图5a。为确保RiskScore预测模型的稳定性,绘制ROC曲线和时间依赖性ROC曲线,ROC曲线的AUC值为0.643,时间依赖性ROC曲线显示,预测1、3、5年OS率的AUC值分别为0.702、0.680、0.654,表明模型具有良好的准确性;见图5b~c。验证组数据集剔除1例无OS的样本后,将剩余442例样本以相同方法分为低风险组(n=221)和高风险组(n=221),然后绘制Kaplan-Meier生存曲线、ROC曲线及时间依赖性ROC曲线,两组OS差异仍有统计学意义(P<0.001)。ROC曲线的AUC值为0.643,时间依赖性ROC曲线显示,预测1、3、5年OS率的AUC值分别为0.730、0.688、0.653;见图5d~f。上述结果说明该模型在验证组中仍具有较好的预测性能。

a~c:分别为训练组的Kaplan-Meier生存曲线、ROC曲线和时间依赖性ROC曲线;d~f:分别为验证组的Kaplan-Meier生存曲线、ROC曲线和时间依赖性ROC曲线;ROC:受试者工作特征;AUC:曲线下面积
通过评估基于昼夜节律基因的风险模型在临床实践中的有效性,将RiskScore及临床病理特征纳入Cox回归分析,筛选LUAD患者OS的独立危险因素,并构建列线图;见图6a。该个体化预测模型可预测LUAD患者1、3、5年OS率,其AUC值分别为0.745、0.740和0.713。校准曲线和ROC曲线显示,列线图预测结果可靠;见图6b~d。

a:预测肺腺癌患者1、3、5年OS率的列线图;b~c:分别为列线图在训练组和验证组中预测1、3、5年OS率的校准曲线;d:列线图预测1、3、5年OS率的ROC曲线;OS:总生存期;ROC:受试者工作特征
2.6 风险评分与免疫细胞浸润的关系
用CIBERSORT算法计算7个预后特征基因与22种不同类型免疫细胞之间的关系,评估RiskScore预测模型与免疫细胞浸润之间的联系。在本研究中,ARNTL2的表达主要与初始CD4 T细胞、静息记忆CD4 T细胞、单核细胞和巨噬细胞的浸润呈负相关;CDK1的表达主要与γδT细胞和静息自然杀伤细胞的浸润呈正相关;KLF10的表达主要与肥大细胞和M0巨噬细胞的浸润呈正相关,与CD8 T细胞、初始CD4 T细胞、静息记忆CD4 T细胞、单核细胞和M1巨噬细胞的浸润呈负相关;LGR4的表达主要与中性粒细胞、巨噬细胞和树突细胞的浸润呈正相关;RORA的表达主要与静息肥大细胞和M0巨噬细胞的浸润呈正相关,与滤泡辅助性T细胞、CD4 T细胞、CD8 T细胞和单核细胞的浸润呈负相关;见图7a。此外,还比较了低风险组和高风险组的免疫细胞浸润水平;见图7b。在22种免疫细胞中,20种免疫细胞的浸润比例在低风险组和高风险组之间存在显著差异。特别是巨噬细胞,其在两组中都占较高比例,并具有显著差异,这表明控制该细胞的行为对干预LUAD患者的肿瘤进展是必不可少的。

a:7个预后基因与22种免疫细胞浸润的相关性;b:低风险组和高风险组肿瘤样本中22种不同类型免疫细胞浸润比例的差异
2.7 风险评分与免疫检查点基因的相关性分析
在LUAD数据集中,我们描述了RiskScore与46个常见免疫检查点基因之间的相互作用。免疫检查点基因在低风险组和高风险组的表达见图8a。根据相关性分析,CD276、TNFSF4、PDCD1LG2、CD274和TNFRSF9等基因与RiskScore呈正相关,CD40LG和TNFSF15等基因与RiskScore呈负相关;见图8b。上述结果可为寻找与免疫治疗相关的生物靶点提供潜在方向。

a:46个免疫检查点基因在低风险组和高风险组的差异表达;b:风险评分与46个免疫检查点基因的相关性
2.8 预后特征基因的表达与药物敏感性的关系
经筛选得到860种药物,将7个预后特征基因与药物数据进行Pearson相关性分析,并计算7个预后特征基因表达量与药物的敏感性。我们发现NPAS2与Refametinib、Trametinib和ARRY-162等药物敏感性显著相关(P<0.001);CDK1与Pyrazoloacridine的敏感性显著相关(P<0.05);LGR4与Kahalide F、Dacarbazine和Ixazomib等药物的敏感性显著相关(P<0.010);KLF10与BLU-667和BMS-690514等药物敏感性显著相关(P<0.001);ARNTL2与Haloperidol的敏感性显著相关(P<0.05)。这表明上述基因可作为这些药物治疗的生物靶点。
2.9 特征昼夜节律基因的单细胞转录分析
经过scRNA-seq数据处理和筛选,我们从2个LUAD样本中获得

a:GSE149655单细胞的组成和分布;b:细胞标记基因鉴定细胞类型;c:7个昼夜节律基因的表达谱
3 讨论
肺癌由于其高度侵袭性和预后差的特点,成为最致命的恶性肿瘤之一[14]。目前,LUAD的治疗方式选择主要根据组织学类型和临床分期,但由于其高度异质性,即使是同样组织学类型和临床分期的LUAD患者预后也不相同[15]。现代医学技术的进步极大提高了我们对LUAD致病机制的理解,并促进了新治疗方法的发展,但仍缺乏针对早期LUAD有效的筛查和诊断措施[16]。人体昼夜节律影响正常生理活动,而昼夜节律紊乱也可能与肺癌的进展密切相关[17]。为进一步研究昼夜节律基因与LUAD的发生、发展、预后和TME之间的联系,本研究筛选出特征昼夜节律基因,构建昼夜节律相关预后模型,同时结合scRNA-seq分析评估了昼夜节律紊乱与LUAD的关系,这一发现可能有助于开发新的LUAD治疗策略。
首先,我们对LUAD遗传变异数据进行了体细胞突变和CNVs分析,之后通过差异分析获得57个昼夜节律DEGs,包括37个上调基因和20个下调基因,并对其进行了功能富集分析和PPI构建,经GO、KEGG和GSEA分析表明这些基因主要富集在昼夜节律行为、遗传物质代谢调控、脂质代谢、AMPK、cGMP-PKG和JAK-STAT信号通路等相关生物学过程。研究[18-19]表明,脂代谢相关分子与昼夜节律基因的表达呈显著正相关,并且增加了患者预后不良的风险。AMPK在肿瘤细胞代谢等调节过程中发挥重要作用。据文献[20]报道,AMPK可通过直接调节自噬,靶向调节肿瘤细胞的代谢和微环境,进而影响肿瘤细胞的存活,表明AMPK在治疗癌症方面具有一定的应用潜力。研究[21]证明cGMP-PKG通路参与乳腺癌细胞的侵袭及凋亡等生物学过程。越来越多的证据[22-23]表明,JAK-STAT通路的过度激活与许多疾病的不良预后密切相关,包括黑色素瘤、胶质母细胞瘤、肺癌、乳腺癌、直肠癌和前列腺癌等。
其次,应用Cox回归、LASSO回归、SVM-RFE和随机森林依次筛选57个DEGs,每种算法都有各自的优点。LASSO回归分析主要用于过滤变量和避免模型过度拟合[24];SVM-RFE可方便地去除重复成分,在样本较少的数据集中保留与结果相关的变量[25];随机森林对候选基因进行排序、构建预测模型以及评估每个变量的相关性[26]。上述3种机器学习算法属于集成特征的选择,具有特定的优势和要素筛选过程的可重复性,并且已经被证明在识别预后特征基因方面是有效的[27-28]。将每种方法得到的DEGs取交集,最终确定由7个预后特征昼夜节律基因(LGR4、CDK1、KLF10、ARNTL2、RORA、NPAS2、PTGDS)组成的RiskScore预测模型,根据中位RiskScore将样本分为低风险组和高风险组。进一步对两组患者的预后进行研究,结果显示,高风险组患者的OS明显短于低风险组,差异有统计学意义(P<0.001)。使用ROC曲线和时间依赖性ROC曲线表明模型具有良好的准确性,在外部验证数据集中也得到验证。然后用RiskScore和两组具有独立预后的临床病理特征绘制出列线图,该模型能精确预测患者1年、3、5年OS率,其AUC值分为0.745、0.740和0.713,校准曲线也显示出准确的重叠。
最后,通过应用CIBERSORT算法评估免疫细胞在低风险组和高风险组的分布,我们发现巨噬细胞在两组中都占较高比例。巨噬细胞是促炎细胞因子的主要来源之一,其生理活动主要受生物钟控制[29]。实验[30]表明昼夜节律紊乱会降低肿瘤中M1/M2巨噬细胞比例,促使TME免疫抑制,加速肿瘤生长,增加患者死亡率。根据相关性分析,KLF10和RORA的表达主要与CD8 T细胞、初始CD4 T细胞、静息记忆CD4 T细胞、单核细胞和M1巨噬细胞的浸润水平呈负相关;与静息肥大细胞和M0巨噬细胞的浸润水平呈正相关。此外,研究还发现,大多数免疫检查点基因在高风险组中的表达水平较高,并且RiskScore与CD276、TNFSF4、PDCD1LG2、CD274和TNFRSF9的表达呈正相关。可见特征昼夜节律基因的表达与免疫细胞的浸润水平息息相关。为此我们采用scRNA-seq技术,进一步分析了7个特征昼夜节律基因在不同免疫细胞群体间的分布及其分子特征。在本研究中,RORA和KLF10主要表达于自然杀伤细胞。上述分析结果进一步验证了巨噬细胞和自然杀伤细胞等免疫细胞的活动一定程度上与昼夜节律相关,为将来从昼夜节律紊乱影响免疫细胞机制的角度寻找治疗LUAD的潜在策略提供了可能的方向。
上述7个特征基因已被报道与多种癌症的发生发展密切相关。LGR4是G蛋白偶联受体(G protein-coupled receptors,GPCRs)超家族的跨膜受体成员之一,其与R-Spinins/Norrin配体结合,在Wnt介导的信号转导中起关键作用[31]。越来越多的证据表明,LGR4在肿瘤组织中表达上调,并参与多种癌症的发生、发展和转移[32]。CDK1属于丝氨酸/苏氨酸蛋白激酶家族,是细胞周期G2期到M期过程中的一个检查点,其表达与细胞进入或退出增殖周期直接相关[33]。已有研究[34]证实,CDK1可作为LUAD的预后指标,以及在LUAD的发生发展、细胞周期转变和免疫相关通路治疗反应中发挥重要作用。KLF10是SP(specificity proteins)/KLF(Kruppel-like factor)转录因子家族的一员,与细胞增殖、细胞凋亡和糖脂代谢等的重要联系已逐渐被挖掘[35]。研究[36-37]表明,KLF10在人类致癌过程中起关键作用。ARNTL2作为一种昼夜节律转录因子,其在LUAD中高度表达,并促进癌细胞的增殖、迁移和侵袭,是LUAD患者预后不良的独立预测因子[17]。RORA作为LUAD的核心时钟控制基因,其已被证明与多种生物过程和疾病有关[38]。RORA有助于抗细胞凋亡和抗炎反应,抑制乳腺癌、前列腺癌和卵巢癌的细胞增殖[39]。此外,RORA在癌症中经常失活,这使其成为癌症治疗的潜在靶点[40]。Du等[41]发现与肺癌组织样本相比,非癌组织中RORA的表达水平升高。上述分析表明RORA可能是一种癌症抑制因子,这与本研究结果一致。NPAS2被认为是肿瘤发生和免疫侵袭的重要调节因子,其表达增加导致肺癌患者的生存率降低[42-44]。相关研究[45]表明PTGDS在肺癌中表达下调并抑制肿瘤进展,是早期诊断和判断预后的一个潜在肿瘤标志物。RORA和KLF10作为时钟控制基因,其主要调节核心时钟基因的表达[46]。在昼夜节律机制中,RORA与其他核受体REV-ERBα和REV-ERBβ(NR1D1和NR1D2)竞争,结合核心时钟基因BMAL1(ARNTL1)启动子中的特异性DNA反应元件,促进BMAL1的转录[47]。KLF10可调控多种昼夜节律基因的表达,是昼夜调节肝脏能量代谢等相关生物学过程所必需的[48]。
本研究证明了紊乱的昼夜节律与LUAD的免疫状态有关。根据免疫细胞浸润分析,高风险组样本中巨噬细胞的浸润率高于低风险组且在两组中都占较高比例,scRNA-seq分析结果提示RORA和KLF10都主要表达于自然杀伤细胞。自然杀伤细胞是一种先天免疫细胞,其介导的免疫监测不仅能直接杀伤肿瘤细胞,还间接释放细胞因子调节其他白细胞,如巨噬细胞、T细胞和树突状细胞[49]。研究[50]发现,昼夜节律紊乱不仅促进自然杀伤细胞凋亡,加速自然杀伤细胞衰老,而且也破坏自然杀伤细胞介导的免疫监视功能,表现为MHC-I缺陷的肿瘤细胞清除减少和B16黑色素瘤细胞的清除能力降低,从而促进肿瘤的发生发展。这说明TME中的免疫细胞普遍存在昼夜节律紊乱的现象,这为以后进一步从昼夜节律免疫机制的角度指导LUAD机制研究和药物开发提供了理论支持。
综上所述,本研究通过Cox回归和3种不同的机器学习算法构建了准确有效的7个特征昼夜节律基因预后模型。基于该7个基因的RiskScore模型可预测LUAD患者的OS。将RiskScore和临床参数相结合的列线图可用于预测LUAD患者1、3、5年OS率,其有助于LUAD患者的预后和随访监测,为LUAD患者的个体化诊疗提供参考。但本研究仍存在一定的局限性。首先,我们的研究数据主要来自TCGA和GEO数据集,有必要在大型独立临床队列中评估其预测效能。其次,我们缺乏深入的研究,特别是没有设计基因组定向分层实验。最后,这7个基因在LUAD发病中的生物学机制有待进一步通过功能研究来具体阐明。
利益冲突:无。
作者贡献:崔严奇、赵虎和张亚伟负责病例筛选,数据整理与论文设计,初稿撰写等;曾志勇、倪琳、连铎煌、杨鲸蓉、叶仕新、许蜂蜂和张锦灿负责论文审阅与修改。
肺癌是全球癌症相关死亡的主要原因[1]。非小细胞肺癌(non-small cell lung cancer,NSCLC)约占所有肺癌的85%,其主要组织学亚型是肺腺癌(lung adenocarcinoma,LUAD),约占肺癌发病率的40%[2]。尽管LUAD的靶向治疗和免疫治疗取得了重大进展,但由于疾病的隐匿性和缺乏特异性,大多数患者在确诊时已处于晚期,5年总生存率仍低于20%[3]。因此,迫切需要探索新的生物标志物和可靠的预后预测模型来改善LUAD患者的生存结局。
昼夜节律系统协调人体生理和行为节律以适应24 h生理周期[4]。昼夜节律基因主要分为两类:核心时钟基因和时钟控制基因,前者控制人体生理昼夜节律,后者调节核心时钟基因的表达[5]。许多研究[4,6-7]表明,昼夜节律紊乱不仅会导致代谢、心血管和免疫功能障碍,而且还与患癌风险和较差的预后有关。随着现代医学的发展,在高通量RNA测序技术和人工智能的辅助下,生物信息学结合机器学习算法已被广泛应用于基因组和蛋白质组研究,越来越多疾病的筛查、诊断和预后模型被开发出来[8]。单细胞RNA测序技术(single cell sequencing,scRNA-seq)被用于分析肿瘤微环境(tumor microenvironment,TME)的细胞类型和肿瘤异质性等相关生物学信息[9],能够在单细胞水平上检测基因表达量,从而有助于剖析肿瘤细胞群体中基因表达的异质性[10]。借助这一优势,scRNA-seq和生物信息学数据分析方法的发展为揭示TME中不同细胞群体的分子特征提供了前所未有的机会[3]。
1 资料与方法
本研究首先对癌症基因组图谱(The Cancer Genome Atlas,TCGA)的LUAD昼夜节律基因表达量和临床病理数据进行全面分析。然后通过Cox回归和3种不同的机器学习算法筛选出与LUAD预后相关的特征昼夜节律基因,构建LUAD预后的昼夜节律基因预测模型,并验证该模型在外部数据集的稳定性。此外,我们还评估了该模型与免疫细胞和免疫检查点基因的关联。最后在scRNA-seq分析的基础上,探讨预后相关的特征昼夜节律基因与TME中不同免疫细胞群体之间的分子特征。研究流程见图1。

1.1 数据来源
昼夜节律基因集(210个基因)于2023年6月27日从昼夜节律基因数据库(Circadian Genes Database,CGDB;http://cgdb.biocuckoo.org)得到,同期在TCGA数据库(https://portal.gdc.cancer.gov)获得LUAD RNA-Seq数据和临床病理数据(524例癌症样本,58例癌旁正常组织样本),筛选出LUAD患者昼夜节律基因表达量,并经过log2的转化。从Gene Expression Omnibus(GEO)数据库(https://www.ncbi.nlm.nih.gov/geo)获得外部验证数据集GSE68465(443例癌症样本,19例癌旁正常组织样本)。
1.2 昼夜节律差异基因筛选、突变及拷贝数变异分析
从TCGA数据库下载LUAD基因突变数据和拷贝数变异(copy number variations,CNVs)数据,与昼夜节律基因相对应,分别通过R-4.3.0软件“maftools”和“Rcircos”包处理并可视化。采用“DESeq2”包以P≤0.05和|log2(fold change)|>1的标准筛选昼夜节律差异表达基因(differentially expressed genes,DEGs),并使用“pheatmap”“ggplot2”和“psych”包绘制火山图和基因与临床性状相关性热图。
1.3 功能富集分析和构建蛋白质相互作用网络
使用“enrichplot”“org.Hs.eg.db”和“clusterProfiler”包对DEGs进行基因本体功能富集分析(gene ontology,GO)、京都基因与基因组百科全书通路分析(Kyoto Encyclopedia of Genes and Genomes,KEGG)和基因集富集分析(gene set enrichment analysis,GSEA),使用“ggplot2”包对结果进行可视化。通过The STRING网站(www.string-db.org)以最低相关分数0.400为阈值生成DEGs蛋白质相互作用网络(protein-protein interaction network,PPI)[11]。数据以TSV格式从数据库下载,并用Cytoscape_v3.9.0软件可视化。P≤0.05为差异有统计学意义。
1.4 构建风险评分预测模型
将训练组524例LUAD样本的昼夜节律DEGs表达量和生存信息合并,剔除15例无总生存期(overall survival,OS)及生存状态的患者,余509例LUAD样本依次纳入Cox回归和3种机器学习算法[最小绝对收缩和选择算子(LASSO)回归、支持向量机递归特征消除(SVM-RFE)、随机森林]。选择4种算法计算DEGs的交集基因,最终构建风险评分(RiskScore)预测模型。RiskScore预测模型计算公式:RiskScore=Exp1×C1+Exp2×C2+…+Expn×Cn(Exp为预后特征基因的表达量,C为LASSO回归分析得到的回归系数,n为交集基因的数目)。
根据上面的公式计算每例样本的RiskScore,以RiskScore中位数为截断值将LUAD样本分为低风险组和高风险组,P≤0.05为差异有统计学意义。
1.5 评价风险预测模型和绘制列线图
首先绘制Kaplan-Meier生存曲线比较低风险组和高风险组的OS。其次通过“timeROC”包绘制时间依赖性受试者工作特征(receiver operating characteristic,ROC)曲线,计算出训练组中模型预测1、3、5年OS率的曲线下面积(area under the curve,AUC),评价预测风险模型的准确性。最后将两组的临床病理因素和RiskScore纳入Cox回归分析,并构建列线图。利用校准曲线和ROC曲线评价生存预测的准确性。使用GSE68465数据集验证构建的预测模型。
1.6 评估肿瘤微环境的免疫学特征
通过应用“CIBERSORT”包对22种不同免疫细胞的浸润状态进行评估,以探讨RiskScore与免疫细胞浸润之间的关系。此外,从相关文献中检索出46个常见的免疫检查点,探索RiskScore与46个免疫检查点基因之间的联系[12]。P≤0.05为差异有统计学意义。
1.7 药物敏感性分析
相关基因表达和药物数据从CellMiner数据库(https://discover.nci.nih.gov/cellminer/home.do)下载。使用临床实验室验证以及国家药品监督管理局标准认证相结合的方法对药物数据进行筛选。然后,将预后特征昼夜节律基因的表达数据与药物数据合并,进行Pearson相关性检验,确定其相关性和药物敏感性。
1.8 特征昼夜节律基因的单细胞群体分子特征
为进一步验证特征昼夜节律基因与TME的关系,采用来自GSE149655数据集(GSM4506699、GSM4506701)的2例LUAD 10×scRNA-seq数据,并利用“Seurat”“patchwork”和“dplyr”包进行数据整理、标准化以及主成分分析(principal component analysis,PCA)。首先通过以下筛选标准保留高质量scRNA-seq数据:(1)剔除线粒体基因超过25%的细胞;(2)提取表达>200个且<
2 结果
2.1 昼夜节律基因的差异表达和遗传变异模式
遗传变异数据与昼夜节律基因一一对应后得到的基因突变和CNVs数据(201个基因,447例样本)在LUAD中的体细胞突变频率为68.01%(304/447);见图2a。从TCGA数据库收集的LUAD患者昼夜节律基因以P≤0.05和|log2(fold change)|>1为阈值,筛选出57个DEGs,包括37个上调基因和20个下调基因,昼夜节律DEGs在染色体的位置见图2b。DEGs与临床性状相关性热图、DEGs的火山图可视化结果见图2c~d。

a:447 例肺腺癌患者昼夜节律基因的突变频率,每列代表 1 例患者,顶部的条形图代表肿瘤突变负荷,右侧的数字代表每个基因的突变频率,右侧的条形图显示了每种基因的比例,下面堆叠的条形图显示了每个样本中转化的百分比;b:差异表达基因在23条染色体上的位置;c:差异表达基因与临床特征的相关性热图;d:昼夜节律差异表达基因火山图
2.2 功能富集分析和差异表达基因蛋白质相互作用网络的构建
为探索LUAD中昼夜节律基因的相关生物学功能和途径,对上述57个DEGs进行GO及KEGG分析,富集度最高的GO分类和KEGG通路见图3a~b。GO分析显示,DEGs主要富集在昼夜节律行为、RNA代谢的负调控、序列特异性DNA结合等相关生物学功能;KEGG分析显示,DEGs主要富集在AMPK信号通路、脂肪细胞脂解的调控通路和神经活性配体-受体相互作用通路等。将P≤0.05的昼夜节律基因纳入GSEA分析,其主要富集于cGMP-PKG信号通路、脂质与动脉粥样硬化和JAK-STAT信号通路等相关生物学过程,进一步验证了遗传物质调控和脂肪酸等能量物质代谢与肿瘤进展的密切关系。

a:GO 分析,对前 10 个富集类别(生物过程、细胞成分和分子功能)进行可视化;b:KEGG 分析,显示前 9 个富集通路;c:PPI 网络构建,基于 PPI 网络的前 46 个节点差异表达基因,使用 Degree 算法选择基因,颜色越深表示基因关联的节点越多;PPI:蛋白质相互作用网络
在去除不与其他节点交互的DEGs后,通过Degree算法构建了46个节点的PPI网络,展示昼夜节律DEGs蛋白质之间的相互作用;见图3c[13]。以上分析结果解释了基因层面的关系,也为将来寻找与预后相关生物学标志物的潜在靶点提供了研究思路。
2.3 筛选预后特征基因并构建风险评分预测模型
将上述57个DEGs分别纳入Cox回归、LASSO回归、SVM-RFE和随机森林。Cox回归得到17个与预后独立相关的基因(P<0.05);见图4a。通过LASSO回归的降维分析,获得31个特征基因;见图4b~c。应用SVM-RFE方法根据其重要性评分鉴定出25个准确率最高的基因;见图4d。通过随机森林算法对DEGs重要性评分排序后,识别出25个候选基因;见图4e。最后,将每种方法筛选的DEGs取交集后的7个预后相关特征基因(LGR4、CDK1、KLF10、ARNTL2、RORA、NPAS2、PTGDS)可视化为Venn图;见图4f。根据7个基因的表达量和风险系数构建RiskScore模型:RiskScore=LGR4×

a:Cox 分析显示 17 个基因与预后显著相关;b~c:LASSO 回归分析用于筛选昼夜节律基因的生物标志物,虚线标注处为Log(
2.4 风险评分与临床病理特征的关系
以训练组LUAD样本的RiskScore中位数为截断值将训练组样本分为低风险组(n=255)和高风险组(n=254)。不同风险组患者表现出不同的临床病理特征。病理分期(P<0.001)、T分期(P=0.02)和N分期(P<0.001)均与RiskScore相关,然而年龄(P=0.59)和性别(P=0.31)与RiskScore无关。LGR4(R=0.419,P<0.001)、CDK1(R=0.710,P<0.001)、KLF10(R=0.499,P<0.001)、ARNTL2(R=0.736,P<0.001)和NPAS2(R=0.523,P<0.001)与RiskScore呈正相关,RORA(R=−0.204,P<0.001)和PTGDS(R=−0.356,P<0.001)与RiskScore呈负相关。
2.5 检验风险评分预测模型性能并绘制列线图
Kaplan-Meier生存曲线显示,训练组样本中,高风险和低风险组OS差异有统计学意义(P<0.001),表明高风险组比低风险组预后差;见图5a。为确保RiskScore预测模型的稳定性,绘制ROC曲线和时间依赖性ROC曲线,ROC曲线的AUC值为0.643,时间依赖性ROC曲线显示,预测1、3、5年OS率的AUC值分别为0.702、0.680、0.654,表明模型具有良好的准确性;见图5b~c。验证组数据集剔除1例无OS的样本后,将剩余442例样本以相同方法分为低风险组(n=221)和高风险组(n=221),然后绘制Kaplan-Meier生存曲线、ROC曲线及时间依赖性ROC曲线,两组OS差异仍有统计学意义(P<0.001)。ROC曲线的AUC值为0.643,时间依赖性ROC曲线显示,预测1、3、5年OS率的AUC值分别为0.730、0.688、0.653;见图5d~f。上述结果说明该模型在验证组中仍具有较好的预测性能。

a~c:分别为训练组的Kaplan-Meier生存曲线、ROC曲线和时间依赖性ROC曲线;d~f:分别为验证组的Kaplan-Meier生存曲线、ROC曲线和时间依赖性ROC曲线;ROC:受试者工作特征;AUC:曲线下面积
通过评估基于昼夜节律基因的风险模型在临床实践中的有效性,将RiskScore及临床病理特征纳入Cox回归分析,筛选LUAD患者OS的独立危险因素,并构建列线图;见图6a。该个体化预测模型可预测LUAD患者1、3、5年OS率,其AUC值分别为0.745、0.740和0.713。校准曲线和ROC曲线显示,列线图预测结果可靠;见图6b~d。

a:预测肺腺癌患者1、3、5年OS率的列线图;b~c:分别为列线图在训练组和验证组中预测1、3、5年OS率的校准曲线;d:列线图预测1、3、5年OS率的ROC曲线;OS:总生存期;ROC:受试者工作特征
2.6 风险评分与免疫细胞浸润的关系
用CIBERSORT算法计算7个预后特征基因与22种不同类型免疫细胞之间的关系,评估RiskScore预测模型与免疫细胞浸润之间的联系。在本研究中,ARNTL2的表达主要与初始CD4 T细胞、静息记忆CD4 T细胞、单核细胞和巨噬细胞的浸润呈负相关;CDK1的表达主要与γδT细胞和静息自然杀伤细胞的浸润呈正相关;KLF10的表达主要与肥大细胞和M0巨噬细胞的浸润呈正相关,与CD8 T细胞、初始CD4 T细胞、静息记忆CD4 T细胞、单核细胞和M1巨噬细胞的浸润呈负相关;LGR4的表达主要与中性粒细胞、巨噬细胞和树突细胞的浸润呈正相关;RORA的表达主要与静息肥大细胞和M0巨噬细胞的浸润呈正相关,与滤泡辅助性T细胞、CD4 T细胞、CD8 T细胞和单核细胞的浸润呈负相关;见图7a。此外,还比较了低风险组和高风险组的免疫细胞浸润水平;见图7b。在22种免疫细胞中,20种免疫细胞的浸润比例在低风险组和高风险组之间存在显著差异。特别是巨噬细胞,其在两组中都占较高比例,并具有显著差异,这表明控制该细胞的行为对干预LUAD患者的肿瘤进展是必不可少的。

a:7个预后基因与22种免疫细胞浸润的相关性;b:低风险组和高风险组肿瘤样本中22种不同类型免疫细胞浸润比例的差异
2.7 风险评分与免疫检查点基因的相关性分析
在LUAD数据集中,我们描述了RiskScore与46个常见免疫检查点基因之间的相互作用。免疫检查点基因在低风险组和高风险组的表达见图8a。根据相关性分析,CD276、TNFSF4、PDCD1LG2、CD274和TNFRSF9等基因与RiskScore呈正相关,CD40LG和TNFSF15等基因与RiskScore呈负相关;见图8b。上述结果可为寻找与免疫治疗相关的生物靶点提供潜在方向。

a:46个免疫检查点基因在低风险组和高风险组的差异表达;b:风险评分与46个免疫检查点基因的相关性
2.8 预后特征基因的表达与药物敏感性的关系
经筛选得到860种药物,将7个预后特征基因与药物数据进行Pearson相关性分析,并计算7个预后特征基因表达量与药物的敏感性。我们发现NPAS2与Refametinib、Trametinib和ARRY-162等药物敏感性显著相关(P<0.001);CDK1与Pyrazoloacridine的敏感性显著相关(P<0.05);LGR4与Kahalide F、Dacarbazine和Ixazomib等药物的敏感性显著相关(P<0.010);KLF10与BLU-667和BMS-690514等药物敏感性显著相关(P<0.001);ARNTL2与Haloperidol的敏感性显著相关(P<0.05)。这表明上述基因可作为这些药物治疗的生物靶点。
2.9 特征昼夜节律基因的单细胞转录分析
经过scRNA-seq数据处理和筛选,我们从2个LUAD样本中获得

a:GSE149655单细胞的组成和分布;b:细胞标记基因鉴定细胞类型;c:7个昼夜节律基因的表达谱
3 讨论
肺癌由于其高度侵袭性和预后差的特点,成为最致命的恶性肿瘤之一[14]。目前,LUAD的治疗方式选择主要根据组织学类型和临床分期,但由于其高度异质性,即使是同样组织学类型和临床分期的LUAD患者预后也不相同[15]。现代医学技术的进步极大提高了我们对LUAD致病机制的理解,并促进了新治疗方法的发展,但仍缺乏针对早期LUAD有效的筛查和诊断措施[16]。人体昼夜节律影响正常生理活动,而昼夜节律紊乱也可能与肺癌的进展密切相关[17]。为进一步研究昼夜节律基因与LUAD的发生、发展、预后和TME之间的联系,本研究筛选出特征昼夜节律基因,构建昼夜节律相关预后模型,同时结合scRNA-seq分析评估了昼夜节律紊乱与LUAD的关系,这一发现可能有助于开发新的LUAD治疗策略。
首先,我们对LUAD遗传变异数据进行了体细胞突变和CNVs分析,之后通过差异分析获得57个昼夜节律DEGs,包括37个上调基因和20个下调基因,并对其进行了功能富集分析和PPI构建,经GO、KEGG和GSEA分析表明这些基因主要富集在昼夜节律行为、遗传物质代谢调控、脂质代谢、AMPK、cGMP-PKG和JAK-STAT信号通路等相关生物学过程。研究[18-19]表明,脂代谢相关分子与昼夜节律基因的表达呈显著正相关,并且增加了患者预后不良的风险。AMPK在肿瘤细胞代谢等调节过程中发挥重要作用。据文献[20]报道,AMPK可通过直接调节自噬,靶向调节肿瘤细胞的代谢和微环境,进而影响肿瘤细胞的存活,表明AMPK在治疗癌症方面具有一定的应用潜力。研究[21]证明cGMP-PKG通路参与乳腺癌细胞的侵袭及凋亡等生物学过程。越来越多的证据[22-23]表明,JAK-STAT通路的过度激活与许多疾病的不良预后密切相关,包括黑色素瘤、胶质母细胞瘤、肺癌、乳腺癌、直肠癌和前列腺癌等。
其次,应用Cox回归、LASSO回归、SVM-RFE和随机森林依次筛选57个DEGs,每种算法都有各自的优点。LASSO回归分析主要用于过滤变量和避免模型过度拟合[24];SVM-RFE可方便地去除重复成分,在样本较少的数据集中保留与结果相关的变量[25];随机森林对候选基因进行排序、构建预测模型以及评估每个变量的相关性[26]。上述3种机器学习算法属于集成特征的选择,具有特定的优势和要素筛选过程的可重复性,并且已经被证明在识别预后特征基因方面是有效的[27-28]。将每种方法得到的DEGs取交集,最终确定由7个预后特征昼夜节律基因(LGR4、CDK1、KLF10、ARNTL2、RORA、NPAS2、PTGDS)组成的RiskScore预测模型,根据中位RiskScore将样本分为低风险组和高风险组。进一步对两组患者的预后进行研究,结果显示,高风险组患者的OS明显短于低风险组,差异有统计学意义(P<0.001)。使用ROC曲线和时间依赖性ROC曲线表明模型具有良好的准确性,在外部验证数据集中也得到验证。然后用RiskScore和两组具有独立预后的临床病理特征绘制出列线图,该模型能精确预测患者1年、3、5年OS率,其AUC值分为0.745、0.740和0.713,校准曲线也显示出准确的重叠。
最后,通过应用CIBERSORT算法评估免疫细胞在低风险组和高风险组的分布,我们发现巨噬细胞在两组中都占较高比例。巨噬细胞是促炎细胞因子的主要来源之一,其生理活动主要受生物钟控制[29]。实验[30]表明昼夜节律紊乱会降低肿瘤中M1/M2巨噬细胞比例,促使TME免疫抑制,加速肿瘤生长,增加患者死亡率。根据相关性分析,KLF10和RORA的表达主要与CD8 T细胞、初始CD4 T细胞、静息记忆CD4 T细胞、单核细胞和M1巨噬细胞的浸润水平呈负相关;与静息肥大细胞和M0巨噬细胞的浸润水平呈正相关。此外,研究还发现,大多数免疫检查点基因在高风险组中的表达水平较高,并且RiskScore与CD276、TNFSF4、PDCD1LG2、CD274和TNFRSF9的表达呈正相关。可见特征昼夜节律基因的表达与免疫细胞的浸润水平息息相关。为此我们采用scRNA-seq技术,进一步分析了7个特征昼夜节律基因在不同免疫细胞群体间的分布及其分子特征。在本研究中,RORA和KLF10主要表达于自然杀伤细胞。上述分析结果进一步验证了巨噬细胞和自然杀伤细胞等免疫细胞的活动一定程度上与昼夜节律相关,为将来从昼夜节律紊乱影响免疫细胞机制的角度寻找治疗LUAD的潜在策略提供了可能的方向。
上述7个特征基因已被报道与多种癌症的发生发展密切相关。LGR4是G蛋白偶联受体(G protein-coupled receptors,GPCRs)超家族的跨膜受体成员之一,其与R-Spinins/Norrin配体结合,在Wnt介导的信号转导中起关键作用[31]。越来越多的证据表明,LGR4在肿瘤组织中表达上调,并参与多种癌症的发生、发展和转移[32]。CDK1属于丝氨酸/苏氨酸蛋白激酶家族,是细胞周期G2期到M期过程中的一个检查点,其表达与细胞进入或退出增殖周期直接相关[33]。已有研究[34]证实,CDK1可作为LUAD的预后指标,以及在LUAD的发生发展、细胞周期转变和免疫相关通路治疗反应中发挥重要作用。KLF10是SP(specificity proteins)/KLF(Kruppel-like factor)转录因子家族的一员,与细胞增殖、细胞凋亡和糖脂代谢等的重要联系已逐渐被挖掘[35]。研究[36-37]表明,KLF10在人类致癌过程中起关键作用。ARNTL2作为一种昼夜节律转录因子,其在LUAD中高度表达,并促进癌细胞的增殖、迁移和侵袭,是LUAD患者预后不良的独立预测因子[17]。RORA作为LUAD的核心时钟控制基因,其已被证明与多种生物过程和疾病有关[38]。RORA有助于抗细胞凋亡和抗炎反应,抑制乳腺癌、前列腺癌和卵巢癌的细胞增殖[39]。此外,RORA在癌症中经常失活,这使其成为癌症治疗的潜在靶点[40]。Du等[41]发现与肺癌组织样本相比,非癌组织中RORA的表达水平升高。上述分析表明RORA可能是一种癌症抑制因子,这与本研究结果一致。NPAS2被认为是肿瘤发生和免疫侵袭的重要调节因子,其表达增加导致肺癌患者的生存率降低[42-44]。相关研究[45]表明PTGDS在肺癌中表达下调并抑制肿瘤进展,是早期诊断和判断预后的一个潜在肿瘤标志物。RORA和KLF10作为时钟控制基因,其主要调节核心时钟基因的表达[46]。在昼夜节律机制中,RORA与其他核受体REV-ERBα和REV-ERBβ(NR1D1和NR1D2)竞争,结合核心时钟基因BMAL1(ARNTL1)启动子中的特异性DNA反应元件,促进BMAL1的转录[47]。KLF10可调控多种昼夜节律基因的表达,是昼夜调节肝脏能量代谢等相关生物学过程所必需的[48]。
本研究证明了紊乱的昼夜节律与LUAD的免疫状态有关。根据免疫细胞浸润分析,高风险组样本中巨噬细胞的浸润率高于低风险组且在两组中都占较高比例,scRNA-seq分析结果提示RORA和KLF10都主要表达于自然杀伤细胞。自然杀伤细胞是一种先天免疫细胞,其介导的免疫监测不仅能直接杀伤肿瘤细胞,还间接释放细胞因子调节其他白细胞,如巨噬细胞、T细胞和树突状细胞[49]。研究[50]发现,昼夜节律紊乱不仅促进自然杀伤细胞凋亡,加速自然杀伤细胞衰老,而且也破坏自然杀伤细胞介导的免疫监视功能,表现为MHC-I缺陷的肿瘤细胞清除减少和B16黑色素瘤细胞的清除能力降低,从而促进肿瘤的发生发展。这说明TME中的免疫细胞普遍存在昼夜节律紊乱的现象,这为以后进一步从昼夜节律免疫机制的角度指导LUAD机制研究和药物开发提供了理论支持。
综上所述,本研究通过Cox回归和3种不同的机器学习算法构建了准确有效的7个特征昼夜节律基因预后模型。基于该7个基因的RiskScore模型可预测LUAD患者的OS。将RiskScore和临床参数相结合的列线图可用于预测LUAD患者1、3、5年OS率,其有助于LUAD患者的预后和随访监测,为LUAD患者的个体化诊疗提供参考。但本研究仍存在一定的局限性。首先,我们的研究数据主要来自TCGA和GEO数据集,有必要在大型独立临床队列中评估其预测效能。其次,我们缺乏深入的研究,特别是没有设计基因组定向分层实验。最后,这7个基因在LUAD发病中的生物学机制有待进一步通过功能研究来具体阐明。
利益冲突:无。
作者贡献:崔严奇、赵虎和张亚伟负责病例筛选,数据整理与论文设计,初稿撰写等;曾志勇、倪琳、连铎煌、杨鲸蓉、叶仕新、许蜂蜂和张锦灿负责论文审阅与修改。