肺癌是全球癌症相关死亡的最常见原因,其早期诊断依然面临挑战[1-4]。尽管在肺癌治疗方面已取得了长足进步,但晚期肺癌患者预后不佳的现状仍然无法得到改善[5-7]。临床生存结果与疾病分期密切相关已成为共识,研究[8]表明,早期诊断可使5年相对生存率从晚期肺癌的6%增加至中期肺癌33%和早期肺癌60%。现行的肺结节诊疗管理以随访监测为主,对于未达到手术指征的肺结节仍缺乏有效的干预措施,这不仅加重了患者的身心负担,在一定程度上也增加了医疗资源的浪费。因此,早诊早治是降低肺癌相关死亡率和经济负担的有效策略。
随着癌症筛查技术的进步,特别是低剂量计算机断层扫描(low dose computed tomography,LDCT)分辨率的提高,每年有数十万患者被诊断为肺结节[9-10]。研究[11]表明,由于假阳性率和过度诊断风险的增加,许多肺结节患者接受了非必要性手术操作。而在侵入性手术前精准评估肺结节得良恶性不仅能减少不必要的手术、降低患者的身心负担,还可延缓恶性结节的疾病进展、减少医疗资源浪费。值得一提的是,肺结节/早期肺癌风险预测模型已被证实可以显著降低肺癌筛查中的假阳性率,目前已有指南建议使用预测模型进行肺癌筛查,例如美国国立综合癌症网络(National Comprehensive Cancer Network,NCCN)发布的肺癌筛查指南[12]强调了采用风险预测模型识别肺结节高危人群的重要地位。
最初,肺结节/早期肺癌的预测模型变量主要基于患者的CT影像特征和临床信息。但由于缺乏了其他重要生物标志物等特征性变量,较高的假阳性、过度诊疗的发生率一直无法避免[13-14]。基于多组学技术(包括影像组学、基因组学、蛋白质组学和代谢组学)寻找新的生物诊断标志物,为提高肺癌预测模型的准确性和敏感性提供了新的切入点。肺结节/早期肺癌预测模型的数量正在快速增加,然而目前这些研究尚未得到系统性定量研究。对现有文献进行系统可视化分析有助于研究者更加直观地了解肺结节/早期肺癌预测模型的研究现状与趋势,从而掌握该领域未来的研究方向。虽然已经有一些肺结节/早期肺癌风险预测模型的相关综述[15],但仍然缺乏对这些模型的演变和趋势的定量评估。文献计量学可以表征某一学科的研究动态,通过知识图谱的形式将大量文献数据信息生动直观地呈现出来,为今后的研究提供参考。
综上,本研究对肺结节/早期肺癌风险预测模型的研究现状进行了表征,并通过文献计量学和可视化分析探讨了该领域的研究趋势和最新动态,为肺结节/早期肺癌预测模型领域提供整体研究的宏观概括和热点概览,以期为未来可能的研究方向提供综述性观点。
1 资料与方法
1.1 数据来源与检索策略
本研究检索了中国知网、万方、维普和Web of Science 4个数据库,检索时间为2002年1月1日—2023年6月3日。中国知网的检索式为:SU=(肺结节+肺部结节+肺癌+肺腺癌+肺鳞癌+非小细胞肺癌)AND SU=(预测模型+预后模型+列线图),万方和维普根据各自不同的检索特点稍作调整。文献类型为论著和综述。
1.2 文献筛选与数据清洗
纳入标准为已发表的有关肺结节/早期肺癌预测模型的论著或综述。排除标准为:会议摘要、未发表文章、重复出版物、勘误类文章、学位论文、信件和与研究主题不相关文章。将检索到的中文文献以Refworks格式导入NoteExpress中进行查重,并且由两名研究者独自对文献进行人工筛选。英文文献从Web of Science中将完整记录和引用的参考文献的检索结果导出为“纯文本文件”,并以“download.txt”格式存储。两位作者独立根据纳入排除标准筛选文献。如有分歧,通过第三位作者讨论解决以达成共识。
筛选标题、作者、机构、关键词等关键信息完整的文章并完成数据清洗。合并重复的机构,对于同一机构的不同名称,采用现今被广泛接受的规范名称,同一学校不同学院均采归为学校,同一医院不同科室均归为医院;合并重复的关键词,将相同含义的关键词进行合并。
1.3 文献计量学与可视化分析
将完成数据清洗后的数据使用VOSviewer 1.6.18[16]、CiteSpace 6.1.R[17]和在线分析平台(
中文文献以RefWorks格式导出至VOSviewer 1.6.18中绘制作者和机构的合作网络,以及关键词聚类和时间演化分析,由于中文数据库无法导出参考文献相关信息,故未进行参考文献共被引分析。英文文献清洗和筛选完数据后,使用VOSviewer 1.6.18绘制了期刊的被引频次图谱,作者、国家、机构的合作网络、关键词聚类分析和时间演化分析图谱[20-21]。使用CiteSpace对高频共被引参考文献进行聚类分析。
2 结果
2.1 检索结果
共检索到5687篇关于肺结节/早期肺癌预测模型的文献。在进一步筛选了论文的标题、摘要和全文后,本研究共纳入了2421篇文献,其中英文文献2139篇,中文文献282篇(图1)。

2.2 年发文量
英文文献共2139篇,包括1892篇论著(88.45%)和247篇综述(11.56%),总体上,年发文量随着时间的推移而增加,但在2010年和2014年有轻微波动。2002—2015年期间发表的研究相对较少(419篇),但此后年发文量迅速增加,2016—2022年期间达到1720篇(80.41%),仅2022年发表的论文数量就达450篇。中文文献共282篇,年发文量随着时间的推移而增加。2022年发表的论文数量最多,为64篇。表明这一领域受到了越来越多的关注(图2)。

2.3 期刊分析
共有566种期刊发表了肺结节/早期肺癌预测模型相关的英文文章。发文量排名前10的英文期刊见表1,这些期刊共发表462篇英文文章。其中,发文量最多的期刊是Frontiers in Oncology(120篇),其次是Lung Cancer(47篇)和Cancers(42篇)。在排名前10的学术期刊中,IF最高的期刊是来自美国的Journal of Thoracic Oncology(IF=20.21)。中文期刊发文量最多的是《临床放射学杂志》(13篇),其次是《中国胸心血管外科临床杂志》(9篇)和《中国肺癌杂志》(7篇)。

当VOSviewer中的阈值设定为5时,英文期刊共现网络有91个节点、3个集群和3831条连线。结果显示共有91种英文期刊刊登了≥5篇关于肺结节/早期肺癌预测模型相关的文章。Chest被引频次最多(2077次),其次是International journal of radiation oncology biology physics(1541次)和Journal of Clinical Oncology(1270次)。可以看出,上述期刊在肺结节/早期肺癌领域具有较大的学术影响力,引起了全球学者的广泛关注。英文期刊被引频次的可视化图见图3。

2.4 国家/地区分析
对纳入的英文文章进行国家/地区分析,结果表明共有64个国家/地区为肺结节/早期肺癌预测模型的研究做出了贡献。中国(1125篇)发文量最多,其次是美国(556篇)、英国(127篇)、加拿大(105篇)及荷兰(101篇)。发文量排名前10的国家包括了6个欧洲国家、2个亚洲国家和2个北美国家。英文文献发文量前10的国家/地区见表2。

在VOSviewer中,我们将阈值设置为5以显示国家/地区的合作关系。合作关系网络图包含了35个节点、7个集群和294条连接线(图4),最大的集群(橙色)由7个国家组成,以澳大利亚、韩国和印度为中心。美国是合作伙伴最多的国家(n=31),其次是英国(n=27)、意大利(n=27)、德国(n=27)、西班牙(n=27)和丹麦(n=27)。

节点表示国家或地区,节点大小与发文量成正比,连线表示联系
2.5 机构合作分析
共有2711个机构发表了肺结节/早期肺癌预测模型研究。英文发文量最多的机构是复旦大学(60篇),其次是北京协和医学院(56篇)和浙江大学(54篇),排名前10的机构包括了8所中国院校和2所美国院校。中文发文量最多的是北京协和医学院(8篇),其次是上海交通大学附属胸科医院(6篇)和中国医学科学院(4篇)。中英文发文量排名前10的机构见表3。

英文发文量≥10篇机构的合作网络见图5A,包括102个节点,7个集群和802条连接线。红色集群由复旦大学、上海交通大学、中山大学和北京协和医学院为中心的32所机构组成,是最大的集群。哈佛医学院有最多的合作者(n=34),其次是上海交通大学(n=33)、中山大学(n=32)和哈佛大学(n=32)。发表中文论文的机构之间的合作网络见图5B,包括9个节点,3个集群和12条连接线,结果显示北京协和医学院发文量最多,最大的合作网络由南京医科大学、上海交通大学、江苏省启东市肝癌研究所和清华大学共同组成。与中文文献相比,发表英文文献的机构之间的合作更加密切。

a:发表英文文献的机构合作网络;b:发表中文文献的机构合作网络;节点表示机构,节点大小与发文量呈正比,连线表示联系,连接机构之间线的宽度显示了机构之间的合作强度,节点的颜色表示不同的聚类
2.6 作者分析
参与肺结节/早期肺癌预测模型研究发表英文论文的作者总数为12581人,其中22位作者发表文献>10篇,199位作者发表文献>5篇(平均每篇文献有5.88位作者)。John K Fields教授(17篇)和赫捷院士(17篇)发表的研究最多,其次是Dirk De Ruysscher教授(16篇)、Martin C Tammemagi教授(16篇)和Yi Zhang教授(16篇)。发文量排名前10的作者见表4。当我们设定阈值为5篇时,英文作者合作网络包括171个节点、15个集群和517条连接线(图6a)。红色集群由21位作者组成,Yi Zhang教授、Feng Jiang教授和Jingjing Wang教授处于该集群的核心。Li Zhang教授与其他团队合作最多(n=17),其次是Harry J de Koning教授(n=16)和Martin C Tammemagi教授(n=15)。


a:英文文章的作者合作网络;b:中文文章的作者合作网络
参与肺结节/早期肺癌预测模型研究发表中文论文的作者总数为176人。其中,韩冬发表文章最多(5篇),其次为于楠(4篇)和张永奎(4篇)。中文作者合作网络包括25个节点,4个集群和98个连接线(图6b)。红色集群由8位作者组成,包括刘敏、王秋萍、郭晓娟、郭佑民等。
2.7 关键词聚类、时间演化及突现分析
2139篇英文文献包括了6376个关键词,282篇中文文献中包含485个关键词。为了探索这一领域的研究热点,我们提取了英文文献出现频率排名前100的关键词和中文文献中出现频率排名前30的关键词,并绘制了关键词共现的可视化网络图(图7)。通过VOSviewer将英文文章中排名前100的关键词分为5个不同的集群和3290条连接线(图7a)。第1组“肺癌”(红色)包括肺癌、癌症、预后、基因组学和表达;第2组“预测模型”(绿色)包括计算机断层扫描、肺结节、预测模型、风险模型和管理。第3组“生存”(蓝色)包括生存、风险、诺莫图和结局;第4组“影像组学”(黄色)包括分类、特征、机器学习和异质性;第5组“治疗”(紫色)包括放化疗、厄洛替尼、吉非替尼、突变和表皮生长因子受体。将中文文章中排名前30的关键词进行聚类分析,分为6个不同的集群和145条连接线(图7b),其中最大集群(红色)包含肺结节、危险因素、影像学特征、预测模型等关键词。

a:英文文献前100个关键词聚类分析;b:中文文献前30个关键词聚类分析
英文文章关键词时间演化分析图是根据其平均出现年份(average appearing year,AAY)进行着色,以探索随时间推移的演变趋势(图8a)。最近出现的关键词是“lncRNA”(AAY:2021.30)、“肿瘤微环境”(AAY:2021.08)、“免疫”(AAY:2020.88)、“癌症统计”(AAY:2020.50)、“TCGA”(AAY:2020.61)、“诺莫图”(AAY:2020.17)和“机器学习”(AAY:2019.91)。中文文章关键词时间演化分析结果显示,新兴的关键词有“列线图”(AAY:2020.64)、“机器学习”(AAY:2020.79)、“预后模型”(AAY:2021.08)、“人工智能”(AAY:2021.40)。

a:英文文献前100个关键词时间演化分析;b:中文文献前30个关键词时间演化分析
英文文献的关键词突现分析显示 “Smoking”(25.44)的突现强度最高,其次为“risk model”(9.24)和“risk”(8.9)(图9a)。近5年中出现的关键词是“guidelines”、“images”、“poor prognosis”、“feature”和“genome”。在中,中文关键词突现分析表明,“预后”(2.72)的突现强度最高,其次是“影像组学”(2.13)和“列线图”(1.94)(图9b)。截止到2022年,影像组学、机器学习、预测、鉴别诊断和影响因素的热度仍在升高,说明这是目前的研究特点和今后的研究趋势。

a:英文文献关键词突现分析;b:中文文献关键词突现分析
2.8 文献共被引
我们列出了被引用最多的10篇英文文献(表5)。可以看出,大多数共被引文献均发表于顶级期刊,如The New England journal of Medicine、CA: A Cancer Journal for Clinicians和Nature,这些研究中有一半以上与肺结节/早期肺癌的流行病学和预测模型有关。国家肺癌筛查试验研究小组发表在The New England journal of Medicine上的一篇题为“Reduced lung-cancer mortality with low-dose computed tomographic screening”的综述被引频次最高(291次)。该研究表明,用低剂量计算机断层扫描筛查可大大降低肺癌相关的死亡率,强调了其在肺癌早期筛查和诊断中的重要性。

纳入的2139篇论文共引用了54959条参考文献。我们使用CiteSpace进行了共被引聚类分析,并分析了研究热点和趋势。共被引文献聚类分析图谱显示文献被划分为17个聚类(图10a)。从时间分布来看,聚类相对集中,主要包括#0肺癌筛查、#1肺癌、#2预后、#3肺腺癌、#4孤立性肺结节、#5筛查、#6影像组学。此外,我们还构建了一个时间线图(图10b)。结果表明在过去的10年里,该领域发展迅速。值得注意的是,对#0肺癌筛查、#1肺癌、#5筛查、#6影像组学、#7手术、#8NLR和#14氟脱氧葡萄糖F18的研究主要出现在2016—2022年,说明这些集群是肺结节/早期肺癌预测模型研究的热点。

a:共被引文献聚类分析;b:共被引文献的时间线分析
3 讨论
3.1 肺结节/早期肺癌预测模型研究的全球趋势
文献计量学是一门融合了统计学、数学、文献学等多学科研究,能够对某一研究领域进行定量评估。我们共纳入了2002—2023年间发表的2421篇文献进行文献计量学和可视化分析,研究表明,在过去20年中,肺结节/早期肺癌预测模型相关研究的发文数量呈现上升趋势,每年都在稳步增加[22-23]。
各个国家/地区之间也进行了合作,中国是发文量最高的国家,美国是被引频次最多的国家。此外,美国当前处于国际合作的核心地位,与中国、日本、澳大利亚和新加坡等国家有着密切的联系。排名前10的机构包括了排名前10的机构包括了8所中国院校和2所美国院校。这说明美国和中国的研究者在肺结节/早期肺癌预测模型方面的研究投入比其他国家更多。近年来,来自中国的文献数量正不断增加,这反映了中国对肺结节/早期肺癌预测模型研究的高度重视。来自利物浦大学分子与临床癌症医学系的约John K Field教授和中国医学科学院的赫捷院士均发表了17篇文章,为肺结节/早期肺癌预测模型领域做出了巨大的贡献。这些发现凸显了国家、机构和作者之间进行密切合作以推进这一领域的重要性。
3.2 研究热点与前沿
无创便捷的预测模型作为新兴预测工具在肺癌早期预警及辅助诊断、疗效实时监测、用药指导和耐药机制探索、预后判断等临床应用方面持续发挥巨大价值[24-25]。关键词聚类分析有利于发现当前有关肺结节/早期肺癌预测模型的研究热点,本研究显示,预后、治疗、生存和影像组学是当前肺结节/早期肺癌预测模型研究的重点。值得注意的是,英文文献关键词时间演化分析结果显示,近年来lncRNA、肿瘤微环境、免疫、癌症统计、TCGA、诺莫图和机器学习出现频次较高。近年来,由于机器学习的快速发展和不断深入,使得肺结节/早期肺癌预测模型不断优化。中文文献关键词分析表明该领域的新兴关键词有列线图、机器学习、预后模型和人工智能等。中英文的关键词突现分析结果表明,目前影像组学、基因组学、机器学习、预后预测、鉴别诊断是该领域的研究热点和趋势。随着高通量测序技术的迅速发展,越来越多的新型诊断预测因子进入了模型变量,包括lncRNA、基因组学、微生物组学、免疫和影像组学等[26-27],有助于提高肺结节/早期肺癌预测模型的精准度和灵敏度,推动肺癌早诊早治。
应用最早最广泛的肺结节/早期肺癌预测模型是Swensen等[28]建立的Mayo模型。大多数传统模型将年龄、性别、种族、民族、受教育程度、体重指数、个人癌症史、个人肺炎史、肺癌家族史以及吸烟史等多种临床特征作为风险预测因素[29]。随着肺癌筛查的普及,肺结节/早期肺癌预测模型引起了研究者的关注,越来越多的研究证实了肺结节/早期肺癌预测模型在肺癌早诊早治中的潜力。近年来,人工智能、分子生物学和多组学技术的发展进一步催生了更多的新型诊断预测因子[5]。大量研究[30-32]表明,基于生物标志物、基因组学、影像组学等多模态数据的预测模型,特别是整合了多组学特征的模型,可以显著提高肺癌预测的准确性和良恶性肺结节的鉴别能力[33-34]。Hu等[35]基于3个DNA甲基化生物标志物和1个影像学特征构建了预测模型,并实现了恶性肺结节诊断的曲线下面积(area under the curve,AUC)可达0.951,显著高于Mayo模型(AUC=0.823)的预测效能。

基于关键词分析,我们还发现机器学习和人工智能在肺结节/早期肺癌预测模型应用广泛,越来越多的研究证明了机器学习和人工智能在肺结节/早期肺癌预测模型开发中的作用。人工智能可以帮助识别人类无法提取的特征和执行重复性的任务,通过将人工智能与影像组学、基因组学、转录组学、蛋白组学和临床数据相结合,该集成数据能显著提高肺结节/早期肺癌预测模型的准确性。Hosny等[36]提供了一种基于深度学习网络和非小细胞肺癌患者CT图像的肺癌预测模型,可用于肺癌死亡危险风险分层。Takahashi等[31]使用来自癌症基因组图谱的6个不同多组学数据集,基于无监督机器学习算法建立了肺癌患者预后预测的模型。多组学与机器学习技术的结合在这一领域非常有前景,能显著提高预测模型的预测效能。Chen等[37]通过机器学习算法构建了包含基因突变、cfDNA甲基化信号以及血清肿瘤蛋白标志物水平的多组学肺癌诊断模型,AUC为0.78,其诊断性能显著高于任何单一组学构建的诊断模型,研究证明多组学数据整合可以有效提高肺癌诊断预测模型的准确性。
被引频次高的参考文献大多集中在流行病学和肺癌预测模型上。被引频次最高的参考文献是2011年发表在The New England Journal of Medicine上的文献“Reduced lung-cancer mortality with low-dose computed tomographic screening”[38]。这项对33个美国医学中心的53454例高危人群的研究表明,与胸部X线片检查相比,LDCT筛查得阳性率比胸部X线片检查高出3倍以上,可检测更多的肺结节和肺癌,并有望能将肺癌相关死亡率降低20%。2013年,美国预防服务工作组建议每年使用LDCT进行肺癌早筛[39]。随着LDCT的广泛使用和健康意识的提高,越来越多的预测模型被开发出来[3]。预测模型的开发减轻了患者的身心负担和医疗系统负荷,并改善了诊断的准确性。由于肺癌持续存在的高发病率和死亡率,因此迫切需要更精准和可靠的预测模型应用于肺结节/早期肺癌,推动肺癌的精准医疗。
3.3 挑战和前景
肺结节/早期肺癌预测模型在过去20年中发展迅猛,但仍存在一些需要解决的问题。首先,大部分预测模型基于单中心或小样本回顾性研究的数据,缺乏外部数据集进行验证;部分样本量相对较大的研究是在欧美国家开展的,限制了预测模型的推广和应用。同时,由于算法和数据集的不同,模型的灵敏度和精确度也不同,导致尚未形成统一的诊断标准;此外,一些指南建议使用预测模型以降低LDCT的假阳性率,但是目前尚无全球公认的预测模型应用于临床。最后,当前不同国家、机构和作者之间的交流合作不密切,未来需开展更多跨国家、跨区域、跨机构的大样本多中心前瞻性研究,各国各机构之间消除学术壁垒,合作共赢,共同推动肺结节/早期肺癌预测模型的发展,为肺结节/早期肺癌预测模型提供充足的临床证据。
肺癌发生发展是一个多步骤连锁事件,涉及诸多层面的复杂调控机制。近年来,分子生物学、高通量测序技术和各种质谱仪的快速发展,为进一步探索肺结节和肺癌的致病机制、危险因素和潜在预测因子提供了重要的理论和技术支持,这将会激发预测模型的进一步优化,以提高其灵敏度和准确性。液体活检等新兴检测技术为亚临床期的肺癌个体化诊疗提供了技术支持。海量的多组学数据有助于构建和优化肺结节/早期肺癌预测模型,有助于肺癌早诊早治,推动精准医学的发展。
本研究发现人工智能、机器学习、多组学等为现阶段的研究热点,探索多组学数据的融合算法亦是今后很长一段时间内的重点研究方向。近年来,基于多组学数据建立的预测模型不断增多,为临床决策和个体化治疗提供更为充分的理论依据。如Carrillo-Perez等[40]融合WSI、RNA、miRNA、CNV的多组学数据构建预测模型,其精度为96.81%,AUC为0.993,具有较高的准确性,利用多组学数据可以提高个性化医疗中的临床决策支持系统的性能。与仅使用单组学数据相比,多组学融合能提高肺癌分期预测模型的准确性,Li等[41]使用随机森林算法构建肺癌分期预测模型,其中微生物组联合转录组的预测模型的准确率为0.809,较单组学预测模型更精准,提高肺癌分期预测能力。不同组学的数据可以通过人工智能的预测算法进行整合,以揭示系统生物学的复杂机制,发现新的生物标志物,有助于提高预测模型的准确性。故人工智能、机器学习和多组学在肺癌的早诊早治中具有重要的研究意义,具有巨大的潜在价值和广阔的应用前景,仍需要进一步进行临床验证。
该研究存在以下局限性:首先,我们只纳入了2002—2022年发表的文章,这可能会导致选择偏倚。第二,本研究纳入了知网、万方、维普和Web of Science数据库中的相关文献,但这也不可避免地遗漏了其他数据库潜在文献,今后可增加数据库来源,提高研究的深度和广度。第三,人工进行文献信息整理、关键词合并等数据清洗时可能存在潜在的选择性偏倚;第四,由于中文数据库尚无法直接导出引文数据,导致缺少中文文献共被引分析;最后,许多作者与其他作者同名同姓,文献计量软件无法区分同名作者的贡献度,难以避免作者信息的不准确。
综上所述,该研究对近20年肺结节/早期肺癌预测模型相关文献进行文献计量学和可视化分析。研究表明:肺结节/肺癌预测模型正处于快速发展阶段,具有巨大的临床应用潜力。过去的20年中,在肺结节/肺癌预测模型领域,涌现出了以中国和美国为代表的诸多富有强大科学创造力的国家,复旦大学在该领域中具有重要的学术影响力,以赫捷院士和John K Field教授为核心的研究团队为肺癌的早诊早治做出了巨大贡献。预测模型、机器学习、人工智能和多组学技术是当前和未来研究的重点,并显示出巨大的应用前景。最后,为了提高预测模型的临床实用性,我们建议使用来自大样本、多中心研究的数据进行外部验证,并加强跨国家、跨地区、跨学科的交叉合作,构建和优化更加精准的肺结节/早期肺癌预测模型,推动精准医学的发展。
利益冲突:无。
作者贡献:任益锋、马琼、石薇、由凤鸣负责论文构思及设计,分析数据及撰写;蒋华、付西、李雪珂筛选文献,提取资料,质量评估;任益锋、马琼、石薇进行论文质量评价和修改论文;由凤鸣负责对文章的知识性内容作批判性审阅与修改。
肺癌是全球癌症相关死亡的最常见原因,其早期诊断依然面临挑战[1-4]。尽管在肺癌治疗方面已取得了长足进步,但晚期肺癌患者预后不佳的现状仍然无法得到改善[5-7]。临床生存结果与疾病分期密切相关已成为共识,研究[8]表明,早期诊断可使5年相对生存率从晚期肺癌的6%增加至中期肺癌33%和早期肺癌60%。现行的肺结节诊疗管理以随访监测为主,对于未达到手术指征的肺结节仍缺乏有效的干预措施,这不仅加重了患者的身心负担,在一定程度上也增加了医疗资源的浪费。因此,早诊早治是降低肺癌相关死亡率和经济负担的有效策略。
随着癌症筛查技术的进步,特别是低剂量计算机断层扫描(low dose computed tomography,LDCT)分辨率的提高,每年有数十万患者被诊断为肺结节[9-10]。研究[11]表明,由于假阳性率和过度诊断风险的增加,许多肺结节患者接受了非必要性手术操作。而在侵入性手术前精准评估肺结节得良恶性不仅能减少不必要的手术、降低患者的身心负担,还可延缓恶性结节的疾病进展、减少医疗资源浪费。值得一提的是,肺结节/早期肺癌风险预测模型已被证实可以显著降低肺癌筛查中的假阳性率,目前已有指南建议使用预测模型进行肺癌筛查,例如美国国立综合癌症网络(National Comprehensive Cancer Network,NCCN)发布的肺癌筛查指南[12]强调了采用风险预测模型识别肺结节高危人群的重要地位。
最初,肺结节/早期肺癌的预测模型变量主要基于患者的CT影像特征和临床信息。但由于缺乏了其他重要生物标志物等特征性变量,较高的假阳性、过度诊疗的发生率一直无法避免[13-14]。基于多组学技术(包括影像组学、基因组学、蛋白质组学和代谢组学)寻找新的生物诊断标志物,为提高肺癌预测模型的准确性和敏感性提供了新的切入点。肺结节/早期肺癌预测模型的数量正在快速增加,然而目前这些研究尚未得到系统性定量研究。对现有文献进行系统可视化分析有助于研究者更加直观地了解肺结节/早期肺癌预测模型的研究现状与趋势,从而掌握该领域未来的研究方向。虽然已经有一些肺结节/早期肺癌风险预测模型的相关综述[15],但仍然缺乏对这些模型的演变和趋势的定量评估。文献计量学可以表征某一学科的研究动态,通过知识图谱的形式将大量文献数据信息生动直观地呈现出来,为今后的研究提供参考。
综上,本研究对肺结节/早期肺癌风险预测模型的研究现状进行了表征,并通过文献计量学和可视化分析探讨了该领域的研究趋势和最新动态,为肺结节/早期肺癌预测模型领域提供整体研究的宏观概括和热点概览,以期为未来可能的研究方向提供综述性观点。
1 资料与方法
1.1 数据来源与检索策略
本研究检索了中国知网、万方、维普和Web of Science 4个数据库,检索时间为2002年1月1日—2023年6月3日。中国知网的检索式为:SU=(肺结节+肺部结节+肺癌+肺腺癌+肺鳞癌+非小细胞肺癌)AND SU=(预测模型+预后模型+列线图),万方和维普根据各自不同的检索特点稍作调整。文献类型为论著和综述。
1.2 文献筛选与数据清洗
纳入标准为已发表的有关肺结节/早期肺癌预测模型的论著或综述。排除标准为:会议摘要、未发表文章、重复出版物、勘误类文章、学位论文、信件和与研究主题不相关文章。将检索到的中文文献以Refworks格式导入NoteExpress中进行查重,并且由两名研究者独自对文献进行人工筛选。英文文献从Web of Science中将完整记录和引用的参考文献的检索结果导出为“纯文本文件”,并以“download.txt”格式存储。两位作者独立根据纳入排除标准筛选文献。如有分歧,通过第三位作者讨论解决以达成共识。
筛选标题、作者、机构、关键词等关键信息完整的文章并完成数据清洗。合并重复的机构,对于同一机构的不同名称,采用现今被广泛接受的规范名称,同一学校不同学院均采归为学校,同一医院不同科室均归为医院;合并重复的关键词,将相同含义的关键词进行合并。
1.3 文献计量学与可视化分析
将完成数据清洗后的数据使用VOSviewer 1.6.18[16]、CiteSpace 6.1.R[17]和在线分析平台(
中文文献以RefWorks格式导出至VOSviewer 1.6.18中绘制作者和机构的合作网络,以及关键词聚类和时间演化分析,由于中文数据库无法导出参考文献相关信息,故未进行参考文献共被引分析。英文文献清洗和筛选完数据后,使用VOSviewer 1.6.18绘制了期刊的被引频次图谱,作者、国家、机构的合作网络、关键词聚类分析和时间演化分析图谱[20-21]。使用CiteSpace对高频共被引参考文献进行聚类分析。
2 结果
2.1 检索结果
共检索到5687篇关于肺结节/早期肺癌预测模型的文献。在进一步筛选了论文的标题、摘要和全文后,本研究共纳入了2421篇文献,其中英文文献2139篇,中文文献282篇(图1)。

2.2 年发文量
英文文献共2139篇,包括1892篇论著(88.45%)和247篇综述(11.56%),总体上,年发文量随着时间的推移而增加,但在2010年和2014年有轻微波动。2002—2015年期间发表的研究相对较少(419篇),但此后年发文量迅速增加,2016—2022年期间达到1720篇(80.41%),仅2022年发表的论文数量就达450篇。中文文献共282篇,年发文量随着时间的推移而增加。2022年发表的论文数量最多,为64篇。表明这一领域受到了越来越多的关注(图2)。

2.3 期刊分析
共有566种期刊发表了肺结节/早期肺癌预测模型相关的英文文章。发文量排名前10的英文期刊见表1,这些期刊共发表462篇英文文章。其中,发文量最多的期刊是Frontiers in Oncology(120篇),其次是Lung Cancer(47篇)和Cancers(42篇)。在排名前10的学术期刊中,IF最高的期刊是来自美国的Journal of Thoracic Oncology(IF=20.21)。中文期刊发文量最多的是《临床放射学杂志》(13篇),其次是《中国胸心血管外科临床杂志》(9篇)和《中国肺癌杂志》(7篇)。

当VOSviewer中的阈值设定为5时,英文期刊共现网络有91个节点、3个集群和3831条连线。结果显示共有91种英文期刊刊登了≥5篇关于肺结节/早期肺癌预测模型相关的文章。Chest被引频次最多(2077次),其次是International journal of radiation oncology biology physics(1541次)和Journal of Clinical Oncology(1270次)。可以看出,上述期刊在肺结节/早期肺癌领域具有较大的学术影响力,引起了全球学者的广泛关注。英文期刊被引频次的可视化图见图3。

2.4 国家/地区分析
对纳入的英文文章进行国家/地区分析,结果表明共有64个国家/地区为肺结节/早期肺癌预测模型的研究做出了贡献。中国(1125篇)发文量最多,其次是美国(556篇)、英国(127篇)、加拿大(105篇)及荷兰(101篇)。发文量排名前10的国家包括了6个欧洲国家、2个亚洲国家和2个北美国家。英文文献发文量前10的国家/地区见表2。

在VOSviewer中,我们将阈值设置为5以显示国家/地区的合作关系。合作关系网络图包含了35个节点、7个集群和294条连接线(图4),最大的集群(橙色)由7个国家组成,以澳大利亚、韩国和印度为中心。美国是合作伙伴最多的国家(n=31),其次是英国(n=27)、意大利(n=27)、德国(n=27)、西班牙(n=27)和丹麦(n=27)。

节点表示国家或地区,节点大小与发文量成正比,连线表示联系
2.5 机构合作分析
共有2711个机构发表了肺结节/早期肺癌预测模型研究。英文发文量最多的机构是复旦大学(60篇),其次是北京协和医学院(56篇)和浙江大学(54篇),排名前10的机构包括了8所中国院校和2所美国院校。中文发文量最多的是北京协和医学院(8篇),其次是上海交通大学附属胸科医院(6篇)和中国医学科学院(4篇)。中英文发文量排名前10的机构见表3。

英文发文量≥10篇机构的合作网络见图5A,包括102个节点,7个集群和802条连接线。红色集群由复旦大学、上海交通大学、中山大学和北京协和医学院为中心的32所机构组成,是最大的集群。哈佛医学院有最多的合作者(n=34),其次是上海交通大学(n=33)、中山大学(n=32)和哈佛大学(n=32)。发表中文论文的机构之间的合作网络见图5B,包括9个节点,3个集群和12条连接线,结果显示北京协和医学院发文量最多,最大的合作网络由南京医科大学、上海交通大学、江苏省启东市肝癌研究所和清华大学共同组成。与中文文献相比,发表英文文献的机构之间的合作更加密切。

a:发表英文文献的机构合作网络;b:发表中文文献的机构合作网络;节点表示机构,节点大小与发文量呈正比,连线表示联系,连接机构之间线的宽度显示了机构之间的合作强度,节点的颜色表示不同的聚类
2.6 作者分析
参与肺结节/早期肺癌预测模型研究发表英文论文的作者总数为12581人,其中22位作者发表文献>10篇,199位作者发表文献>5篇(平均每篇文献有5.88位作者)。John K Fields教授(17篇)和赫捷院士(17篇)发表的研究最多,其次是Dirk De Ruysscher教授(16篇)、Martin C Tammemagi教授(16篇)和Yi Zhang教授(16篇)。发文量排名前10的作者见表4。当我们设定阈值为5篇时,英文作者合作网络包括171个节点、15个集群和517条连接线(图6a)。红色集群由21位作者组成,Yi Zhang教授、Feng Jiang教授和Jingjing Wang教授处于该集群的核心。Li Zhang教授与其他团队合作最多(n=17),其次是Harry J de Koning教授(n=16)和Martin C Tammemagi教授(n=15)。


a:英文文章的作者合作网络;b:中文文章的作者合作网络
参与肺结节/早期肺癌预测模型研究发表中文论文的作者总数为176人。其中,韩冬发表文章最多(5篇),其次为于楠(4篇)和张永奎(4篇)。中文作者合作网络包括25个节点,4个集群和98个连接线(图6b)。红色集群由8位作者组成,包括刘敏、王秋萍、郭晓娟、郭佑民等。
2.7 关键词聚类、时间演化及突现分析
2139篇英文文献包括了6376个关键词,282篇中文文献中包含485个关键词。为了探索这一领域的研究热点,我们提取了英文文献出现频率排名前100的关键词和中文文献中出现频率排名前30的关键词,并绘制了关键词共现的可视化网络图(图7)。通过VOSviewer将英文文章中排名前100的关键词分为5个不同的集群和3290条连接线(图7a)。第1组“肺癌”(红色)包括肺癌、癌症、预后、基因组学和表达;第2组“预测模型”(绿色)包括计算机断层扫描、肺结节、预测模型、风险模型和管理。第3组“生存”(蓝色)包括生存、风险、诺莫图和结局;第4组“影像组学”(黄色)包括分类、特征、机器学习和异质性;第5组“治疗”(紫色)包括放化疗、厄洛替尼、吉非替尼、突变和表皮生长因子受体。将中文文章中排名前30的关键词进行聚类分析,分为6个不同的集群和145条连接线(图7b),其中最大集群(红色)包含肺结节、危险因素、影像学特征、预测模型等关键词。

a:英文文献前100个关键词聚类分析;b:中文文献前30个关键词聚类分析
英文文章关键词时间演化分析图是根据其平均出现年份(average appearing year,AAY)进行着色,以探索随时间推移的演变趋势(图8a)。最近出现的关键词是“lncRNA”(AAY:2021.30)、“肿瘤微环境”(AAY:2021.08)、“免疫”(AAY:2020.88)、“癌症统计”(AAY:2020.50)、“TCGA”(AAY:2020.61)、“诺莫图”(AAY:2020.17)和“机器学习”(AAY:2019.91)。中文文章关键词时间演化分析结果显示,新兴的关键词有“列线图”(AAY:2020.64)、“机器学习”(AAY:2020.79)、“预后模型”(AAY:2021.08)、“人工智能”(AAY:2021.40)。

a:英文文献前100个关键词时间演化分析;b:中文文献前30个关键词时间演化分析
英文文献的关键词突现分析显示 “Smoking”(25.44)的突现强度最高,其次为“risk model”(9.24)和“risk”(8.9)(图9a)。近5年中出现的关键词是“guidelines”、“images”、“poor prognosis”、“feature”和“genome”。在中,中文关键词突现分析表明,“预后”(2.72)的突现强度最高,其次是“影像组学”(2.13)和“列线图”(1.94)(图9b)。截止到2022年,影像组学、机器学习、预测、鉴别诊断和影响因素的热度仍在升高,说明这是目前的研究特点和今后的研究趋势。

a:英文文献关键词突现分析;b:中文文献关键词突现分析
2.8 文献共被引
我们列出了被引用最多的10篇英文文献(表5)。可以看出,大多数共被引文献均发表于顶级期刊,如The New England journal of Medicine、CA: A Cancer Journal for Clinicians和Nature,这些研究中有一半以上与肺结节/早期肺癌的流行病学和预测模型有关。国家肺癌筛查试验研究小组发表在The New England journal of Medicine上的一篇题为“Reduced lung-cancer mortality with low-dose computed tomographic screening”的综述被引频次最高(291次)。该研究表明,用低剂量计算机断层扫描筛查可大大降低肺癌相关的死亡率,强调了其在肺癌早期筛查和诊断中的重要性。

纳入的2139篇论文共引用了54959条参考文献。我们使用CiteSpace进行了共被引聚类分析,并分析了研究热点和趋势。共被引文献聚类分析图谱显示文献被划分为17个聚类(图10a)。从时间分布来看,聚类相对集中,主要包括#0肺癌筛查、#1肺癌、#2预后、#3肺腺癌、#4孤立性肺结节、#5筛查、#6影像组学。此外,我们还构建了一个时间线图(图10b)。结果表明在过去的10年里,该领域发展迅速。值得注意的是,对#0肺癌筛查、#1肺癌、#5筛查、#6影像组学、#7手术、#8NLR和#14氟脱氧葡萄糖F18的研究主要出现在2016—2022年,说明这些集群是肺结节/早期肺癌预测模型研究的热点。

a:共被引文献聚类分析;b:共被引文献的时间线分析
3 讨论
3.1 肺结节/早期肺癌预测模型研究的全球趋势
文献计量学是一门融合了统计学、数学、文献学等多学科研究,能够对某一研究领域进行定量评估。我们共纳入了2002—2023年间发表的2421篇文献进行文献计量学和可视化分析,研究表明,在过去20年中,肺结节/早期肺癌预测模型相关研究的发文数量呈现上升趋势,每年都在稳步增加[22-23]。
各个国家/地区之间也进行了合作,中国是发文量最高的国家,美国是被引频次最多的国家。此外,美国当前处于国际合作的核心地位,与中国、日本、澳大利亚和新加坡等国家有着密切的联系。排名前10的机构包括了排名前10的机构包括了8所中国院校和2所美国院校。这说明美国和中国的研究者在肺结节/早期肺癌预测模型方面的研究投入比其他国家更多。近年来,来自中国的文献数量正不断增加,这反映了中国对肺结节/早期肺癌预测模型研究的高度重视。来自利物浦大学分子与临床癌症医学系的约John K Field教授和中国医学科学院的赫捷院士均发表了17篇文章,为肺结节/早期肺癌预测模型领域做出了巨大的贡献。这些发现凸显了国家、机构和作者之间进行密切合作以推进这一领域的重要性。
3.2 研究热点与前沿
无创便捷的预测模型作为新兴预测工具在肺癌早期预警及辅助诊断、疗效实时监测、用药指导和耐药机制探索、预后判断等临床应用方面持续发挥巨大价值[24-25]。关键词聚类分析有利于发现当前有关肺结节/早期肺癌预测模型的研究热点,本研究显示,预后、治疗、生存和影像组学是当前肺结节/早期肺癌预测模型研究的重点。值得注意的是,英文文献关键词时间演化分析结果显示,近年来lncRNA、肿瘤微环境、免疫、癌症统计、TCGA、诺莫图和机器学习出现频次较高。近年来,由于机器学习的快速发展和不断深入,使得肺结节/早期肺癌预测模型不断优化。中文文献关键词分析表明该领域的新兴关键词有列线图、机器学习、预后模型和人工智能等。中英文的关键词突现分析结果表明,目前影像组学、基因组学、机器学习、预后预测、鉴别诊断是该领域的研究热点和趋势。随着高通量测序技术的迅速发展,越来越多的新型诊断预测因子进入了模型变量,包括lncRNA、基因组学、微生物组学、免疫和影像组学等[26-27],有助于提高肺结节/早期肺癌预测模型的精准度和灵敏度,推动肺癌早诊早治。
应用最早最广泛的肺结节/早期肺癌预测模型是Swensen等[28]建立的Mayo模型。大多数传统模型将年龄、性别、种族、民族、受教育程度、体重指数、个人癌症史、个人肺炎史、肺癌家族史以及吸烟史等多种临床特征作为风险预测因素[29]。随着肺癌筛查的普及,肺结节/早期肺癌预测模型引起了研究者的关注,越来越多的研究证实了肺结节/早期肺癌预测模型在肺癌早诊早治中的潜力。近年来,人工智能、分子生物学和多组学技术的发展进一步催生了更多的新型诊断预测因子[5]。大量研究[30-32]表明,基于生物标志物、基因组学、影像组学等多模态数据的预测模型,特别是整合了多组学特征的模型,可以显著提高肺癌预测的准确性和良恶性肺结节的鉴别能力[33-34]。Hu等[35]基于3个DNA甲基化生物标志物和1个影像学特征构建了预测模型,并实现了恶性肺结节诊断的曲线下面积(area under the curve,AUC)可达0.951,显著高于Mayo模型(AUC=0.823)的预测效能。

基于关键词分析,我们还发现机器学习和人工智能在肺结节/早期肺癌预测模型应用广泛,越来越多的研究证明了机器学习和人工智能在肺结节/早期肺癌预测模型开发中的作用。人工智能可以帮助识别人类无法提取的特征和执行重复性的任务,通过将人工智能与影像组学、基因组学、转录组学、蛋白组学和临床数据相结合,该集成数据能显著提高肺结节/早期肺癌预测模型的准确性。Hosny等[36]提供了一种基于深度学习网络和非小细胞肺癌患者CT图像的肺癌预测模型,可用于肺癌死亡危险风险分层。Takahashi等[31]使用来自癌症基因组图谱的6个不同多组学数据集,基于无监督机器学习算法建立了肺癌患者预后预测的模型。多组学与机器学习技术的结合在这一领域非常有前景,能显著提高预测模型的预测效能。Chen等[37]通过机器学习算法构建了包含基因突变、cfDNA甲基化信号以及血清肿瘤蛋白标志物水平的多组学肺癌诊断模型,AUC为0.78,其诊断性能显著高于任何单一组学构建的诊断模型,研究证明多组学数据整合可以有效提高肺癌诊断预测模型的准确性。
被引频次高的参考文献大多集中在流行病学和肺癌预测模型上。被引频次最高的参考文献是2011年发表在The New England Journal of Medicine上的文献“Reduced lung-cancer mortality with low-dose computed tomographic screening”[38]。这项对33个美国医学中心的53454例高危人群的研究表明,与胸部X线片检查相比,LDCT筛查得阳性率比胸部X线片检查高出3倍以上,可检测更多的肺结节和肺癌,并有望能将肺癌相关死亡率降低20%。2013年,美国预防服务工作组建议每年使用LDCT进行肺癌早筛[39]。随着LDCT的广泛使用和健康意识的提高,越来越多的预测模型被开发出来[3]。预测模型的开发减轻了患者的身心负担和医疗系统负荷,并改善了诊断的准确性。由于肺癌持续存在的高发病率和死亡率,因此迫切需要更精准和可靠的预测模型应用于肺结节/早期肺癌,推动肺癌的精准医疗。
3.3 挑战和前景
肺结节/早期肺癌预测模型在过去20年中发展迅猛,但仍存在一些需要解决的问题。首先,大部分预测模型基于单中心或小样本回顾性研究的数据,缺乏外部数据集进行验证;部分样本量相对较大的研究是在欧美国家开展的,限制了预测模型的推广和应用。同时,由于算法和数据集的不同,模型的灵敏度和精确度也不同,导致尚未形成统一的诊断标准;此外,一些指南建议使用预测模型以降低LDCT的假阳性率,但是目前尚无全球公认的预测模型应用于临床。最后,当前不同国家、机构和作者之间的交流合作不密切,未来需开展更多跨国家、跨区域、跨机构的大样本多中心前瞻性研究,各国各机构之间消除学术壁垒,合作共赢,共同推动肺结节/早期肺癌预测模型的发展,为肺结节/早期肺癌预测模型提供充足的临床证据。
肺癌发生发展是一个多步骤连锁事件,涉及诸多层面的复杂调控机制。近年来,分子生物学、高通量测序技术和各种质谱仪的快速发展,为进一步探索肺结节和肺癌的致病机制、危险因素和潜在预测因子提供了重要的理论和技术支持,这将会激发预测模型的进一步优化,以提高其灵敏度和准确性。液体活检等新兴检测技术为亚临床期的肺癌个体化诊疗提供了技术支持。海量的多组学数据有助于构建和优化肺结节/早期肺癌预测模型,有助于肺癌早诊早治,推动精准医学的发展。
本研究发现人工智能、机器学习、多组学等为现阶段的研究热点,探索多组学数据的融合算法亦是今后很长一段时间内的重点研究方向。近年来,基于多组学数据建立的预测模型不断增多,为临床决策和个体化治疗提供更为充分的理论依据。如Carrillo-Perez等[40]融合WSI、RNA、miRNA、CNV的多组学数据构建预测模型,其精度为96.81%,AUC为0.993,具有较高的准确性,利用多组学数据可以提高个性化医疗中的临床决策支持系统的性能。与仅使用单组学数据相比,多组学融合能提高肺癌分期预测模型的准确性,Li等[41]使用随机森林算法构建肺癌分期预测模型,其中微生物组联合转录组的预测模型的准确率为0.809,较单组学预测模型更精准,提高肺癌分期预测能力。不同组学的数据可以通过人工智能的预测算法进行整合,以揭示系统生物学的复杂机制,发现新的生物标志物,有助于提高预测模型的准确性。故人工智能、机器学习和多组学在肺癌的早诊早治中具有重要的研究意义,具有巨大的潜在价值和广阔的应用前景,仍需要进一步进行临床验证。
该研究存在以下局限性:首先,我们只纳入了2002—2022年发表的文章,这可能会导致选择偏倚。第二,本研究纳入了知网、万方、维普和Web of Science数据库中的相关文献,但这也不可避免地遗漏了其他数据库潜在文献,今后可增加数据库来源,提高研究的深度和广度。第三,人工进行文献信息整理、关键词合并等数据清洗时可能存在潜在的选择性偏倚;第四,由于中文数据库尚无法直接导出引文数据,导致缺少中文文献共被引分析;最后,许多作者与其他作者同名同姓,文献计量软件无法区分同名作者的贡献度,难以避免作者信息的不准确。
综上所述,该研究对近20年肺结节/早期肺癌预测模型相关文献进行文献计量学和可视化分析。研究表明:肺结节/肺癌预测模型正处于快速发展阶段,具有巨大的临床应用潜力。过去的20年中,在肺结节/肺癌预测模型领域,涌现出了以中国和美国为代表的诸多富有强大科学创造力的国家,复旦大学在该领域中具有重要的学术影响力,以赫捷院士和John K Field教授为核心的研究团队为肺癌的早诊早治做出了巨大贡献。预测模型、机器学习、人工智能和多组学技术是当前和未来研究的重点,并显示出巨大的应用前景。最后,为了提高预测模型的临床实用性,我们建议使用来自大样本、多中心研究的数据进行外部验证,并加强跨国家、跨地区、跨学科的交叉合作,构建和优化更加精准的肺结节/早期肺癌预测模型,推动精准医学的发展。
利益冲突:无。
作者贡献:任益锋、马琼、石薇、由凤鸣负责论文构思及设计,分析数据及撰写;蒋华、付西、李雪珂筛选文献,提取资料,质量评估;任益锋、马琼、石薇进行论文质量评价和修改论文;由凤鸣负责对文章的知识性内容作批判性审阅与修改。