文章通过回顾性可视化分析方法,探讨有关真实世界研究中文文献的热点与趋势。本文检索了知网、维普、万方及中国生物医学文献数据库,文献收录时间从数据库起始截至 2020 年 9 月 30 日。将检索到的文献导入 NoteExpress 后做去重及筛查,最终纳入 1 757 篇文献,并利用 VOSviewer 软件做文献计量学分析。发现真实世界国内文献研究主要在 2010 年后形成一定规模,中医药研究在其中占据重要地位,《中国中药杂志》是最主要的发文期刊,发文 120 篇;中国中医科学院是发文最多的机构,发文 338 篇;该机构的谢雁鸣发文 250 篇,是发文最多的作者。通过知识图谱分析国内真实世界研究相关文献的发展脉络,有助于临床医生和研究人员更好地了解真实世界研究在国内的发展变化。
引用本文: 郭承鹭, 惠文, 何林, 李玲, 孙鑫. 基于文献计量与知识图谱分析的真实世界研究发展现状及趋势. 生物医学工程学杂志, 2021, 38(2): 317-325. doi: 10.7507/1001-5515.202101006 复制
引言
真实世界研究源于对经典随机对照试验的补充和发展,后者要求在严格的试验环境下按照标准纳入受试人群,其结果的外部真实性往往受到质疑。然而真实世界数据通过恰当和充分的分析转化成证据,这样的研究结果更具有实用性[1]。随着真实世界证据在我国药械监管审批、医保准入政策以及药械上市后再评价中的作用逐渐凸显,2020 年国家食品药品监督管理局发布了《真实世界证据支持药物研发与审评的指导原则(试行)》用于进一步指导和规范真实世界证据用于药物研发和评审的相关工作。文件指出,真实世界研究是指“针对预设的临床问题,在真实世界环境下收集与研究对象健康有关的数据(真实世界数据)或基于这些数据衍生的汇总数据,通过分析,获得药物的使用情况及潜在获益-风险的临床证据(真实世界证据)的研究过程”[2]。本研究中“真实世界研究”采用该定义。
近几年,真实世界研究在我国无论从方法学、实际应用还是政策支持层面都有较大程度的发展。在方法学方面,真实世界研究的数据、样本量、统计分析、研究设计、伦理审查、临床应用、卫生经济学、混合方法等方面发表了相关探讨性文章和技术规范[3-12]。在实践应用层面,2010 年,真实世界研究作为一个新的概念正式引入我国中医药研究领域,在消化系统、神经系统、心血管等疾病上广泛应用,分为疗效评价、安全性评价与临床经验挖掘三种类型[13-14]。2020 年,我国首个使用国内真实世界数据的进口医疗器械获国家食品药品监督管理局批准上市。在政策支持方面,2016 年 6 月,中国国务院发布了关于医疗行业大数据的开发和使用的正式通知,提出将大数据应用于健康和医学是中国的国家优先事项[15];国家食品药品监督管理局从 2018 年起先后制订了一系列支持真实世界证据用于上市后安全监测、儿童药物研发与审评等决策支持的文件[16],同时于 2019 年启动了关于使用真实世界数据用于医疗器械临床评价的方法学研究,进一步促进了真实世界研究在我国的发展。
随着政府、高校科研院所以及企业等各方对真实世界研究的积极推进,越来越多的真实世界研究结果发表,文献量有了大幅度增加,为开展文献计量学研究提供了丰富的数据资源。文献计量学是信息科学和图书馆学的一个研究领域,它用定量的方法分析出版物数据,如出版年份、作者、关键词等[17]。目前,尚无系统、全面地对真实世界研究领域具体的发展现状、重要团队、作者、机构以及研究热点等特征进行文献计量学分析的研究。本研究旨在运用文献计量学的基本理论和方法,采用可视化图谱的方式全面呈现我国真实世界研究的领域发展现状及其趋势,为相关科研人员,特别是初步接触该领域的科研人员系统了解该领域的发展状况提供参考。
1 材料与方法
1.1 数据来源
本研究在中国知网(CNKI)、万方、维普和中国生物医学文献数据库(Sinomed)共 4 个中文数据库平台上检索真实世界研究,时间为数据库建库至 2020 年 9 月 30 日,语言为中文,学科分类限定为医学,文献类型为仅限期刊论文。检索策略如下:
CNKI 数据库使用主题检索以及篇关摘检索,具体检索式为:“(主题 = 真实世界) OR (篇关摘 = 注册研究 + 患者登记 +(电子病历 + 电子病案 not (病案管理 + 系统开发 + 信息化 + 质量管理)) + 医保数据 + 实效性临床试验 + 实用性临床试验 + 实效性随机对照试验 + 实用性随机对照试验 + pRCT)) OR (篇关摘 = ((医院信息系统 + HIS) not (开发 + 建设 + 优化 + 信息化) and (真实研究 + 真实证据 + 真实数据)))”;万方数据库采取题名和摘要检索,检索词及其组配关系同 CNKI 数据库检索式;维普数据库采取任意字段检索以及题目和摘要检索,检索词及其组配关系同 CNKI 数据库检索式;Sinomed 数据库使用全部字段检索和核心字段检索,检索词及其组配关系同 CNKI 数据库检索式。
1.2 分析方法
知识图谱分析是文献计量分析的研究分支之一,也被称为可视化分析,可用于分析研究内容、描述科研合作等[18]。一个完整的知识图谱分析过程为检索数据、数据预处理、构建关系矩阵网络、规范化处理、可视化数据、图谱参数调整与成型、解读结果[19]。本研究使用文献管理软件 NoteExpress(V3.3.0.7997)进行数据去重和筛查,然后使用 VOSviewer 软件(V1.6.15)进行知识图谱分析。
VOSviewer 是文献计量学分析的常用工具之一,由荷兰莱顿大学的学者开发,第一版于 2009 年发布。其擅长的功能为社区检测、文本挖掘与构建共现网络,对大型网络图谱有清晰的呈现效果[19-20]。最初在信息科学和图书馆学中被采用,随后扩散到其他领域[21]。VOSviewer 在构建图谱时使用关联强度进行相似性计算,项目 i 和项目 j 的相似性 Sij 的计算公式为:
![]() |
其中 Cij 指项目 i 和项目 j 的共现次数,Wi 和 Wj 分别指项目 i 和项目 j 的出现次数。经过归一化、映射及聚类的数学处理,在图谱上表现出两个项目相似性越高,关联强度越高,则两个项目的距离越近。其中项目可为关键词、作者、机构、引文等[20, 22]。
1.3 规范化处理
1.3.1 机构
对机构做规范化处理,医院/大学/科学院有两个或以上挂牌及名字时,如解放军总医院又名北京 301 医院,北京协和医学院又挂牌中国医学科学院,选择其中一个名称予以统一。
规范化处理后,医院/大学/科学院统一去掉下级单位视为一级单位进行统计,当医院附属于大学/科学院时,取大学/科学院作为一级单位,如四川大学华西医院计入四川大学,不做单独统计。
1.3.2 关键词
规范化处理中,将“HIS”“HIS 数据库”“HIS 系统”“医院信息系统(his)”“医院管理信息系统”“医院管理信息系统 (his)”“his 数据仓库”“医院信息数据库”“Hospital information system/医院信息系统”等医院信息系统的同义词统一替换为医院信息系统,其他关键词保持原样。
2 结果
本研究在 CNKI、万方、维普和 Sinomed 数据库中共检索到文献 9 968 篇,去重后剩余文献 5 958 篇。经题目和摘要筛选,剔除研究类型为通知、公告、征文、体会、摘要汇编、翻译、寄语、编者的话等非研究型论文 531 篇,剔除研究主题不属于真实世界研究的文献 3 670 篇,最终纳入文献 1 757 篇。依据作者地址字段提取机构,其中 34 篇文章作者地址字段存在“不详”取值,作为缺失值处理。
2.1 文献年代与来源分布
国内真实世界研究的文献发表量总体呈现上升趋势(见图 1),特别是自 2011 年以来,数量有了明显的增长,共发表文献 1 593 篇,占总文献量的 92.60%。所有纳入论文来源于 513 种期刊,纳入真实世界研究文献量排名前十位的期刊中,有 6 种为中医药类期刊(见表1),其中载文量最多的期刊是《中国中药杂志》,高达 120 篇,占总文献量的 6.8%。


2.2 高贡献作者与机构
所有纳入论文的作者有 5 375 位,其中 169 位作者的论文量不少于 5 篇。中国中医科学院的谢雁鸣、解放军海军总医院的庄严和中国中医科学院的杨薇是发文最多的作者,分别发表论文 250 篇、147 篇和 83 篇;同时他们也是与其他作者合作最多的作者,合作作者数分别为 56 位、39 位、30 位。
169 位作者形成 22 个聚类。最大的作者聚类团队有 25 位,以谢雁鸣、庄严为中心,主要为应用性研究、中医药相关研究;谢雁鸣与其他 56 位发文量不低于 5 篇的作者有合作,包括其他聚类团队的核心成员,参见图2。

节点表示署名作者,节点大小表示发文量,连线表示合作关系,颜色表示聚类
Figure2. Co-authorship map of Xie Yanming (threshold is contributions≥5)node represents author, node size represents contributions, line represents collaboration, and color represents clustering
第二大的作者聚类团队有 17 位,以张俊华发文量最多,郑文科居于合作网络中心位置,研究主题涵盖真实世界研究的理论探讨、具体应用等,主题较为多样,团队成员也与其他团队间合作广泛。人数第三多的作者团队有两队,都为 16 位,其中之一以孙鑫为中心,围绕理论探讨、方法学研究展开;之二以张澍为中心,主要围绕心脏疾病治疗展开研究,该团队与其他团队间合作较少。作者共现图谱见图3。

节点表示署名作者,节点大小代表发文量,连线表示合作关系,颜色表示聚类
Figure3. Co-authorship map (threshold is contributions≥5)node represents author, node size represents contributions, line represents collaboration, and color represents clustering
有 72 家科研机构发文量≥5 篇。其中 70 家存在直接或间接合作的机构形成 6 个聚类。发文量前三位的机构是中国中医科学院、中国人民大学、中国人民解放军海军总医院,分别有 338、207、146 篇论文,占比分别为 19.2%、11.8% 与 8.3%。中国中医科学院的重要作者有谢雁鸣、杨薇、张寅、王连心等,在署名最多的 10 位作者中,有 8 位属于该机构;中国人民大学的重要作者有易丹辉、陈岑等;解放军海军总医院的重要作者有庄严等。这三家机构相互之间也进行了大量的合作,但与其他机构之间距离较远,合作较少。见表2 与图4。


节点表示机构,节点大小表示发文量,连线表示合作关系,颜色表示聚类
Figure4. Institution co-authorship map (threshold is contributions≥5)node represents institution, node size represents contributions, line represents collaboration, and color represents clustering
北京中医药大学、天津中医药大学等中医药大学类机构之间形成一个聚类。北京大学、首都医科大学与四川大学则是开展合作最多的机构,分别与 35、34、31 家机构有合作,见图4。
2.3 热门关键词与研究热点
共有 213 个关键词出现频次≥5。“真实世界研究”“真实世界”“电子病历”“医院信息系统”是 4 个最高频的关键词,频次分别是 241、240、145、144 次;在去掉上述“真实世界研究”等检索词之后,“联合用药”“临床研究”“安全性”是最高频的关键词,频次分别为 63、47、39 次。“真实世界证据”“复方苦参注射液”“大数据”作为文章关键词出现在 2016 年后,是相对较新的高频关键词。参见表3。

出现不低于 3 次的疾病类关键词有 77 个,最受关注的疾病(出现 8 次及以上)是肺结核、冠心病、结核、糖尿病、高血压、肝炎、慢性肾脏病、新型冠状病毒肺炎、脑梗死、心力衰竭、急性心肌梗死、肺癌、2 型糖尿病、乳腺癌、心房颤动、新型冠状病毒、肿瘤、冠状动脉疾病、恶性肿瘤、癌、非小细胞肺癌等。出现不低于 3 次的药品相关类关键词有 38 个,复方苦参注射液、直接抗病毒药物、清开灵注射液、灯盏细辛注射液、疏血通注射液、参芎葡萄糖注射液、参麦注射液、喜炎平注射液、脉血康胶囊、苦碟子注射液等频次(出现 8 次及以上)最高,见图5 与图6。


在研究趋势上,高频关键词中,肺结核是出现年份最早的关键词,是真实世界研究长期关注的疾病;新型冠状病毒肺炎是出现最晚的关键词,出现年为 2020,是真实世界研究最近关注的疾病。
除 5 个关键词较为分散外,剩余 202 个关键词形成 13 个聚类。最大的两个聚类研究主题分别为医药的不良反应评价、联合用药的治疗评价。聚类Ⅰ与聚类Ⅱ之间的距离较近,二者的关键词有较多关联。在研究主题中,聚类Ⅰ与聚类Ⅳ相关研究平均发表时间跨度较久,分别为 2012—2018、2011—2019,即药品不良反应、循证医学相关主题是长期的研究热点;聚类Ⅶ与聚类Ⅷ下关键词的平均发表时间为 2015—2020 年,即基于大数据、数据挖掘的疗效评价研究为较新的研究热点,反映了数据技术进步对真实世界研究的推动。见表4 与图7。


节点表示关键词,节点大小代表频次,连线代表共现量,颜色表示聚类。图谱聚类时去掉了检索词“真实世界”“真实世界研究”“真实世界数据”“真实世界证据”“电子病历”“医院信息系统”
Figure7. Keyword co-occurrence map (threshold is occurrence≥5)node represents keyword, node size represents frequency, line represents co-ocurrence, and color represents clustering. The search terms “real-world”, “real-world research”, “real-world data”, “real-world evidence”, “electronic medical record” and “hospital information system” were removed when constructing the map
3 讨论与结论
真实世界研究方法引入我国,为中医药领域的创新发展打开了一扇窗,这体现在发文机构上,中国中医科学院是最多的发文机构,发文占比 19.2%。中国中医科学院建立的多种结构化数据库对其开展相关真实世界研究奠定了良好的基础[10]。发文第二、第三的机构是中国人民大学与解放军海军总医院,排名前三的机构之间合作较多,它们的研究主要围绕中医药用药展开,其中中国人民大学发文主要来自下级单位统计学院,其生物统计与流行病学系可能贡献较多,做了大量医学统计方面的工作。这三家机构在中医药领域的真实世界研究中具有重要地位,与已有研究一致[13]。机构合作带有一定的地域集聚特征,南北方机构大多不在同一个聚类下,如北方高校院所合作较多,北京大学、首都医科大学之间合作较多。今后不同地域的研究机构之间可以加强合作。
早期论文多为简单的疾病登记的统计报告、电子病历系统的建设和质控研究,在 2010 年后,真实世界研究在近十年来经历了大量增长,形成规模,与世界趋势较为一致[23]。真实世界相关研究的重要机构中国中医科学院、中国人民大学、解放军海军总医院大都在 2010 年后进入该领域。当时,中国中医科学院已经参与建立中医临床数据库[24],可能推动了该年为关键年份。在最新研究趋势上,基于大数据、数据挖掘的研究在近五年成为新主题,数据技术的进步推动了真实世界相关研究;真实世界研究也关注了新的疾病——新型冠状病毒肺炎。
受研究最多的具体中药是复方苦参注射液、清开灵注射液、灯盏细辛注射液、疏血通注射液等;具体西药是沙库巴曲缬沙坦、阿帕替尼等,为治疗效果存在风险争议的药品。
在关注的疾病上,真实世界研究关注的主要疾病有肺结核、冠心病、糖尿病、高血压、肝炎、慢性肾脏病等,慢性疾病受到了大量关注与研究。2016 年启动的心血管疾病、卒中、糖尿病、慢性肾病 4 个领域为主的国家注册登记研究[25],以及在政策层面慢性疾病数据集的批准使用[15],可能是这些疾病研究较多的原因。已有研究中,中医领域的真实世界研究主要为中风、冠心病、病毒性肝炎和高血压[13],本文结果与此部分交叉,可能因本文纳入的研究包含了非中医的研究及检索数据库有所不同。由于数据是真实世界研究范式的关键组成部分[10],建立更多疾病数据库能推动其他疾病相关的真实世界研究。
总体来看,中医药品是重要的研究热点。与已有研究一致,目前真实世界研究主要用于上市后药品评价[26-27];少量涉及中医药临床诊疗指南的效果评价[28-29]。中文真实世界研究的特色在于中药、中成药是重要的研究主题,反映了真实世界研究为中医药疗效评价提供了新思路[30-31]。但中医药领域的研究较多关注中药注射剂,这与中药注射剂存在争议较多相符,其他医药种类关注较少。新出现的新冠肺炎也可能是未来一段时间真实世界研究领域的热点,在新近文献中已有所体现。真实世界研究也涉及西药、与随机对照试验的研究方法对比、在循证医学范畴内的方法学探讨等研究。
本研究存在的不足是,由于中文数据库导出题录时无引文信息,无法对文献的影响力进行评价。此外,文献计量学分析重在数量而非质量,没有对 1 757 篇论文进行内容分析,根据关键词共现图谱及专业知识对真实世界研究的结果进行解读,在某种程度上可能有主观性和信息偏见。此外,也未纳入国内学者发表在国际期刊的真实世界研究文献也可能造成某种偏差。
本研究收集了知网、万方、维普和 Sinomed 等 4 个数据库上国内发表的相关真实世界研究文献,共计 1 757 篇,相较于已有研究[13, 27, 32-33],是迄今为止纳入中文文献最多的文献计量学研究,系统、全面地为科研人员呈现了我国真实世界研究领域国内发文的研究作者团队、机构、热点等方面的现状和发展趋势。发现国内真实世界研究主要集中但不限于中医药研究,中国中医科学院、中医药大学等均占有重要地位。《中国中药杂志》《中医杂志》等中医药类期刊刊载了大量发文,谢雁鸣等是最重要的作者。增加关注的疾病类型、非医药类治疗方式的真实世界研究可能为可拓展的研究方向;建立标准化疾病、疗效数据库可推动真实世界研究实践。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
真实世界研究源于对经典随机对照试验的补充和发展,后者要求在严格的试验环境下按照标准纳入受试人群,其结果的外部真实性往往受到质疑。然而真实世界数据通过恰当和充分的分析转化成证据,这样的研究结果更具有实用性[1]。随着真实世界证据在我国药械监管审批、医保准入政策以及药械上市后再评价中的作用逐渐凸显,2020 年国家食品药品监督管理局发布了《真实世界证据支持药物研发与审评的指导原则(试行)》用于进一步指导和规范真实世界证据用于药物研发和评审的相关工作。文件指出,真实世界研究是指“针对预设的临床问题,在真实世界环境下收集与研究对象健康有关的数据(真实世界数据)或基于这些数据衍生的汇总数据,通过分析,获得药物的使用情况及潜在获益-风险的临床证据(真实世界证据)的研究过程”[2]。本研究中“真实世界研究”采用该定义。
近几年,真实世界研究在我国无论从方法学、实际应用还是政策支持层面都有较大程度的发展。在方法学方面,真实世界研究的数据、样本量、统计分析、研究设计、伦理审查、临床应用、卫生经济学、混合方法等方面发表了相关探讨性文章和技术规范[3-12]。在实践应用层面,2010 年,真实世界研究作为一个新的概念正式引入我国中医药研究领域,在消化系统、神经系统、心血管等疾病上广泛应用,分为疗效评价、安全性评价与临床经验挖掘三种类型[13-14]。2020 年,我国首个使用国内真实世界数据的进口医疗器械获国家食品药品监督管理局批准上市。在政策支持方面,2016 年 6 月,中国国务院发布了关于医疗行业大数据的开发和使用的正式通知,提出将大数据应用于健康和医学是中国的国家优先事项[15];国家食品药品监督管理局从 2018 年起先后制订了一系列支持真实世界证据用于上市后安全监测、儿童药物研发与审评等决策支持的文件[16],同时于 2019 年启动了关于使用真实世界数据用于医疗器械临床评价的方法学研究,进一步促进了真实世界研究在我国的发展。
随着政府、高校科研院所以及企业等各方对真实世界研究的积极推进,越来越多的真实世界研究结果发表,文献量有了大幅度增加,为开展文献计量学研究提供了丰富的数据资源。文献计量学是信息科学和图书馆学的一个研究领域,它用定量的方法分析出版物数据,如出版年份、作者、关键词等[17]。目前,尚无系统、全面地对真实世界研究领域具体的发展现状、重要团队、作者、机构以及研究热点等特征进行文献计量学分析的研究。本研究旨在运用文献计量学的基本理论和方法,采用可视化图谱的方式全面呈现我国真实世界研究的领域发展现状及其趋势,为相关科研人员,特别是初步接触该领域的科研人员系统了解该领域的发展状况提供参考。
1 材料与方法
1.1 数据来源
本研究在中国知网(CNKI)、万方、维普和中国生物医学文献数据库(Sinomed)共 4 个中文数据库平台上检索真实世界研究,时间为数据库建库至 2020 年 9 月 30 日,语言为中文,学科分类限定为医学,文献类型为仅限期刊论文。检索策略如下:
CNKI 数据库使用主题检索以及篇关摘检索,具体检索式为:“(主题 = 真实世界) OR (篇关摘 = 注册研究 + 患者登记 +(电子病历 + 电子病案 not (病案管理 + 系统开发 + 信息化 + 质量管理)) + 医保数据 + 实效性临床试验 + 实用性临床试验 + 实效性随机对照试验 + 实用性随机对照试验 + pRCT)) OR (篇关摘 = ((医院信息系统 + HIS) not (开发 + 建设 + 优化 + 信息化) and (真实研究 + 真实证据 + 真实数据)))”;万方数据库采取题名和摘要检索,检索词及其组配关系同 CNKI 数据库检索式;维普数据库采取任意字段检索以及题目和摘要检索,检索词及其组配关系同 CNKI 数据库检索式;Sinomed 数据库使用全部字段检索和核心字段检索,检索词及其组配关系同 CNKI 数据库检索式。
1.2 分析方法
知识图谱分析是文献计量分析的研究分支之一,也被称为可视化分析,可用于分析研究内容、描述科研合作等[18]。一个完整的知识图谱分析过程为检索数据、数据预处理、构建关系矩阵网络、规范化处理、可视化数据、图谱参数调整与成型、解读结果[19]。本研究使用文献管理软件 NoteExpress(V3.3.0.7997)进行数据去重和筛查,然后使用 VOSviewer 软件(V1.6.15)进行知识图谱分析。
VOSviewer 是文献计量学分析的常用工具之一,由荷兰莱顿大学的学者开发,第一版于 2009 年发布。其擅长的功能为社区检测、文本挖掘与构建共现网络,对大型网络图谱有清晰的呈现效果[19-20]。最初在信息科学和图书馆学中被采用,随后扩散到其他领域[21]。VOSviewer 在构建图谱时使用关联强度进行相似性计算,项目 i 和项目 j 的相似性 Sij 的计算公式为:
![]() |
其中 Cij 指项目 i 和项目 j 的共现次数,Wi 和 Wj 分别指项目 i 和项目 j 的出现次数。经过归一化、映射及聚类的数学处理,在图谱上表现出两个项目相似性越高,关联强度越高,则两个项目的距离越近。其中项目可为关键词、作者、机构、引文等[20, 22]。
1.3 规范化处理
1.3.1 机构
对机构做规范化处理,医院/大学/科学院有两个或以上挂牌及名字时,如解放军总医院又名北京 301 医院,北京协和医学院又挂牌中国医学科学院,选择其中一个名称予以统一。
规范化处理后,医院/大学/科学院统一去掉下级单位视为一级单位进行统计,当医院附属于大学/科学院时,取大学/科学院作为一级单位,如四川大学华西医院计入四川大学,不做单独统计。
1.3.2 关键词
规范化处理中,将“HIS”“HIS 数据库”“HIS 系统”“医院信息系统(his)”“医院管理信息系统”“医院管理信息系统 (his)”“his 数据仓库”“医院信息数据库”“Hospital information system/医院信息系统”等医院信息系统的同义词统一替换为医院信息系统,其他关键词保持原样。
2 结果
本研究在 CNKI、万方、维普和 Sinomed 数据库中共检索到文献 9 968 篇,去重后剩余文献 5 958 篇。经题目和摘要筛选,剔除研究类型为通知、公告、征文、体会、摘要汇编、翻译、寄语、编者的话等非研究型论文 531 篇,剔除研究主题不属于真实世界研究的文献 3 670 篇,最终纳入文献 1 757 篇。依据作者地址字段提取机构,其中 34 篇文章作者地址字段存在“不详”取值,作为缺失值处理。
2.1 文献年代与来源分布
国内真实世界研究的文献发表量总体呈现上升趋势(见图 1),特别是自 2011 年以来,数量有了明显的增长,共发表文献 1 593 篇,占总文献量的 92.60%。所有纳入论文来源于 513 种期刊,纳入真实世界研究文献量排名前十位的期刊中,有 6 种为中医药类期刊(见表1),其中载文量最多的期刊是《中国中药杂志》,高达 120 篇,占总文献量的 6.8%。


2.2 高贡献作者与机构
所有纳入论文的作者有 5 375 位,其中 169 位作者的论文量不少于 5 篇。中国中医科学院的谢雁鸣、解放军海军总医院的庄严和中国中医科学院的杨薇是发文最多的作者,分别发表论文 250 篇、147 篇和 83 篇;同时他们也是与其他作者合作最多的作者,合作作者数分别为 56 位、39 位、30 位。
169 位作者形成 22 个聚类。最大的作者聚类团队有 25 位,以谢雁鸣、庄严为中心,主要为应用性研究、中医药相关研究;谢雁鸣与其他 56 位发文量不低于 5 篇的作者有合作,包括其他聚类团队的核心成员,参见图2。

节点表示署名作者,节点大小表示发文量,连线表示合作关系,颜色表示聚类
Figure2. Co-authorship map of Xie Yanming (threshold is contributions≥5)node represents author, node size represents contributions, line represents collaboration, and color represents clustering
第二大的作者聚类团队有 17 位,以张俊华发文量最多,郑文科居于合作网络中心位置,研究主题涵盖真实世界研究的理论探讨、具体应用等,主题较为多样,团队成员也与其他团队间合作广泛。人数第三多的作者团队有两队,都为 16 位,其中之一以孙鑫为中心,围绕理论探讨、方法学研究展开;之二以张澍为中心,主要围绕心脏疾病治疗展开研究,该团队与其他团队间合作较少。作者共现图谱见图3。

节点表示署名作者,节点大小代表发文量,连线表示合作关系,颜色表示聚类
Figure3. Co-authorship map (threshold is contributions≥5)node represents author, node size represents contributions, line represents collaboration, and color represents clustering
有 72 家科研机构发文量≥5 篇。其中 70 家存在直接或间接合作的机构形成 6 个聚类。发文量前三位的机构是中国中医科学院、中国人民大学、中国人民解放军海军总医院,分别有 338、207、146 篇论文,占比分别为 19.2%、11.8% 与 8.3%。中国中医科学院的重要作者有谢雁鸣、杨薇、张寅、王连心等,在署名最多的 10 位作者中,有 8 位属于该机构;中国人民大学的重要作者有易丹辉、陈岑等;解放军海军总医院的重要作者有庄严等。这三家机构相互之间也进行了大量的合作,但与其他机构之间距离较远,合作较少。见表2 与图4。


节点表示机构,节点大小表示发文量,连线表示合作关系,颜色表示聚类
Figure4. Institution co-authorship map (threshold is contributions≥5)node represents institution, node size represents contributions, line represents collaboration, and color represents clustering
北京中医药大学、天津中医药大学等中医药大学类机构之间形成一个聚类。北京大学、首都医科大学与四川大学则是开展合作最多的机构,分别与 35、34、31 家机构有合作,见图4。
2.3 热门关键词与研究热点
共有 213 个关键词出现频次≥5。“真实世界研究”“真实世界”“电子病历”“医院信息系统”是 4 个最高频的关键词,频次分别是 241、240、145、144 次;在去掉上述“真实世界研究”等检索词之后,“联合用药”“临床研究”“安全性”是最高频的关键词,频次分别为 63、47、39 次。“真实世界证据”“复方苦参注射液”“大数据”作为文章关键词出现在 2016 年后,是相对较新的高频关键词。参见表3。

出现不低于 3 次的疾病类关键词有 77 个,最受关注的疾病(出现 8 次及以上)是肺结核、冠心病、结核、糖尿病、高血压、肝炎、慢性肾脏病、新型冠状病毒肺炎、脑梗死、心力衰竭、急性心肌梗死、肺癌、2 型糖尿病、乳腺癌、心房颤动、新型冠状病毒、肿瘤、冠状动脉疾病、恶性肿瘤、癌、非小细胞肺癌等。出现不低于 3 次的药品相关类关键词有 38 个,复方苦参注射液、直接抗病毒药物、清开灵注射液、灯盏细辛注射液、疏血通注射液、参芎葡萄糖注射液、参麦注射液、喜炎平注射液、脉血康胶囊、苦碟子注射液等频次(出现 8 次及以上)最高,见图5 与图6。


在研究趋势上,高频关键词中,肺结核是出现年份最早的关键词,是真实世界研究长期关注的疾病;新型冠状病毒肺炎是出现最晚的关键词,出现年为 2020,是真实世界研究最近关注的疾病。
除 5 个关键词较为分散外,剩余 202 个关键词形成 13 个聚类。最大的两个聚类研究主题分别为医药的不良反应评价、联合用药的治疗评价。聚类Ⅰ与聚类Ⅱ之间的距离较近,二者的关键词有较多关联。在研究主题中,聚类Ⅰ与聚类Ⅳ相关研究平均发表时间跨度较久,分别为 2012—2018、2011—2019,即药品不良反应、循证医学相关主题是长期的研究热点;聚类Ⅶ与聚类Ⅷ下关键词的平均发表时间为 2015—2020 年,即基于大数据、数据挖掘的疗效评价研究为较新的研究热点,反映了数据技术进步对真实世界研究的推动。见表4 与图7。


节点表示关键词,节点大小代表频次,连线代表共现量,颜色表示聚类。图谱聚类时去掉了检索词“真实世界”“真实世界研究”“真实世界数据”“真实世界证据”“电子病历”“医院信息系统”
Figure7. Keyword co-occurrence map (threshold is occurrence≥5)node represents keyword, node size represents frequency, line represents co-ocurrence, and color represents clustering. The search terms “real-world”, “real-world research”, “real-world data”, “real-world evidence”, “electronic medical record” and “hospital information system” were removed when constructing the map
3 讨论与结论
真实世界研究方法引入我国,为中医药领域的创新发展打开了一扇窗,这体现在发文机构上,中国中医科学院是最多的发文机构,发文占比 19.2%。中国中医科学院建立的多种结构化数据库对其开展相关真实世界研究奠定了良好的基础[10]。发文第二、第三的机构是中国人民大学与解放军海军总医院,排名前三的机构之间合作较多,它们的研究主要围绕中医药用药展开,其中中国人民大学发文主要来自下级单位统计学院,其生物统计与流行病学系可能贡献较多,做了大量医学统计方面的工作。这三家机构在中医药领域的真实世界研究中具有重要地位,与已有研究一致[13]。机构合作带有一定的地域集聚特征,南北方机构大多不在同一个聚类下,如北方高校院所合作较多,北京大学、首都医科大学之间合作较多。今后不同地域的研究机构之间可以加强合作。
早期论文多为简单的疾病登记的统计报告、电子病历系统的建设和质控研究,在 2010 年后,真实世界研究在近十年来经历了大量增长,形成规模,与世界趋势较为一致[23]。真实世界相关研究的重要机构中国中医科学院、中国人民大学、解放军海军总医院大都在 2010 年后进入该领域。当时,中国中医科学院已经参与建立中医临床数据库[24],可能推动了该年为关键年份。在最新研究趋势上,基于大数据、数据挖掘的研究在近五年成为新主题,数据技术的进步推动了真实世界相关研究;真实世界研究也关注了新的疾病——新型冠状病毒肺炎。
受研究最多的具体中药是复方苦参注射液、清开灵注射液、灯盏细辛注射液、疏血通注射液等;具体西药是沙库巴曲缬沙坦、阿帕替尼等,为治疗效果存在风险争议的药品。
在关注的疾病上,真实世界研究关注的主要疾病有肺结核、冠心病、糖尿病、高血压、肝炎、慢性肾脏病等,慢性疾病受到了大量关注与研究。2016 年启动的心血管疾病、卒中、糖尿病、慢性肾病 4 个领域为主的国家注册登记研究[25],以及在政策层面慢性疾病数据集的批准使用[15],可能是这些疾病研究较多的原因。已有研究中,中医领域的真实世界研究主要为中风、冠心病、病毒性肝炎和高血压[13],本文结果与此部分交叉,可能因本文纳入的研究包含了非中医的研究及检索数据库有所不同。由于数据是真实世界研究范式的关键组成部分[10],建立更多疾病数据库能推动其他疾病相关的真实世界研究。
总体来看,中医药品是重要的研究热点。与已有研究一致,目前真实世界研究主要用于上市后药品评价[26-27];少量涉及中医药临床诊疗指南的效果评价[28-29]。中文真实世界研究的特色在于中药、中成药是重要的研究主题,反映了真实世界研究为中医药疗效评价提供了新思路[30-31]。但中医药领域的研究较多关注中药注射剂,这与中药注射剂存在争议较多相符,其他医药种类关注较少。新出现的新冠肺炎也可能是未来一段时间真实世界研究领域的热点,在新近文献中已有所体现。真实世界研究也涉及西药、与随机对照试验的研究方法对比、在循证医学范畴内的方法学探讨等研究。
本研究存在的不足是,由于中文数据库导出题录时无引文信息,无法对文献的影响力进行评价。此外,文献计量学分析重在数量而非质量,没有对 1 757 篇论文进行内容分析,根据关键词共现图谱及专业知识对真实世界研究的结果进行解读,在某种程度上可能有主观性和信息偏见。此外,也未纳入国内学者发表在国际期刊的真实世界研究文献也可能造成某种偏差。
本研究收集了知网、万方、维普和 Sinomed 等 4 个数据库上国内发表的相关真实世界研究文献,共计 1 757 篇,相较于已有研究[13, 27, 32-33],是迄今为止纳入中文文献最多的文献计量学研究,系统、全面地为科研人员呈现了我国真实世界研究领域国内发文的研究作者团队、机构、热点等方面的现状和发展趋势。发现国内真实世界研究主要集中但不限于中医药研究,中国中医科学院、中医药大学等均占有重要地位。《中国中药杂志》《中医杂志》等中医药类期刊刊载了大量发文,谢雁鸣等是最重要的作者。增加关注的疾病类型、非医药类治疗方式的真实世界研究可能为可拓展的研究方向;建立标准化疾病、疗效数据库可推动真实世界研究实践。
利益冲突声明:本文全体作者均声明不存在利益冲突。