自然语言处理(natural language processing,NLP)能够“自觉主动”地获取知识、理解、处理与表达,是计算机智能的集中体现,是促进医学实践与研究信息化的科技密钥。本文梳理NLP的发展沿革及其研究基础,重点介绍了目前NLP、大语言模型在生物医学以及中医药领域的应用,包括医学文本、中医古籍的智能化阅读与信息抽取、反馈,医学知识图谱和问答系统的构建等。NLP是发掘中医药宝库的技术支撑,对进一步助力高效、高质量的中医药核心价值发展与中医药服务能力提升具有重要的实践意义。
引用本文: 胡嘉元, 邱瑞瑾, 孙杨, 商洪才. 自然语言处理及其在医学领域的应用. 中国循证医学杂志, 2024, 24(10): 1205-1211. doi: 10.7507/1672-2531.202311178 复制
自然语言处理(natural language processing,NLP)是通过计算机实现语言分析、研究人-机交互进行有效通信的理论与技术,计算机科学家Bill Manaris定义NLP是“研究人与计算机交流语言问题的科学,建立能够表示语言能力和语言应用模型以满足不同工作的实际需求”[1]。NLP融合了数学、语言学、计算机科学等多学科的理论与方法,是人工智能的重要研究方向。
在互联网时代,高效、准确地识别与处理语言,是智能化进程的必需环节,有学者认为,NLP可以与物理学相媲美,在未来科学的发展中占据举足轻重的地位[2]。在现代医学发展日新月异的今天,NLP的应用将成为提高临床诊疗效率、解决医疗资源分配与医技共享的有力推手。
1 NLP的发展沿革
语言作为人类思维逻辑的载体,是交流的符号系统[3],是获取知识并将其广泛传播的路径。20世纪计算机科学快速发展,人们期待自动化的机器处理代替低效率的人工检索与翻译,NLP即在这一背景下应运而生。
1947年,Warren Weaver等提出“计算机语言自动翻译”的理念引领了NLP的思想与技术发展,机器翻译(machine translation)是NLP最早的研究领域[4]。计算机科学之父A.M.Turing最早认识到计算机的智能性,提出理解英文是检验其学习能力的最好方法。同期,John McCarthy等提出了“人工智能(artificial intelligence,AI)”的概念,开启了智慧化科学研究的新篇章。基于规则逻辑的AI研究是当时的主旋律。
基于统计学的NLP研究亦逐渐崛起。50年代后期,贝叶斯方法被应用于解决最优字符的识别。1970年代语义网络在AI中的应用为建立知识图谱(knowledge graph,KG)奠定了基础。
20世纪末,语言处理的概率模型令学界再次倾向基于统计的经验主义[2],对基于规则的理性主义的质疑包括方法的机械性[5]、实践的有限性等。1992年机器翻译国际会议的主题“机器翻译的经验主义和理性主义方法”是这一时期NLP学术争鸣的集中体现。
迈入21世纪,理性主义规则算法与经验主义统计分析的相互渗透与融合引领了NLP发展趋势。大规模真实文本成为NLP研究理想的知识源已是不争事实,大数据推动NLP迎来了新的机遇与挑战。
2 NLP的研究与应用
2.1 NLP的关键基础与技术
NLP与数学、逻辑学及概率论密不可分,研究基础包括大量的数学及统计模型,贝叶斯决策理论、支持向量机等理论与方法是NLP的“工具包”。
语料库和语言知识库是NLP的数据基础。语料库是大规模真实文本存储、标注、统计的数据库,建立代表性和平衡性良好的语料库是NLP的核心目标之一[6]。规模超7亿汉字的北京大学语言学研究中心语料库是语言学研究的重要资源[7]。语言知识库是涵盖词汇、句法及语义等的大型知识库;普林斯顿大学的WordNet是最具影响力的英文知识库。北京大学的综合语言知识库[8]是规模最大的中文库,全面的汉语语言知识为中文信息处理的研究与应用提供了强大的支持[9,10]。
处理与分析文本、语音是NLP的关键技术,包括形态学、语法学、语义学和语用学4个层次[11]。形态学又称“词法”,包括自动分词、命名实体识别(named entity recognition,NER)、词性标注等。NER是医学信息化和智能医疗领域的基本技术[12]。语义分析的关键在于明确文本的意向,计算机模拟人脑理解语言的思维逻辑仍是当前NLP研究的重点和难点。
词法、句法、语义及篇章从语言构成的层次形成了NLP的基础性技术集合,是NLP应用系统建立的基石。
2.2 NLP的应用系统
2.2.1 机器翻译
机器翻译是计算机实现不同语言自动翻译的系统,是NLP最早的应用领域,亦是当今经济全球化及人类命运共同体构建趋势下的前沿研究。以基于深度学习(deep learning,DL)的神经网络机器翻译(neural network machinetranslation,NNMT)[13,14]应用最广泛。Google与有道神经网络翻译是国际领先的中外互译工具[15,16]。
2.2.2 文本分类与情感分析
文本分类是在预定义体系下对文本进行类别关联的系统,由文本预处理、文本表示和分类器分类构成。基于DL的文本自动分类具有较高的准确率[17,18]。
情感分析是应用计算机对包含情感色彩及主观评价性文本进行自动抽取和分析的系统[19],应用机器学习对标注样本进行训练,卷积神经网络(convolutional neural network,CNN)和长短期记忆是常用的DL模型[20]。
2.2.3 信息检索与问答系统
信息检索最早应用于文献查询与索引,目前以高效、准确获取互联网信息为主。如应用贝叶斯精准医疗概率框架支持关于基因及药物等的信息检索[21]。
问答系统以接受提问、大量异构数据库自动检索和输出准确答案为特点[22]。其在医学领域应用广泛,如何提高医疗信息质量及检索精确度是研究重点[23]。
2.2.4 自动文摘与信息抽取
自动文摘是计算机进行文本理解、分析概括并自动生成摘要的系统。研究重点在于通过提高学习性能及表达多样性以实现信息的高效概述[24,25]。
信息抽取是从自然语言文本中自动抽取特定范围的有效信息并存储,构成实用性数据库的应用技术。基于统计机器学习的信息抽取是近年来的研究热点[26,27]。
NLP作为发展迅速的交叉学科,其技术与应用系统不是孤立的,方法与应用相互渗透、相辅相成。在逻辑规则与大型知识库的支持下,NLP正朝着与更多专业学科深度结合的方向发展,在医学、传媒等领域具有广阔的应用前景。
3 NLP在医学领域的应用
医学领域是NLP应用最早、最重要的专业领域之一。自1972年第一个辅助诊断的医学专家系统AAPHelp发布以来,智能化医学研究一直走在NLP发展的领先行列。
3.1 基于医学文本的信息抽取及应用
3.1.1 以电子病历为数据源
电子病历是包含最多医疗信息的文本,应用NLP对电子病历进行智能分析,能够快速、有效地获取所需数据。在医学文本语言特征规则引入的基础上,结合NER、DL、语义关联抽取等技术智能分析病历,识别、标注特定临床信息,为临床实践和科研提供参考[28-31]。
3.1.2 以医学数据库为数据源
例如从学术期刊的出版动态判断新冠疫情对全球医学研究的影响,设计NLP程序分析出版物的文章类型及作者数量,结果显示新冠疫情可能导致非COVID-19研究产量下降18%[32]。
有学者应用文本挖掘、信息抽取技术整合Wikipedia和PubMed资源,建立了临床症状对应疾病诊断的综合数据库DISNET,能够自动、定期从数据库检索并抽取症状、体征等信息[33]。
应用NLP推动智能化Meta分析,设计基于互感器双向编码器表示(bidirectional encoder representation based on transformer,BERT)的NER系统,从已发表文献摘要中提取临床试验数据并统计分析,有望实现最新临床证据的自动更新[34]。
应用潜在语义分析、自动文摘技术统计2007—2017年学术期刊发表的肾脏病学研究,揭示我国肾脏病学的研究主题,以动物模型开展的基础研究排名第一[35]。
3.1.3 以医学检查文本为数据源
应用NLP对医学检查文本,尤其影像学检查报告进行自动分析能够有效替代耗时耗力的人工查阅。
基于专家术语集和生物医学系统命名法-临床术语本体映射的两种NLP文本分析系统对拟进行MRI检查的患者进行分析,提高了识别具有高风险可植入设备患者的一致性、敏感性及准确性[36]。
有横断面研究结果显示,应用NLP系统在放射学报告中识别住院患者静脉血栓栓塞的精确度在一定程度上高于ICD-10代码[37]。
构建NLP自动程序提取儿科尸检的MRI报告,智能评估其检查方案和诊断,提高审查效率,能够简化对同类影像数据的审阅工作[38]。
3.1.4 以自由医学文本和网络信息为数据源
自由医学文本,包括医师叙事记录和患者信息表等,是获取有价值的临床信息、完善真实世界证据的重要来源。实例应用显示,NLP抽取科室近3年非正式临床记录,分析得出哮喘、鼻炎、荨麻疹是3种最常见的合并症,2 057名患者中有991名至少患有其中一种合并症[39]。基于多标签文本分类的DL算法能够实现对转诊三级医院预约申请表的智能审查,包括资格确认与会诊分科等,极大地减轻了临床工作量[40]。对临床创伤患者的记录进行自动判别,NLP系统决策是否应用临床最佳实践指南的姑息治疗与临床医师判断基本一致[41]。以囊性纤维化病为例,建立基于NER与ScispaCy模型的NLP系统,自动抽取患者生成健康数据(如医学日记)以形成病情报告与用药评估,是院外随访与监测健康事件的重要途径[42]。应用NLP信息检索与分类监测社交媒体上的个人酒精消耗数据,能够为酒精控制政策的评估与实施提供参考[43]。
3.2 构建医学知识图谱(medical knowledge graph,MKG)
MKG能够可视化呈现专业的医学资源和结构。应用NLP智能语义分析、信息分类完成“疾病-症状-特征”医学诊断KG以构建辅助诊断工具[44]。以中文分词、NER等方法实现对妇产科医学教材的信息抽取,建立结构化的妇产医学KG,为智能医疗服务奠定基础[45]。
临床药学方面,NLP能够自动构建以药品说明书为基础的临床用药KG,以提高合理用药的智能度和准确度[46]。
构建MKG是临床决策支持系统(clinical decision support systems,CDSS)的基础。例如应用NLP构建慢性肾病KG及智能问诊路径,辅助慢性肾病的基层临床诊疗[47]。
3.3 医学健康问答系统
医学问答系统使得人们通过互联网及手机Apps便捷地了解更多医学健康知识。对非结构化问题的理解、分析及解答是NLP的研究重点。
有研究结合概念分析和TF-IDF模型语义权重分析,自动将问题分配给相应领域的专家以获得解答。应用朴素贝叶斯分类、词向量等技术设计医学智能问答Apps对问题制定分类规则,有效提高答案的准确率[48]。基于专业医学知识库,以传统机器学习和DL结合的方法来理解、处理提问并反馈答案更有益于解答真实环境下的各种问题[49]。
3.4 生物医学信息语料库的构建
法国学者基于PubMed建立了以专家手动注释的药物基因组学语料库(PGxCorpus),填补了这一领域的空白[50]。有研究依据临床护理分级和专业护理记录建立护理关注实体和术语集作为NLP的初级语料库,用以识别和预测不同患者的临床病情[51]。
3.5 其他应用
基于机器学习NLP辅助录入和质控病案首页ICD编码,智能核查推进病案首页规范化、助力高效的病历书写[52]。
应用NLP及图像识别等AI技术智能分析医学文本、数据和影像,开发CDSS以预测主动脉夹层病例,经小范围急诊医师群体的评估认为,提高证据质量与兼容性是促进CDSS临床应用的重点[53]。
结合NLP词嵌入和数据向量化、深度自编码器和无监督聚类技术构建儿童脓毒症亚型识别模型,评估不同临床特征患者群,辅助临床决策以期降低儿童脓毒症死亡率[54]。
一项创新性研究应用深度神经网络对DNA序列进行识别、分类,获得了较高的交叉验证精度,是NLP应用于生物信息学研究的有益探索[55]。
常规而言,新药研发在完成体外研究前不能开展临床试验,而以生物医学KG为基础,应用NLP机器学习模型开展生物实体预测,分析病因、药物等因果关系,可以助力新药临床研发[56]。
4 NLP在中医药领域的应用
中医药学是我国独有的优势科技资源,应用NLP能够高效地挖掘、整合、分析与学习博大精深的中医药知识、共享中医药信息,是推动中医药现代化、促进传承与创新发展的有力武器。
2002年中国中医科学院建立了基于中医药学科及语言特点的中医药学语言系统(traditional Chinese medicine language system,TCMLS),广泛应用于中医药文本挖掘和资源检索[57,58];并以TCMLS为基础构建KG,设计了提供诊疗建议的问答系统[59]。
应用BERT模型对中医电子病历与临床记录完成自动疾病分类和信息提取,可视化处理信息权重、标注临床文本的特征性表达,为进一步的知识分析建立基础[60]。中药研究平台LTM-TCM应用BioNLP程序对超3 000万篇文章的中药资源相互作用进行精准校正,包括症状、药材、成分及靶标等,提高了数据检索的关联性[61]。
中医症状是临床基础信息,但症状描述或字面表达存在重叠、多义及异词同义等问题。在挖掘分析中医症状文本特征基础上,应用NER、术语构词模式等技术实现了对症状术语的自动抽取与注释[62];联合学习模型能够对中医临床记录中多重症状文本进行实体关系抽取,有效解决大量混合或重叠症状的问题[63];应用NLP算法构建中医症状归一化模型,以双向长短时记忆(Bi-LSTM)神经网络、BERT等生成文本序列有助于统一、规范化临床记录的症状表达[64]。
医工结合领域的学者设计基于DL与主动学习算法的中医术语识别系统,结合了预训练语言模型(language models,LM)及迁移学习策略的BERT-BiLSTM-CRF模型对中医古籍文本的术语识别显示出优越的性能,主动学习机制的应用显著降低了人工标注语料的成本,是中医术语识别NER系统的成功实例[65]。
应用Neo4j图数据库构建了基于《伤寒论》桂枝汤类方的KG,实现对桂枝汤类方的证、方、药的可视化分析及检索[66]。湖南中医药大学研究团队构建了以Bi-LSTM神经网络与CNN技术结合过采样SMOTE法的S-TextBLCNN模型,通过DL分析《中国药典》的中药功效与《医方集解》19个方剂功效类别的对应关系,提高了方剂功效分类的准确性,有助于进一步探索方剂配伍的内在规律[67]。
中医药领域的NLP应用研究起步较晚,目前的案例多处于研究探索阶段,不容忽视的是,NLP对于中医药文本的智能分析、中医药信息挖掘以及建立中医知识网络体系具有重要的实践意义。
医学领域的NLP应用蓬勃发展,智能医疗、健康大数据、医学信息及医学科研等与NLP相结合的研究模式正在成为行业主流。NLP/AI与医学融合发展是21世纪的医学革命,谷歌DeepMind Health、腾讯觅影、阿里ET医疗大脑等的开发显示互联网科技巨头均全线布局新兴医学产业。应用NLP是直线提升医学实践效率、推动医学研究创新发展的科技密钥。
5 大语言模型(large language models,LLM)的涌现
LLM指的是经过海量信息和参数训练的具有强大计算能力的深度NLP模型,能够高速、智能化生成人类语言文本和问答对话。从1980年代CNN雏形诞生,到2017年Transformer架构提出[68],至2022年Chat GPT问世,LLM正在以全新、超能的姿态通过几近真实的语言交互与360°场景生成能力征服每一位数据用户,引领行业变革。
LLM的建立和运行是各环节NLP技术的高阶集成。首先是原始文本的数据清洗,形成了有效的训练集、验证集和测试集构建学习基础。其次是语言数学化,应用Embedding等将字/词转化为携带信息的数字向量,是计算机理解语言的根本。Transformer和注意力机制突破了机器生成文本无限接近自然语言的壁垒,是语言AI的分水岭。微调和强化学习极大地提升了LM适应力和自反馈性能,是不断开拓应用场景的保障。
LLM在医疗服务与医学研究应用中的巨大潜力和价值是毋庸置疑的。包括且不限于辅助临床诊断及误诊信息侦察[69],医学问答及患者教育[70],药理技术和新药研发[71],基因组学与生物标志物预测[72],药物不良反应报告及预警评估[73],物质药效及毒性鉴别和测试等[74]。
LLM驱动中医药领域的智能诊疗和研究,建立了一定规模的中医大模型,百度健康旗下的“岐黄问道·大模型”、ShenNong-TCM中文大模型、仲景中医LLM及Huang-Di模型仓库等已在临床诊疗、知识体系构建、健康问答、古籍深度开发等方面掀起了数字化革命[75]。
医药行业的LLM发展在提升医疗服务、减轻医疗负担、公共卫生及促进医学创新方面均具有广阔的空间和机遇,同时为个性化医疗定制、医疗机构改革和医药企业高速发展开辟新的商业赛道。OpenAI’s GPT-4、Anthropic’s Claude 3 and Google’s Bard……LLM更新迭代地涌现,是其解决大规模复杂任务潜力的“涌现”,亦是相应伦理风险的“涌现”;首先,医疗数据安全和隐私保护是系统开发最初即应高度关注的问题,开源数据的透明度审查由中立的第三方承担;另一方面,医学知识的准确性、可靠性与专业深度需要进一步提高[76],临床引用程度值得商榷;LLM输出的可解释性同样难以获得专业人士的信任,尤其是因果关系的判断方面[73]。大风浪中驶向远方,希冀医学大数据与LLM相结合为全人类健康保驾护航。
6 讨论
“语言是思想的直接体现”,人类社会几乎所有的知识都蕴藏在语言之中,语言带给我们真实世界的客观资讯与几乎所有学科的专业信息,智能、高效抽取和处理语言信息的迫切需求使得NLP应运而生。
“很难想象一个没有语言能力的AI体能走多远”[77],拥有和人一样的学习能力,获取知识、理解、处理与表达,是NLP朴素的运行与研究过程。经过近80年的发展,NLP、LLM愈加走向智能化。在信息爆炸的新形势下,数据流分析使得NLP的文本理解及语言生成能力与日俱增[78]。“NLP+”已然成为了行业排头兵,与各专业领域的深度结合正潜移默化地引发研究与发展的变革。
NLP在健康、新闻和生物医学领域应用潜力巨大[79]。医学领域NLP在生物医学数据分析、健康管理、新药及器械研发、辅助诊疗及临床决策支持、生物信息学、精准医学等方面百花齐放,为提高临床医疗效率、缓解医疗资源紧张、降低医疗经济负担、推动生物医学研究给予了巨大的技术支持。今后,NLP的应用将会助力于解决更多实际的医学问题,在具体疾病领域,如恶性肿瘤、精神类疾病、引发国际公共卫生事件的重大传染病等的临床及科研中发挥积极作用。
“中国医药学是一个伟大的宝库,应当努力发掘,加以提高”,国务院关于促进中医药传承创新发展的意见明确指出,中医药的信息化和创新科研是传承发展的重要环节,对典籍、名录等的挖掘、研究与分享是传承中医药精华的有效途径,而这正是NLP最具优势的技术领域。构建全面覆盖医疗与健康服务、中药产业结构升级、人才培养与建设、医药管理、临床与基础科研创新的中医药知识与信息网络是NLP应用于中医药学发展的核心价值与未来趋势。
中医药与NLP的融合发展必将全面、高效地促进中医药临床与科研水平的提升,推动中医药现代化与国际化进程,不断为中医药守护人类健康事业做出更大贡献。
自然语言处理(natural language processing,NLP)是通过计算机实现语言分析、研究人-机交互进行有效通信的理论与技术,计算机科学家Bill Manaris定义NLP是“研究人与计算机交流语言问题的科学,建立能够表示语言能力和语言应用模型以满足不同工作的实际需求”[1]。NLP融合了数学、语言学、计算机科学等多学科的理论与方法,是人工智能的重要研究方向。
在互联网时代,高效、准确地识别与处理语言,是智能化进程的必需环节,有学者认为,NLP可以与物理学相媲美,在未来科学的发展中占据举足轻重的地位[2]。在现代医学发展日新月异的今天,NLP的应用将成为提高临床诊疗效率、解决医疗资源分配与医技共享的有力推手。
1 NLP的发展沿革
语言作为人类思维逻辑的载体,是交流的符号系统[3],是获取知识并将其广泛传播的路径。20世纪计算机科学快速发展,人们期待自动化的机器处理代替低效率的人工检索与翻译,NLP即在这一背景下应运而生。
1947年,Warren Weaver等提出“计算机语言自动翻译”的理念引领了NLP的思想与技术发展,机器翻译(machine translation)是NLP最早的研究领域[4]。计算机科学之父A.M.Turing最早认识到计算机的智能性,提出理解英文是检验其学习能力的最好方法。同期,John McCarthy等提出了“人工智能(artificial intelligence,AI)”的概念,开启了智慧化科学研究的新篇章。基于规则逻辑的AI研究是当时的主旋律。
基于统计学的NLP研究亦逐渐崛起。50年代后期,贝叶斯方法被应用于解决最优字符的识别。1970年代语义网络在AI中的应用为建立知识图谱(knowledge graph,KG)奠定了基础。
20世纪末,语言处理的概率模型令学界再次倾向基于统计的经验主义[2],对基于规则的理性主义的质疑包括方法的机械性[5]、实践的有限性等。1992年机器翻译国际会议的主题“机器翻译的经验主义和理性主义方法”是这一时期NLP学术争鸣的集中体现。
迈入21世纪,理性主义规则算法与经验主义统计分析的相互渗透与融合引领了NLP发展趋势。大规模真实文本成为NLP研究理想的知识源已是不争事实,大数据推动NLP迎来了新的机遇与挑战。
2 NLP的研究与应用
2.1 NLP的关键基础与技术
NLP与数学、逻辑学及概率论密不可分,研究基础包括大量的数学及统计模型,贝叶斯决策理论、支持向量机等理论与方法是NLP的“工具包”。
语料库和语言知识库是NLP的数据基础。语料库是大规模真实文本存储、标注、统计的数据库,建立代表性和平衡性良好的语料库是NLP的核心目标之一[6]。规模超7亿汉字的北京大学语言学研究中心语料库是语言学研究的重要资源[7]。语言知识库是涵盖词汇、句法及语义等的大型知识库;普林斯顿大学的WordNet是最具影响力的英文知识库。北京大学的综合语言知识库[8]是规模最大的中文库,全面的汉语语言知识为中文信息处理的研究与应用提供了强大的支持[9,10]。
处理与分析文本、语音是NLP的关键技术,包括形态学、语法学、语义学和语用学4个层次[11]。形态学又称“词法”,包括自动分词、命名实体识别(named entity recognition,NER)、词性标注等。NER是医学信息化和智能医疗领域的基本技术[12]。语义分析的关键在于明确文本的意向,计算机模拟人脑理解语言的思维逻辑仍是当前NLP研究的重点和难点。
词法、句法、语义及篇章从语言构成的层次形成了NLP的基础性技术集合,是NLP应用系统建立的基石。
2.2 NLP的应用系统
2.2.1 机器翻译
机器翻译是计算机实现不同语言自动翻译的系统,是NLP最早的应用领域,亦是当今经济全球化及人类命运共同体构建趋势下的前沿研究。以基于深度学习(deep learning,DL)的神经网络机器翻译(neural network machinetranslation,NNMT)[13,14]应用最广泛。Google与有道神经网络翻译是国际领先的中外互译工具[15,16]。
2.2.2 文本分类与情感分析
文本分类是在预定义体系下对文本进行类别关联的系统,由文本预处理、文本表示和分类器分类构成。基于DL的文本自动分类具有较高的准确率[17,18]。
情感分析是应用计算机对包含情感色彩及主观评价性文本进行自动抽取和分析的系统[19],应用机器学习对标注样本进行训练,卷积神经网络(convolutional neural network,CNN)和长短期记忆是常用的DL模型[20]。
2.2.3 信息检索与问答系统
信息检索最早应用于文献查询与索引,目前以高效、准确获取互联网信息为主。如应用贝叶斯精准医疗概率框架支持关于基因及药物等的信息检索[21]。
问答系统以接受提问、大量异构数据库自动检索和输出准确答案为特点[22]。其在医学领域应用广泛,如何提高医疗信息质量及检索精确度是研究重点[23]。
2.2.4 自动文摘与信息抽取
自动文摘是计算机进行文本理解、分析概括并自动生成摘要的系统。研究重点在于通过提高学习性能及表达多样性以实现信息的高效概述[24,25]。
信息抽取是从自然语言文本中自动抽取特定范围的有效信息并存储,构成实用性数据库的应用技术。基于统计机器学习的信息抽取是近年来的研究热点[26,27]。
NLP作为发展迅速的交叉学科,其技术与应用系统不是孤立的,方法与应用相互渗透、相辅相成。在逻辑规则与大型知识库的支持下,NLP正朝着与更多专业学科深度结合的方向发展,在医学、传媒等领域具有广阔的应用前景。
3 NLP在医学领域的应用
医学领域是NLP应用最早、最重要的专业领域之一。自1972年第一个辅助诊断的医学专家系统AAPHelp发布以来,智能化医学研究一直走在NLP发展的领先行列。
3.1 基于医学文本的信息抽取及应用
3.1.1 以电子病历为数据源
电子病历是包含最多医疗信息的文本,应用NLP对电子病历进行智能分析,能够快速、有效地获取所需数据。在医学文本语言特征规则引入的基础上,结合NER、DL、语义关联抽取等技术智能分析病历,识别、标注特定临床信息,为临床实践和科研提供参考[28-31]。
3.1.2 以医学数据库为数据源
例如从学术期刊的出版动态判断新冠疫情对全球医学研究的影响,设计NLP程序分析出版物的文章类型及作者数量,结果显示新冠疫情可能导致非COVID-19研究产量下降18%[32]。
有学者应用文本挖掘、信息抽取技术整合Wikipedia和PubMed资源,建立了临床症状对应疾病诊断的综合数据库DISNET,能够自动、定期从数据库检索并抽取症状、体征等信息[33]。
应用NLP推动智能化Meta分析,设计基于互感器双向编码器表示(bidirectional encoder representation based on transformer,BERT)的NER系统,从已发表文献摘要中提取临床试验数据并统计分析,有望实现最新临床证据的自动更新[34]。
应用潜在语义分析、自动文摘技术统计2007—2017年学术期刊发表的肾脏病学研究,揭示我国肾脏病学的研究主题,以动物模型开展的基础研究排名第一[35]。
3.1.3 以医学检查文本为数据源
应用NLP对医学检查文本,尤其影像学检查报告进行自动分析能够有效替代耗时耗力的人工查阅。
基于专家术语集和生物医学系统命名法-临床术语本体映射的两种NLP文本分析系统对拟进行MRI检查的患者进行分析,提高了识别具有高风险可植入设备患者的一致性、敏感性及准确性[36]。
有横断面研究结果显示,应用NLP系统在放射学报告中识别住院患者静脉血栓栓塞的精确度在一定程度上高于ICD-10代码[37]。
构建NLP自动程序提取儿科尸检的MRI报告,智能评估其检查方案和诊断,提高审查效率,能够简化对同类影像数据的审阅工作[38]。
3.1.4 以自由医学文本和网络信息为数据源
自由医学文本,包括医师叙事记录和患者信息表等,是获取有价值的临床信息、完善真实世界证据的重要来源。实例应用显示,NLP抽取科室近3年非正式临床记录,分析得出哮喘、鼻炎、荨麻疹是3种最常见的合并症,2 057名患者中有991名至少患有其中一种合并症[39]。基于多标签文本分类的DL算法能够实现对转诊三级医院预约申请表的智能审查,包括资格确认与会诊分科等,极大地减轻了临床工作量[40]。对临床创伤患者的记录进行自动判别,NLP系统决策是否应用临床最佳实践指南的姑息治疗与临床医师判断基本一致[41]。以囊性纤维化病为例,建立基于NER与ScispaCy模型的NLP系统,自动抽取患者生成健康数据(如医学日记)以形成病情报告与用药评估,是院外随访与监测健康事件的重要途径[42]。应用NLP信息检索与分类监测社交媒体上的个人酒精消耗数据,能够为酒精控制政策的评估与实施提供参考[43]。
3.2 构建医学知识图谱(medical knowledge graph,MKG)
MKG能够可视化呈现专业的医学资源和结构。应用NLP智能语义分析、信息分类完成“疾病-症状-特征”医学诊断KG以构建辅助诊断工具[44]。以中文分词、NER等方法实现对妇产科医学教材的信息抽取,建立结构化的妇产医学KG,为智能医疗服务奠定基础[45]。
临床药学方面,NLP能够自动构建以药品说明书为基础的临床用药KG,以提高合理用药的智能度和准确度[46]。
构建MKG是临床决策支持系统(clinical decision support systems,CDSS)的基础。例如应用NLP构建慢性肾病KG及智能问诊路径,辅助慢性肾病的基层临床诊疗[47]。
3.3 医学健康问答系统
医学问答系统使得人们通过互联网及手机Apps便捷地了解更多医学健康知识。对非结构化问题的理解、分析及解答是NLP的研究重点。
有研究结合概念分析和TF-IDF模型语义权重分析,自动将问题分配给相应领域的专家以获得解答。应用朴素贝叶斯分类、词向量等技术设计医学智能问答Apps对问题制定分类规则,有效提高答案的准确率[48]。基于专业医学知识库,以传统机器学习和DL结合的方法来理解、处理提问并反馈答案更有益于解答真实环境下的各种问题[49]。
3.4 生物医学信息语料库的构建
法国学者基于PubMed建立了以专家手动注释的药物基因组学语料库(PGxCorpus),填补了这一领域的空白[50]。有研究依据临床护理分级和专业护理记录建立护理关注实体和术语集作为NLP的初级语料库,用以识别和预测不同患者的临床病情[51]。
3.5 其他应用
基于机器学习NLP辅助录入和质控病案首页ICD编码,智能核查推进病案首页规范化、助力高效的病历书写[52]。
应用NLP及图像识别等AI技术智能分析医学文本、数据和影像,开发CDSS以预测主动脉夹层病例,经小范围急诊医师群体的评估认为,提高证据质量与兼容性是促进CDSS临床应用的重点[53]。
结合NLP词嵌入和数据向量化、深度自编码器和无监督聚类技术构建儿童脓毒症亚型识别模型,评估不同临床特征患者群,辅助临床决策以期降低儿童脓毒症死亡率[54]。
一项创新性研究应用深度神经网络对DNA序列进行识别、分类,获得了较高的交叉验证精度,是NLP应用于生物信息学研究的有益探索[55]。
常规而言,新药研发在完成体外研究前不能开展临床试验,而以生物医学KG为基础,应用NLP机器学习模型开展生物实体预测,分析病因、药物等因果关系,可以助力新药临床研发[56]。
4 NLP在中医药领域的应用
中医药学是我国独有的优势科技资源,应用NLP能够高效地挖掘、整合、分析与学习博大精深的中医药知识、共享中医药信息,是推动中医药现代化、促进传承与创新发展的有力武器。
2002年中国中医科学院建立了基于中医药学科及语言特点的中医药学语言系统(traditional Chinese medicine language system,TCMLS),广泛应用于中医药文本挖掘和资源检索[57,58];并以TCMLS为基础构建KG,设计了提供诊疗建议的问答系统[59]。
应用BERT模型对中医电子病历与临床记录完成自动疾病分类和信息提取,可视化处理信息权重、标注临床文本的特征性表达,为进一步的知识分析建立基础[60]。中药研究平台LTM-TCM应用BioNLP程序对超3 000万篇文章的中药资源相互作用进行精准校正,包括症状、药材、成分及靶标等,提高了数据检索的关联性[61]。
中医症状是临床基础信息,但症状描述或字面表达存在重叠、多义及异词同义等问题。在挖掘分析中医症状文本特征基础上,应用NER、术语构词模式等技术实现了对症状术语的自动抽取与注释[62];联合学习模型能够对中医临床记录中多重症状文本进行实体关系抽取,有效解决大量混合或重叠症状的问题[63];应用NLP算法构建中医症状归一化模型,以双向长短时记忆(Bi-LSTM)神经网络、BERT等生成文本序列有助于统一、规范化临床记录的症状表达[64]。
医工结合领域的学者设计基于DL与主动学习算法的中医术语识别系统,结合了预训练语言模型(language models,LM)及迁移学习策略的BERT-BiLSTM-CRF模型对中医古籍文本的术语识别显示出优越的性能,主动学习机制的应用显著降低了人工标注语料的成本,是中医术语识别NER系统的成功实例[65]。
应用Neo4j图数据库构建了基于《伤寒论》桂枝汤类方的KG,实现对桂枝汤类方的证、方、药的可视化分析及检索[66]。湖南中医药大学研究团队构建了以Bi-LSTM神经网络与CNN技术结合过采样SMOTE法的S-TextBLCNN模型,通过DL分析《中国药典》的中药功效与《医方集解》19个方剂功效类别的对应关系,提高了方剂功效分类的准确性,有助于进一步探索方剂配伍的内在规律[67]。
中医药领域的NLP应用研究起步较晚,目前的案例多处于研究探索阶段,不容忽视的是,NLP对于中医药文本的智能分析、中医药信息挖掘以及建立中医知识网络体系具有重要的实践意义。
医学领域的NLP应用蓬勃发展,智能医疗、健康大数据、医学信息及医学科研等与NLP相结合的研究模式正在成为行业主流。NLP/AI与医学融合发展是21世纪的医学革命,谷歌DeepMind Health、腾讯觅影、阿里ET医疗大脑等的开发显示互联网科技巨头均全线布局新兴医学产业。应用NLP是直线提升医学实践效率、推动医学研究创新发展的科技密钥。
5 大语言模型(large language models,LLM)的涌现
LLM指的是经过海量信息和参数训练的具有强大计算能力的深度NLP模型,能够高速、智能化生成人类语言文本和问答对话。从1980年代CNN雏形诞生,到2017年Transformer架构提出[68],至2022年Chat GPT问世,LLM正在以全新、超能的姿态通过几近真实的语言交互与360°场景生成能力征服每一位数据用户,引领行业变革。
LLM的建立和运行是各环节NLP技术的高阶集成。首先是原始文本的数据清洗,形成了有效的训练集、验证集和测试集构建学习基础。其次是语言数学化,应用Embedding等将字/词转化为携带信息的数字向量,是计算机理解语言的根本。Transformer和注意力机制突破了机器生成文本无限接近自然语言的壁垒,是语言AI的分水岭。微调和强化学习极大地提升了LM适应力和自反馈性能,是不断开拓应用场景的保障。
LLM在医疗服务与医学研究应用中的巨大潜力和价值是毋庸置疑的。包括且不限于辅助临床诊断及误诊信息侦察[69],医学问答及患者教育[70],药理技术和新药研发[71],基因组学与生物标志物预测[72],药物不良反应报告及预警评估[73],物质药效及毒性鉴别和测试等[74]。
LLM驱动中医药领域的智能诊疗和研究,建立了一定规模的中医大模型,百度健康旗下的“岐黄问道·大模型”、ShenNong-TCM中文大模型、仲景中医LLM及Huang-Di模型仓库等已在临床诊疗、知识体系构建、健康问答、古籍深度开发等方面掀起了数字化革命[75]。
医药行业的LLM发展在提升医疗服务、减轻医疗负担、公共卫生及促进医学创新方面均具有广阔的空间和机遇,同时为个性化医疗定制、医疗机构改革和医药企业高速发展开辟新的商业赛道。OpenAI’s GPT-4、Anthropic’s Claude 3 and Google’s Bard……LLM更新迭代地涌现,是其解决大规模复杂任务潜力的“涌现”,亦是相应伦理风险的“涌现”;首先,医疗数据安全和隐私保护是系统开发最初即应高度关注的问题,开源数据的透明度审查由中立的第三方承担;另一方面,医学知识的准确性、可靠性与专业深度需要进一步提高[76],临床引用程度值得商榷;LLM输出的可解释性同样难以获得专业人士的信任,尤其是因果关系的判断方面[73]。大风浪中驶向远方,希冀医学大数据与LLM相结合为全人类健康保驾护航。
6 讨论
“语言是思想的直接体现”,人类社会几乎所有的知识都蕴藏在语言之中,语言带给我们真实世界的客观资讯与几乎所有学科的专业信息,智能、高效抽取和处理语言信息的迫切需求使得NLP应运而生。
“很难想象一个没有语言能力的AI体能走多远”[77],拥有和人一样的学习能力,获取知识、理解、处理与表达,是NLP朴素的运行与研究过程。经过近80年的发展,NLP、LLM愈加走向智能化。在信息爆炸的新形势下,数据流分析使得NLP的文本理解及语言生成能力与日俱增[78]。“NLP+”已然成为了行业排头兵,与各专业领域的深度结合正潜移默化地引发研究与发展的变革。
NLP在健康、新闻和生物医学领域应用潜力巨大[79]。医学领域NLP在生物医学数据分析、健康管理、新药及器械研发、辅助诊疗及临床决策支持、生物信息学、精准医学等方面百花齐放,为提高临床医疗效率、缓解医疗资源紧张、降低医疗经济负担、推动生物医学研究给予了巨大的技术支持。今后,NLP的应用将会助力于解决更多实际的医学问题,在具体疾病领域,如恶性肿瘤、精神类疾病、引发国际公共卫生事件的重大传染病等的临床及科研中发挥积极作用。
“中国医药学是一个伟大的宝库,应当努力发掘,加以提高”,国务院关于促进中医药传承创新发展的意见明确指出,中医药的信息化和创新科研是传承发展的重要环节,对典籍、名录等的挖掘、研究与分享是传承中医药精华的有效途径,而这正是NLP最具优势的技术领域。构建全面覆盖医疗与健康服务、中药产业结构升级、人才培养与建设、医药管理、临床与基础科研创新的中医药知识与信息网络是NLP应用于中医药学发展的核心价值与未来趋势。
中医药与NLP的融合发展必将全面、高效地促进中医药临床与科研水平的提升,推动中医药现代化与国际化进程,不断为中医药守护人类健康事业做出更大贡献。