急性心肌梗死(acute myocardial infarction,AMI)是由冠状动脉病变引起的临床病症,可危及生命,是心脏性猝死的主要原因之一[1]。主要发病原因为冠状动脉粥样斑块破裂,形成血块阻塞动脉,导致心肌缺血坏死[2]。AMI可分为ST段抬高型心肌梗死和非ST段抬高型心肌梗死[3]。通常,心肌肌钙蛋白T和心肌肌钙蛋白I被作为诊断AMI的生物标志物。虽然心肌肌钙蛋白的增加通常提示心肌坏死,但这也可能是由心力衰竭、心肌炎和胸部创伤等其他疾病引起[4]。所以,我们需要寻找新的诊断AMI的生物标志物,特别是在AMI早期具有高敏感性和特异性的分子,以缩短诊断期并改善AMI患者的预后。
铁死亡(ferroptosis)是一种不同于细胞凋亡、细胞坏死和自噬的一种细胞死亡方式。主要与细胞内铁的含量有关,表现为铁含量过度升高并导致细胞内氧化还原反应失衡、脂质过氧化物的积累和活性氧的产生[5]。随着冠状动脉闭塞后血运重建引起再灌注损伤的发展,心肌细胞发生铁死亡并释放炎症介质以加重心脏损伤[6]。有研究[7]发现阿霉素可诱导心脏中的血红蛋白降解和游离铁释放,使心肌细胞发生铁死亡,从而引发心力衰竭。寻找铁死亡的新分子靶点正逐渐成为心血管研究领域的焦点。
1 资料与方法
本研究从公共数据库基因表达综合数据库(Gene Expression Omnibus,GEO)下载心肌梗死高通量测序数据,通过随机森林算法筛选4个具有分类性能的心肌梗死铁死亡特征基因。通过这4个基因构建人工神经网络诊断模型。采用多次五折交叉验证对模型的诊断性能进行评估,多个外部数据集对模型进行验证。研究流程见图1。

ROC:受试者工作特征
1.1 数据下载和处理
从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载心肌梗死相关数据,以“acute myocardial infarction”为关键词,物种为“homo sapiens”,数据类型为微阵列或高通量测序数据,且数据中应同时包含有对照和心肌梗死数据。共搜索到5个符合条件的相关数据;见表1。下载这些芯片的测序数据及相应的平台芯片探针信息,在探针ID和基因符号的转换过程中,若发现多个探针对应于1个基因符号,则以探针表达的平均值用作基因表达水平。铁死亡基因从FerrDB数据库(http://www.zhounan.org/ferrdb)获得,共下载得到259个铁死亡相关基因。

1.2 筛选AMI中差异表达的铁死亡基因和功能富集分析
使用“limma”包筛选对照组与AMI中的差异表达基因,按|log2FC|≥1,P≤0.05作为筛选条件。将筛选得到的AMI差异表达基因与铁死亡相关基因取交集,得到AMI中差异表达的铁死亡基因。使用Metascape网站(http://metascape.org/)进行基因本体(Gene Ontology,GO)与京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)功能富集分析,探索铁死亡基因在调控心肌梗死中潜在的生物学功能。
1.3 随机森林算法进一步筛选关键基因
随机森林算法是一种监督学习算法,由大量的决策树构成,对于分类任务具有出色的效果[8]。对得到的差异铁死亡基因采用随机森林算法进一步确定具有良好分类性能的关键基因。采用R包“randomForest”构建随机森林模型,计算1~500棵树的错误率和稳定性,以错误率最低和稳定性最高的点对应的树数作为最佳树数,随后利用最佳树数构建随机森林模型,使用基尼系数得分确定潜在的AMI铁死亡生物标志物。
1.4 人工神经网络诊断模型的构建与评估
人工神经网络是受生物学启发的算法,旨在模拟人脑神经元处理信息的方式,通常由诸多人工神经元组成,各个神经元之间以计算的权重相连,在医疗领域,人工神经网络也用于数据的分类、识别、建模和预测等功能[9]。采用外部数据集GSE83500构建人工神经网络诊断模型,首先对随机森林算法得到的关键基因采用min-max方法进行归一化,将关键基因的表达量转换为基因评分。将每个样品中的关键基因表达水平与所有样品的中位值进行比较。如果上调基因的表达水平高于中位值,则将其基因评分定义为1,否则为0。同样,如果下调基因的表达水平低于中位数,则定义为1,否则为0。采用R包“neuralnet”构建人工神经网络模型,其包含1个输入层、1个隐藏层和1个输出层,各层之间以计算得到的关键基因的权重进行连接。使用“caret”包对人工神经网络模型进行五折交叉验证[10],将训练组随机分为5等份,每次取其中4份进行模型训练,剩余的1份用于测试,重复上述步骤,最终计算五折交叉曲线下面积(area under the curve,AUC)的平均值评估模型的性能与泛化能力。我们使用“caret”包中的MultiFolds函数进行了10次五折交叉验证。
1.5 人工神经网络诊断性能的验证
使用“pROC”R包绘制了模型组的受试者工作特征(receiver operating characteristic,ROC)曲线并计算AUC值。从GEO数据库下载了3个外部独立的数据集验证特征基因的分类效率,对所有验证集中的特征基因同样采用归一化转换为基因评分,采用“pROC”包绘制每个验证集的ROC曲线,计算AUC值验证分类效率。此外,采用“ggplot”包可视化每个验证集的混肴矩阵,从另一个方面展示分类效果。
1.6 免疫细胞浸润分析
单样本基因集富集分析(single sample gene set enrichment analysis,ssGSEA)能通过将每个样本的基因表达数据与特定的免疫细胞基因集进行比较,进而来估计每个样本中的免疫细胞相对丰度[11]。通过R包“GSEABase”“GSVA”和“limma”评估每个样本的免疫学特征。采用R包“ggplot2”进行免疫细胞之间及免疫细胞与特征基因的相关性分析。
1.7 关键基因的药物预测
以4个关键基因为关键词,从医学本体信息检索平台(Coremine Medical)(https://coremine.com/medical/)中筛选出关键基因相关的药物(P<0.05)
1.8 统计学分析
统计学分析采用R软件(4.2.1)。AMI差异基因的筛选采用t检验。检验水准α=0.05。
2 结果
2.1 样本资料
建模组GSE83500数据集共37例样本,其中男32例、女5例,年龄≤60岁20例,年龄>60岁17例。包括17例AMI和20例非AMI的主动脉血管平滑肌细胞,19014个基因表达信息。
2.2 AMI中铁死亡差异表达基因的筛选与富集分析
对训练组进行差异分析共得到365个差异表达基因,其中74个下调,291个上调。从铁死亡数据库中共下载得到259个铁死亡相关基因。取交集后共得到16个AMI中差异表达的铁死亡基因;见图2。

a:训练组中上调和下调差异最显著的前20个基因,蓝色为低表达,红色为高表达;b:心肌梗死差异基因与铁死亡相关基因交集的韦恩图
2.3 GO与KEGG富集分析
对16个铁死亡差异表达基因的GO富集分析发现,其主要参与细胞对生物刺激和化学应激的反应、白细胞介素17的调节等生物学功能。同时,这些基因在NOD-like受体信号通路、程序性细胞坏死、利什曼病等途径显著富集;见图3。

a:GO富集分析;b:KEGG富集分析;横坐标为−log10(
2.4 随机森林算法鉴定AMI诊断生物标志物
将16个铁死亡差异表达基因进行随机森林算法以鉴定具有良好分类性能的特征基因。当trees=13、mtry(节点中二叉树的最佳变量数)=4时,误差值相对稳定,此时模型的袋外误差率最低为11.11%,随后通过基尼系数法计算每个基因的重要性得分。本研究选择了基尼系数>4的基因作为后续构建模型的特征基因,分别为EPAS1、SLC7A5、FTH1、ZFP36;见图4。

a:随机森林图,横坐标代表树数,纵坐标代表相应树数对应的袋外误差率;b:随机森林算法得到的基尼系数打分
2.5 构建人工神经网络模型及评估
将随机森林算法得到的4个特征基因作为输入层构建人工神经网络模型,4个特征基因已经过min-max方法进行归一化,隐藏层神经元数默认设为5,输出层为AMI或正常,各神经元之间由权重相连,权重的计算公式为neuraAMI=Σ(Gene Expression×Neural Network Weight)。结果显示,神经网络共运行3324步,错误率为5.451%,终止条件为误差函数的绝对偏导数<0.01。权重值范围为–316.094~1.431,权重预测值分别为EPAS1(–316.094)、SLC7A5(–1.277)、FTH1(–136.829)、ZFP36(1.431)。对模型进行了10次五折交叉验证,共计50次交叉验证,统计50次AUC值发现,其中最小值为0.7456,最大值为0.906,平均值为0.805,这一结果说明此模型具有良好的稳健性;见图5。

a:人工神经网络模型,连线上的数字代表预测的权重;b:10次五折交叉验证的AUC值散点图,横坐标为交叉验证的次数,纵坐标为对应的AUC值;AUC:曲线下面积
2.6 人工神经网络模型的验证
模型组的AUC为0.859,此外,使用3个外部独立数据集作为验证组对模型的分类性能进行验证。结果发现,3个数据集的AUC值分别为0.763(GSE48060)、0.673(GSE60993)、0.698(GSE34198),说明此模型具有一定的诊断性能;见图6。此外,使用混淆矩阵展示了各验证组的分类性能;见图7。

a:模型组的ROC曲线;b~d:验证组的ROC曲线;ROC:受试者工作特征

a:模型组的混淆矩阵;b~d:验证组的混淆矩阵
2.7 免疫细胞浸润分析
与正常对照组比较,AMI组的巨噬细胞、肥大细胞和单核细胞等显著活跃,而活化B淋巴细胞、活化CD8+T细胞、中央记忆性CD4+T细胞则受抑制。免疫细胞的相关性分析发现中性粒细胞与巨噬细胞相关性较强,Ⅱ型辅助性T细胞与其他免疫细胞的相关性均较弱。此外,研究还发现4个特征基因与活化树突状细胞、嗜酸性粒细胞和γδT细胞等呈正相关;见图8。

a:急性心肌梗死中正常与梗死组织的免疫细胞差异情况;b:免疫细胞之间及免疫细胞与特征基因的相关性,橙色连线代表正相关,绿色代表负相关,灰色代表相关性不显著
2.8 关键基因的相关药物预测
使用Coremine Medical数据库预测与关键基因相关的潜在药物,共预测到Belzutifan等20种潜在西药,预测的潜在中药主要为清热解毒及活血化瘀类药物。这些药物可能通过调节铁死亡治疗AMI;见表2。

3 讨论
本研究采用随机森林结合人工神经网络构建了AMI铁死亡相关基因的诊断模型。这种诊断模型也被应用在其他疾病中,包括心力衰竭[12]和子宫内膜异位症[13]等。铁死亡参与多种人类疾病的发生与发展,包括心血管疾病相关领域。研究[14]发现,铁死亡可能与动脉粥样硬化有关,抑制铁死亡能够减弱内皮细胞的脂质过氧化来缓解动脉粥样硬化。此外,AMI小鼠心肌中miR-26b-5p的下调促进了SLC7A11的表达,从而抑制AMI后铁死亡并减轻心肌损伤,证明铁死亡调控中的miR-26b-5p/SLC7A11轴能通过缓解心肌细胞来保护心肌[15]。
基于随机森林算法筛选出4个用于诊断AMI的铁死亡基因,分别为EPAS1、SLC7A5、FTH1和ZFP36。内皮PAS结构域包含蛋白-1(EPAS1),也称为缺氧诱导因子2α(HIF-2α),主要存在于内皮细胞中,研究发现缺氧能够明显提高胞内EPAS1蛋白质含量[16]。研究[17]表明,EPAS1在激活血管生成基因的同时也抑制了心肌基因的表达,在成人心肌细胞中敲除EPAS1使心肌细胞重编程成为可能,敲除EPAS1后可以增强成纤维细胞对心肌细胞重编程,从而改善心肌梗死。溶质载体家族7成员5(SLC7A5),也称为大型中性氨基酸转运蛋白1(LAT1),是一种跨膜氨基酸转运蛋白,为细胞和细胞器的生长以及重要的细胞过程提供关键氨基酸,从而影响细胞增殖和分化[18]。目前暂无其与AMI相关性的研究,但有研究[19]发现SLC7A5与缺氧密切相关,HIF-2α能够与SLC7A5的近端启动子结合促进SLC7A5的表达,这一过程能被多种组织中的缺氧环境所诱导。缺氧可以通过钙离子超载引起线粒体功能障碍,诱导心肌细胞发生铁死亡,导致心脏功能受损[20]。因此,在AMI中,我们推测高表达的EPAS1与SLC7A5通过促进铁死亡过程加重心肌细胞损伤。重肽铁蛋白1(FTH1)是一种将铁离子转运和存储的蛋白质,负责维持细胞内铁离子平衡[21]。FTH1能与核受体辅助活化因子4(nuclear receptor coactivator 4,NCOA4)结合通过铁自噬的方式降解铁蛋白并释放大量铁离子,使胞质内Fe2+进一步升高,从而引起线粒体脂质过氧化和死亡[22]。有文献[23]报道,环状RNA(FEACR)能直接与烟酰胺磷酸核糖转移酶(NAMPT)结合,通过NAMPT-Sirt1-FOXO1-FTH1信号转导轴上调FTH1来参与心肌细胞铁死亡的调节,并保护心脏功能免受心肌缺血-再灌注损伤。人锌指蛋白36(ZFP36)是一种富含AU的元素结合蛋白,近年来被确定为铁死亡转录后调节因子,在肝星状细胞中,过表达的ZFP36能抑制铁死亡过程,相反,抑制ZFP36的表达则促进细胞发生铁死亡[24]。目前暂无ZFP36与AMI的相关研究。我们的研究还发现,ZFP36与诸多免疫细胞呈正相关。有研究[25]发现,在心肌缺血-再灌注后肺部炎症引起的肺损伤中,敲低ZFP36将导致促炎蛋白(如TNF-α、IL-6)水平升高,从而加重肺损伤。此外,缺乏ZFP36的小鼠也表现出更严重的炎症反应,这与其体内升高的TNF-α有关[26]。结合以上研究,我们推测ZFP36在AMI中高表达,既能抑制心肌细胞发生铁死亡,也能调集免疫细胞来抑制心肌坏死引起的炎症。
免疫细胞浸润分析为我们展示了AMI后的免疫学特征改变。28种免疫细胞差异分析结果显示AMI后大多数免疫细胞活性增强,其中包括巨噬细胞、单核细胞以及多种淋巴细胞。心肌中的巨噬细胞和单核细胞是心血管疾病中的重要治疗靶点,均参与梗死后的免疫应答和炎症损伤[27]。在AMI的早期阶段,心脏损伤会导致单核细胞浸润该梗死区域,随后分化为两种巨噬细胞,其中M1巨噬细胞分泌促炎因子,而M2巨噬细胞分泌抗炎因子[28]。研究[29]发现,在心脏修复期,AMI中最突出的巨噬细胞群是M2样细胞,其修复蛋白如PDGFB表达较为活跃。淋巴细胞同样在AMI后的心肌愈合与重塑中发挥重要作用。T淋巴细胞主要为CD4+T细胞,具有多种表型,能激活参与心肌梗死调节的其他免疫细胞发挥免疫作用。研究[30]表明,CD4+T细胞可促进巨噬细胞极化,并有助于减少年轻小鼠的心脏纤维化和增加心肌细胞增殖。
生物信息学的快速发展为AMI的预测提供了新方法。通过生物信息学鉴定了IL1B、CXCL1和CXCL8等生物标志物,可用于预测及诊断AMI[31]。此外,多种生物标志物联合应用的方法也可显著提高 AMI 的诊断准确性[32]。我们的研究希望能更进一步完善和补充这些方法,探索更多潜在的AMI诊断生物标志物。随机森林结合人工神经网络是一种较为新颖的诊断模型,随机森林模型可以基于样本数据构建机器学习模型并用于分类预测,且能评估变量重要性[33]。在人工神经网络模型中,对关键基因进行归一化评分能去除训练集和验证集的批次效应,从而提高模型的预测能力。虽然我们采用了3个独立数据集进行验证,但此研究的样本数量仍较少,可能会影响研究结果的有效性。
鉴于铁死亡在心血管疾病中有良好的应用前景,我们基于生物信息学筛选了4个具有诊断意义的AMI铁死亡特征基因,并通过多个公共数据集进行验证。免疫浸润分析结果表明AMI后多种免疫细胞表现活跃,参与梗死心肌的愈合及修复。本研究结果进一步为AMI的分子机制研究、生物标志物探索和相关靶向基因药物提供了有益证据。然而,需要进一步的体外和体内分析实验来确认与AMI相关的功能通路和枢纽基因。
利益冲突:无。
作者贡献:邓海霞负责设计研究;龚玉芳对数据进行分析和撰写文章;卢燕和周伟负责修改文章。
急性心肌梗死(acute myocardial infarction,AMI)是由冠状动脉病变引起的临床病症,可危及生命,是心脏性猝死的主要原因之一[1]。主要发病原因为冠状动脉粥样斑块破裂,形成血块阻塞动脉,导致心肌缺血坏死[2]。AMI可分为ST段抬高型心肌梗死和非ST段抬高型心肌梗死[3]。通常,心肌肌钙蛋白T和心肌肌钙蛋白I被作为诊断AMI的生物标志物。虽然心肌肌钙蛋白的增加通常提示心肌坏死,但这也可能是由心力衰竭、心肌炎和胸部创伤等其他疾病引起[4]。所以,我们需要寻找新的诊断AMI的生物标志物,特别是在AMI早期具有高敏感性和特异性的分子,以缩短诊断期并改善AMI患者的预后。
铁死亡(ferroptosis)是一种不同于细胞凋亡、细胞坏死和自噬的一种细胞死亡方式。主要与细胞内铁的含量有关,表现为铁含量过度升高并导致细胞内氧化还原反应失衡、脂质过氧化物的积累和活性氧的产生[5]。随着冠状动脉闭塞后血运重建引起再灌注损伤的发展,心肌细胞发生铁死亡并释放炎症介质以加重心脏损伤[6]。有研究[7]发现阿霉素可诱导心脏中的血红蛋白降解和游离铁释放,使心肌细胞发生铁死亡,从而引发心力衰竭。寻找铁死亡的新分子靶点正逐渐成为心血管研究领域的焦点。
1 资料与方法
本研究从公共数据库基因表达综合数据库(Gene Expression Omnibus,GEO)下载心肌梗死高通量测序数据,通过随机森林算法筛选4个具有分类性能的心肌梗死铁死亡特征基因。通过这4个基因构建人工神经网络诊断模型。采用多次五折交叉验证对模型的诊断性能进行评估,多个外部数据集对模型进行验证。研究流程见图1。

ROC:受试者工作特征
1.1 数据下载和处理
从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载心肌梗死相关数据,以“acute myocardial infarction”为关键词,物种为“homo sapiens”,数据类型为微阵列或高通量测序数据,且数据中应同时包含有对照和心肌梗死数据。共搜索到5个符合条件的相关数据;见表1。下载这些芯片的测序数据及相应的平台芯片探针信息,在探针ID和基因符号的转换过程中,若发现多个探针对应于1个基因符号,则以探针表达的平均值用作基因表达水平。铁死亡基因从FerrDB数据库(http://www.zhounan.org/ferrdb)获得,共下载得到259个铁死亡相关基因。

1.2 筛选AMI中差异表达的铁死亡基因和功能富集分析
使用“limma”包筛选对照组与AMI中的差异表达基因,按|log2FC|≥1,P≤0.05作为筛选条件。将筛选得到的AMI差异表达基因与铁死亡相关基因取交集,得到AMI中差异表达的铁死亡基因。使用Metascape网站(http://metascape.org/)进行基因本体(Gene Ontology,GO)与京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)功能富集分析,探索铁死亡基因在调控心肌梗死中潜在的生物学功能。
1.3 随机森林算法进一步筛选关键基因
随机森林算法是一种监督学习算法,由大量的决策树构成,对于分类任务具有出色的效果[8]。对得到的差异铁死亡基因采用随机森林算法进一步确定具有良好分类性能的关键基因。采用R包“randomForest”构建随机森林模型,计算1~500棵树的错误率和稳定性,以错误率最低和稳定性最高的点对应的树数作为最佳树数,随后利用最佳树数构建随机森林模型,使用基尼系数得分确定潜在的AMI铁死亡生物标志物。
1.4 人工神经网络诊断模型的构建与评估
人工神经网络是受生物学启发的算法,旨在模拟人脑神经元处理信息的方式,通常由诸多人工神经元组成,各个神经元之间以计算的权重相连,在医疗领域,人工神经网络也用于数据的分类、识别、建模和预测等功能[9]。采用外部数据集GSE83500构建人工神经网络诊断模型,首先对随机森林算法得到的关键基因采用min-max方法进行归一化,将关键基因的表达量转换为基因评分。将每个样品中的关键基因表达水平与所有样品的中位值进行比较。如果上调基因的表达水平高于中位值,则将其基因评分定义为1,否则为0。同样,如果下调基因的表达水平低于中位数,则定义为1,否则为0。采用R包“neuralnet”构建人工神经网络模型,其包含1个输入层、1个隐藏层和1个输出层,各层之间以计算得到的关键基因的权重进行连接。使用“caret”包对人工神经网络模型进行五折交叉验证[10],将训练组随机分为5等份,每次取其中4份进行模型训练,剩余的1份用于测试,重复上述步骤,最终计算五折交叉曲线下面积(area under the curve,AUC)的平均值评估模型的性能与泛化能力。我们使用“caret”包中的MultiFolds函数进行了10次五折交叉验证。
1.5 人工神经网络诊断性能的验证
使用“pROC”R包绘制了模型组的受试者工作特征(receiver operating characteristic,ROC)曲线并计算AUC值。从GEO数据库下载了3个外部独立的数据集验证特征基因的分类效率,对所有验证集中的特征基因同样采用归一化转换为基因评分,采用“pROC”包绘制每个验证集的ROC曲线,计算AUC值验证分类效率。此外,采用“ggplot”包可视化每个验证集的混肴矩阵,从另一个方面展示分类效果。
1.6 免疫细胞浸润分析
单样本基因集富集分析(single sample gene set enrichment analysis,ssGSEA)能通过将每个样本的基因表达数据与特定的免疫细胞基因集进行比较,进而来估计每个样本中的免疫细胞相对丰度[11]。通过R包“GSEABase”“GSVA”和“limma”评估每个样本的免疫学特征。采用R包“ggplot2”进行免疫细胞之间及免疫细胞与特征基因的相关性分析。
1.7 关键基因的药物预测
以4个关键基因为关键词,从医学本体信息检索平台(Coremine Medical)(https://coremine.com/medical/)中筛选出关键基因相关的药物(P<0.05)
1.8 统计学分析
统计学分析采用R软件(4.2.1)。AMI差异基因的筛选采用t检验。检验水准α=0.05。
2 结果
2.1 样本资料
建模组GSE83500数据集共37例样本,其中男32例、女5例,年龄≤60岁20例,年龄>60岁17例。包括17例AMI和20例非AMI的主动脉血管平滑肌细胞,19014个基因表达信息。
2.2 AMI中铁死亡差异表达基因的筛选与富集分析
对训练组进行差异分析共得到365个差异表达基因,其中74个下调,291个上调。从铁死亡数据库中共下载得到259个铁死亡相关基因。取交集后共得到16个AMI中差异表达的铁死亡基因;见图2。

a:训练组中上调和下调差异最显著的前20个基因,蓝色为低表达,红色为高表达;b:心肌梗死差异基因与铁死亡相关基因交集的韦恩图
2.3 GO与KEGG富集分析
对16个铁死亡差异表达基因的GO富集分析发现,其主要参与细胞对生物刺激和化学应激的反应、白细胞介素17的调节等生物学功能。同时,这些基因在NOD-like受体信号通路、程序性细胞坏死、利什曼病等途径显著富集;见图3。

a:GO富集分析;b:KEGG富集分析;横坐标为−log10(
2.4 随机森林算法鉴定AMI诊断生物标志物
将16个铁死亡差异表达基因进行随机森林算法以鉴定具有良好分类性能的特征基因。当trees=13、mtry(节点中二叉树的最佳变量数)=4时,误差值相对稳定,此时模型的袋外误差率最低为11.11%,随后通过基尼系数法计算每个基因的重要性得分。本研究选择了基尼系数>4的基因作为后续构建模型的特征基因,分别为EPAS1、SLC7A5、FTH1、ZFP36;见图4。

a:随机森林图,横坐标代表树数,纵坐标代表相应树数对应的袋外误差率;b:随机森林算法得到的基尼系数打分
2.5 构建人工神经网络模型及评估
将随机森林算法得到的4个特征基因作为输入层构建人工神经网络模型,4个特征基因已经过min-max方法进行归一化,隐藏层神经元数默认设为5,输出层为AMI或正常,各神经元之间由权重相连,权重的计算公式为neuraAMI=Σ(Gene Expression×Neural Network Weight)。结果显示,神经网络共运行3324步,错误率为5.451%,终止条件为误差函数的绝对偏导数<0.01。权重值范围为–316.094~1.431,权重预测值分别为EPAS1(–316.094)、SLC7A5(–1.277)、FTH1(–136.829)、ZFP36(1.431)。对模型进行了10次五折交叉验证,共计50次交叉验证,统计50次AUC值发现,其中最小值为0.7456,最大值为0.906,平均值为0.805,这一结果说明此模型具有良好的稳健性;见图5。

a:人工神经网络模型,连线上的数字代表预测的权重;b:10次五折交叉验证的AUC值散点图,横坐标为交叉验证的次数,纵坐标为对应的AUC值;AUC:曲线下面积
2.6 人工神经网络模型的验证
模型组的AUC为0.859,此外,使用3个外部独立数据集作为验证组对模型的分类性能进行验证。结果发现,3个数据集的AUC值分别为0.763(GSE48060)、0.673(GSE60993)、0.698(GSE34198),说明此模型具有一定的诊断性能;见图6。此外,使用混淆矩阵展示了各验证组的分类性能;见图7。

a:模型组的ROC曲线;b~d:验证组的ROC曲线;ROC:受试者工作特征

a:模型组的混淆矩阵;b~d:验证组的混淆矩阵
2.7 免疫细胞浸润分析
与正常对照组比较,AMI组的巨噬细胞、肥大细胞和单核细胞等显著活跃,而活化B淋巴细胞、活化CD8+T细胞、中央记忆性CD4+T细胞则受抑制。免疫细胞的相关性分析发现中性粒细胞与巨噬细胞相关性较强,Ⅱ型辅助性T细胞与其他免疫细胞的相关性均较弱。此外,研究还发现4个特征基因与活化树突状细胞、嗜酸性粒细胞和γδT细胞等呈正相关;见图8。

a:急性心肌梗死中正常与梗死组织的免疫细胞差异情况;b:免疫细胞之间及免疫细胞与特征基因的相关性,橙色连线代表正相关,绿色代表负相关,灰色代表相关性不显著
2.8 关键基因的相关药物预测
使用Coremine Medical数据库预测与关键基因相关的潜在药物,共预测到Belzutifan等20种潜在西药,预测的潜在中药主要为清热解毒及活血化瘀类药物。这些药物可能通过调节铁死亡治疗AMI;见表2。

3 讨论
本研究采用随机森林结合人工神经网络构建了AMI铁死亡相关基因的诊断模型。这种诊断模型也被应用在其他疾病中,包括心力衰竭[12]和子宫内膜异位症[13]等。铁死亡参与多种人类疾病的发生与发展,包括心血管疾病相关领域。研究[14]发现,铁死亡可能与动脉粥样硬化有关,抑制铁死亡能够减弱内皮细胞的脂质过氧化来缓解动脉粥样硬化。此外,AMI小鼠心肌中miR-26b-5p的下调促进了SLC7A11的表达,从而抑制AMI后铁死亡并减轻心肌损伤,证明铁死亡调控中的miR-26b-5p/SLC7A11轴能通过缓解心肌细胞来保护心肌[15]。
基于随机森林算法筛选出4个用于诊断AMI的铁死亡基因,分别为EPAS1、SLC7A5、FTH1和ZFP36。内皮PAS结构域包含蛋白-1(EPAS1),也称为缺氧诱导因子2α(HIF-2α),主要存在于内皮细胞中,研究发现缺氧能够明显提高胞内EPAS1蛋白质含量[16]。研究[17]表明,EPAS1在激活血管生成基因的同时也抑制了心肌基因的表达,在成人心肌细胞中敲除EPAS1使心肌细胞重编程成为可能,敲除EPAS1后可以增强成纤维细胞对心肌细胞重编程,从而改善心肌梗死。溶质载体家族7成员5(SLC7A5),也称为大型中性氨基酸转运蛋白1(LAT1),是一种跨膜氨基酸转运蛋白,为细胞和细胞器的生长以及重要的细胞过程提供关键氨基酸,从而影响细胞增殖和分化[18]。目前暂无其与AMI相关性的研究,但有研究[19]发现SLC7A5与缺氧密切相关,HIF-2α能够与SLC7A5的近端启动子结合促进SLC7A5的表达,这一过程能被多种组织中的缺氧环境所诱导。缺氧可以通过钙离子超载引起线粒体功能障碍,诱导心肌细胞发生铁死亡,导致心脏功能受损[20]。因此,在AMI中,我们推测高表达的EPAS1与SLC7A5通过促进铁死亡过程加重心肌细胞损伤。重肽铁蛋白1(FTH1)是一种将铁离子转运和存储的蛋白质,负责维持细胞内铁离子平衡[21]。FTH1能与核受体辅助活化因子4(nuclear receptor coactivator 4,NCOA4)结合通过铁自噬的方式降解铁蛋白并释放大量铁离子,使胞质内Fe2+进一步升高,从而引起线粒体脂质过氧化和死亡[22]。有文献[23]报道,环状RNA(FEACR)能直接与烟酰胺磷酸核糖转移酶(NAMPT)结合,通过NAMPT-Sirt1-FOXO1-FTH1信号转导轴上调FTH1来参与心肌细胞铁死亡的调节,并保护心脏功能免受心肌缺血-再灌注损伤。人锌指蛋白36(ZFP36)是一种富含AU的元素结合蛋白,近年来被确定为铁死亡转录后调节因子,在肝星状细胞中,过表达的ZFP36能抑制铁死亡过程,相反,抑制ZFP36的表达则促进细胞发生铁死亡[24]。目前暂无ZFP36与AMI的相关研究。我们的研究还发现,ZFP36与诸多免疫细胞呈正相关。有研究[25]发现,在心肌缺血-再灌注后肺部炎症引起的肺损伤中,敲低ZFP36将导致促炎蛋白(如TNF-α、IL-6)水平升高,从而加重肺损伤。此外,缺乏ZFP36的小鼠也表现出更严重的炎症反应,这与其体内升高的TNF-α有关[26]。结合以上研究,我们推测ZFP36在AMI中高表达,既能抑制心肌细胞发生铁死亡,也能调集免疫细胞来抑制心肌坏死引起的炎症。
免疫细胞浸润分析为我们展示了AMI后的免疫学特征改变。28种免疫细胞差异分析结果显示AMI后大多数免疫细胞活性增强,其中包括巨噬细胞、单核细胞以及多种淋巴细胞。心肌中的巨噬细胞和单核细胞是心血管疾病中的重要治疗靶点,均参与梗死后的免疫应答和炎症损伤[27]。在AMI的早期阶段,心脏损伤会导致单核细胞浸润该梗死区域,随后分化为两种巨噬细胞,其中M1巨噬细胞分泌促炎因子,而M2巨噬细胞分泌抗炎因子[28]。研究[29]发现,在心脏修复期,AMI中最突出的巨噬细胞群是M2样细胞,其修复蛋白如PDGFB表达较为活跃。淋巴细胞同样在AMI后的心肌愈合与重塑中发挥重要作用。T淋巴细胞主要为CD4+T细胞,具有多种表型,能激活参与心肌梗死调节的其他免疫细胞发挥免疫作用。研究[30]表明,CD4+T细胞可促进巨噬细胞极化,并有助于减少年轻小鼠的心脏纤维化和增加心肌细胞增殖。
生物信息学的快速发展为AMI的预测提供了新方法。通过生物信息学鉴定了IL1B、CXCL1和CXCL8等生物标志物,可用于预测及诊断AMI[31]。此外,多种生物标志物联合应用的方法也可显著提高 AMI 的诊断准确性[32]。我们的研究希望能更进一步完善和补充这些方法,探索更多潜在的AMI诊断生物标志物。随机森林结合人工神经网络是一种较为新颖的诊断模型,随机森林模型可以基于样本数据构建机器学习模型并用于分类预测,且能评估变量重要性[33]。在人工神经网络模型中,对关键基因进行归一化评分能去除训练集和验证集的批次效应,从而提高模型的预测能力。虽然我们采用了3个独立数据集进行验证,但此研究的样本数量仍较少,可能会影响研究结果的有效性。
鉴于铁死亡在心血管疾病中有良好的应用前景,我们基于生物信息学筛选了4个具有诊断意义的AMI铁死亡特征基因,并通过多个公共数据集进行验证。免疫浸润分析结果表明AMI后多种免疫细胞表现活跃,参与梗死心肌的愈合及修复。本研究结果进一步为AMI的分子机制研究、生物标志物探索和相关靶向基因药物提供了有益证据。然而,需要进一步的体外和体内分析实验来确认与AMI相关的功能通路和枢纽基因。
利益冲突:无。
作者贡献:邓海霞负责设计研究;龚玉芳对数据进行分析和撰写文章;卢燕和周伟负责修改文章。