本研究探讨了一种基于增强现实(AR)环境和稳态视觉诱发电位(SSVEP)的脑机接口(BCI)系统,用于在真实场景下通过视觉注视完成对现实物品的选取任务。该系统结合了目标检测技术和AR技术,在真实物体上附加视觉增强效果,从而给予用户视觉刺激诱发相关脑电信号,再利用SSVEP技术解析脑电信号,完成对用户关注物体的识别。此外,本文采用了基于自适应动态时间窗的滤波器组典型相关分析算法实现对受试者脑电信号的快速解析。实验结果表明,该系统可以有效地识别解析SSVEP信号,对用户视觉目标的识别平均准确率达到了90.6%。该系统拓展了SSVEP信号在现实生活场景中的应用,在帮助行动不便和肢体功能受损患者进行物品选取任务上具备可行性和有效性。
引用本文: 郭孟澳, 杨帮华, 耿亦婷, 竭荣昕, 张永怀, 郑炎炎. 基于增强现实和稳态视觉诱发电位的视觉目标检测系统. 生物医学工程学杂志, 2024, 41(4): 684-691. doi: 10.7507/1001-5515.202403041 复制
0 引言
脑机接口(brain-computer interface,BCI)是一种新型的人机交互技术,它将人的大脑信号与计算机系统相连接,使人类可以利用大脑信号来直接操控计算机和外部设备,实现人机交互的目的[1]。BCI系统的设计方法就是将脑电(electroencephalography,EEG)特征信号予以记录和提取后,转换成能够驱动外部设备的命令,从而代替人的肢体或者语言器官完成对外部环境的控制[2]。BCI技术的持续进步有望深刻优化并提升人类生活与工作的效率和质量,尤其对于一些肢体残疾人士来说,这种技术可以让他们拥有一种新的自主控制能力,帮助他们进行康复和生活[3]。
用于BCI系统的典型范式主要包括运动想象(motion imagination,MI)、稳态视觉诱发电位(steady-state visual evoked potential,SSVEP)、P300电位等。当人眼受到特定频率的闪烁信号刺激时,会导致大脑的电位活动具有与视觉刺激频率相同的基频及其谐波成分,从而形成SSVEP[4],因无需长期训练并且具有较高的传输速率和准确度等特点,而被广泛应用。目前传统的SSVEP-BCI系统往往使用普通液晶显示屏呈现指令并进行视觉刺激,以引导受试者进行相应的意图表达[5],受限于屏幕问题,系统的便携性不强,因此人们开始寻找摆脱固定视觉刺激器的方法。增强现实(augmented reality,AR)是一种将虚拟信息与真实世界环境实时融合并交互呈现的技术。AR的头戴式显示器(Helmet-Mounted Displays,HMD)就可以作为呈现SSVEP所需闪烁刺激手段的替代方案,这种方案将AR技术和SSVEP进行结合,为SSVEP-BCI系统的便携性和移动性带来了提升,展现了BCI技术在未来可能广泛应用于实验室以外的各种环境,进一步激发了BCI技术在人机交互领域的广阔前景[6-7]。
张力新等[8]将SSVEP与AR结合并与传统显示器进行解码效果对比,发现二者诱发的SSVEP准确率在数据长度为2 s时没有差异。Wang等[9]验证了全息眼镜可诱发稳定的SSVEP信号,当数据长度为1 s时,精度可达83.95%。因此,将AR用于BCI系统中具有可行性。
将AR技术与BCI系统相集成,能够降低系统的复杂度,提升系统的便捷性和适用范围。AR技术可以将虚拟信息叠加到现实环境中,使用户能够在物理世界与虚拟世界之间进行交互,实现超越传统感知界限的体验。在AR-SSVEP-BCI的应用方面,已经有学者做了很多研究。Horii等[10]在真实物体上使用AR标记,使用USB摄像头识别真实物体上的标记从而在HMD上使其对应位置闪烁,2 s的捕获时间分类准确率平均达到80%。Park等[11]结合了AR技术、物联网和SSVEP-BCI,开发了一个可以由佩戴AR眼镜的用户单独操作的在线家电控制系统,在2.5 s可以实现92.8%的准确率,证明了基于BCI的家电控制系统可以应用于实际场景。Sakkalis等[12]研究使用AR驱动的SSVEP实现了轮椅导航系统,该系统收到了积极的用户反馈,平均准确率达到90%。Zhang等[13]引入了AR技术呈现视觉刺激,发现刺激时间为2 s时,准确度为94.05%,信息传输率(information transfer rate,ITR)性能较好,验证了AR-SSVEP-NAO系统在机器人抓取任务中的可行性。
现有的AR-SSVEP-BCI大部分是针对场景中的固定目标进行设计,在AR显示器上固定位置呈现视觉刺激块,然后将每个刺激目标固定映射到预设的意图命令,以此进行应用场景的设计。对于固定目标刺激映射,用户只能选择固定数量的预设意图命令。当场景中的目标发生变化,例如出现刺激范式所含内容以外的目标时,系统将无法正常工作,需要对指令重新进行设计,该过程不仅浪费时间更不利于实际使用。为此Fang等[14]将所有识别物体的图像进行裁剪并放置在闪烁块旁边,用户需要盯着目标物体图像旁边的闪烁块,从而达到将物体的视觉信息与刺激目标相融合,实现了基于AR的SSVEP-BCI线索引导的机械臂抓取任务,成功率为(87.50±3.10)%,ITR达到(159.40±19.00)bits/min。但是这样的刺激选取方法,依然不够直观,无法充分体现现实物品的信息。
为此本文面向目标变化场景进行AR-SSVEP-BCI系统构建,设计了一种适用于目标变化场景的AR-SSVEP-BCI刺激范式。系统融合了计算机视觉、AR以及BCI技术,旨在实现生活中的物品选取任务。系统采用图像目标识别算法实时捕捉场景中的目标信息,然后在AR中向每个识别出的物体叠加具有不同闪烁频率的刺激目标。这种做法旨在提供一种更直观易用的目标选择界面,允许用户通过SSVEP响应来更加自然和高效地选择感兴趣的目标物体,增加使用者与物体的交互性,增强人机自然交互感知,给使用者一种更加直观的反馈,从而实现受试者完成对生活中物品的选取任务。
1 材料与方法
1.1 系统组成
本文提出的基于AR与SSVEP的脑控目标选取系统,由目标检测模块、AR视觉刺激反馈模块和脑电采集解码模块组成,如图1所示。系统的工作流程如下:使用深度相机采集视频流,目标检测模块对视频中的物体进行检测,并输出物体的种类和坐标等信息。这些信息通过TCP/IP协议传输给AR视觉刺激反馈模块。AR视觉刺激反馈模块根据接收到的信息,在相应的物体上叠加不同频率的刺激块,以实现对用户的视觉刺激。同时,使用脑电帽采集用户的脑电信号,然后在脑电解码模块中对采集到的脑电信号进行预处理、特征提取和分类识别,实现对用户意图和想法的准确解析,最终获得用户的视觉目标意图。解码结果发送给AR视觉刺激反馈模块,并向外界传出用户所关注的视觉目标。

在该系统中,使用的AR显示设备是美国微软公司研发的HoloLens2混合现实头戴显示器,型号为XL2411-B。该设备采用BENQ彩色液晶显示器,支持全息影像,并提供可增强协作的应用和解决方案。系统还使用微软提供的混合现实开发工具包(Mixed Reality Toolkit,MRTK),该工具包基于Unity提供了多种API来加速AR项目的开发。MRTK为空间交互提供了跨平台输入系统、基本组件和通用构建块[15]。同时使用美国英特尔的RealSenseD435深度相机进行目标识别和定位。该深度相机具有高分辨率和快速传输速度。图2展示了实验中的系统硬件结构图。

1.2 目标识别和视觉刺激
本文采用了基于Yolov5的目标检测算法来实现目标检测任务。Yolov5算法最初由Joseph Redmon等于2015年提出,并在随后的改进中不断发展。Yolov5的核心思想是应用单个神经网络模型同时预测图像中不同对象的类别和位置。Yolov5s网络是Yolov5系列中深度最小、特征图宽度最小的网络,该算法的设计目标是实现高速和高准确性的目标检测任务[16]。针对本文的实际应用需求,我们选择生活常用物品构建数据集,选择小模型作为初始模型参数进行训练,得到的目标检测模型在本系统的实际应用中具有良好的适用性。图3所示即为本系统中物体检测模块构建的流程图。

当加载完目标检测模型后,使用深度相机检测得到日常生活物品的信息和位姿,并传入到Unity工程脚本中以在对应位置产生相应的虚拟物体块,如图4所示。在头戴式显示器中则显示为在真实物体的表面叠加不同刺激频率的闪烁块。

a. 相机识别的物体信息;b. 映射到AR中的虚拟物体
Figure4. Depth camera and object position mapping in virtual realitya. object information recognized by camera; b. map virtual objects in the AR
利用Unity脚本编程为虚拟物体添加闪烁控制脚本,实现对特定闪烁频率和颜色的精准控制,从而给实验提供可靠和精确的刺激条件。式(1)为正方体灰度值与显示器当前采样帧以及相位间的关系,灰度值取值范围为0~1。其中,R表示显示器的刷新率;n表示显示器当前帧数;φ表示采样中的相位。
![]() |
经过实验验证设计的AR-SSVEP-BCI刺激范式可以准确地检测目标并进行相应视觉刺激标记,不会出现无法识别或标记失败的情况,验证了该刺激范式的可行性。
1.3 信号采集和预处理
本系统采用8通道的干电极对视觉枕区的脑电进行采集,尽管干电极相较于湿电极具有更高的接触阻抗和较低的信噪比[7],但是面对SSVEP这种高可识别性信号,干电极可以满足实验需求,且干电极脑电帽穿戴更简单方便,在应用场景中的实用性更强[17]。电极位置参考国际标准系统电极放置法[18],采集枕叶区域的8个通道(PO5、PO3、POz、PO4、PO6、Oz、O1和O2)用于实验分析,因为它们含有最多信息的SSVEP成分[19]。考虑到视觉的延迟过程,本文选择140 ms的时间延迟进行SSVEP分析[20]。本文选择1~100 Hz带通滤波以及50 Hz的陷波处理对脑电信号进行预处理,使用同步器截取刺激响应信号段进行分析。
1.4 系统识别算法设计
传统的SSVEP解码算法采用静态停止方法,其中最常用的是采用滤波器组典型相关分析算法(filter bank canonical correlation analysis,FBCCA)对EEG信号进行特征提取与分类识别,该方法对典型相关分析(canonical correlation analysis,CCA)算法进行了改进,有效地利用了SSVEP信号的基波和谐波成分,可以显著提高SSVEP信号的频率识别准确率[21]。CCA是一种有效的用于SSVEP检测的空间滤波方法,它使用统计分析来度量两组多维变量的潜在相关性[22]。
FBCCA方法主要包括三个部分:① 对脑电信号进行滤波组分析;② SSVEP子带分量和正弦余弦参考信号的CCA分析;③ 目标识别。首先,滤波器组分析使用多个不同的带通滤波器将信号分解成多个子带信号。本文使用零相位切比雪夫I型IIR滤波器从原始的脑电信号中提取每个子带分量
。再针对每个子带信号进行CCA分析,计算各子带信号与当前参考信号间的相关度,每个子带进行一次计算后最终会得到N个结果,经过对滤波器集的分析,得到了各子带分量和各激励频率
对应的正弦参考信号的典型相关系数。对于第k次刺激频率
,相关向量
由N个相关系数组成:
![]() |
然后将这N个结果进行加权平均:
![]() |
此处表示的是权重系数:
![]() |
计算后得到本次SSVEP信号与当前参考信号之间的相关度。在遍历过所有参考信号后,选择具有最大相关度的参考信号的频率作为最终结果。
由于不同试验之间的可变性,每次试验的最优数据长度可能是不同的,采用动态寻优找到最佳的数据长度可以提高解码的准确性和效率。Yang等[23]提出了一种基于自适应均衡理论和假设检验的时空均衡器动态窗口(spatio-temporal equalization dynamic window,STE-DW)识别算法,该方法不需要训练数据,可自适应控制窗口长度,显著提高了ITR的性能。Chen等[24]基于假设检验和交叉熵代价函数开发了一种无需训练的基于FBCCA的动态窗口识别方法(dynamic window recognition method based on FBCCA,FBCCA-DW)。该方法在在线实验中明显优于STE-DW。在使用FBCCA解码SSVEP信号时,数据长度与分类准确率是相关的,数据长度越长,得到正确预测结果的概率越高,因为目标刺激提取的特征随着刺激时间的增加呈线性增加。Lee等[25]提出了一种基于协方差分析的滤波器组典型相关分析(ANCOVA-based filter-bank canonical correlation analysis,ABFCCA),适用于基于显著性水平准则的各种基于SSVEP的BCI范式,无需离线分析以寻找最优超参数。
本文基于FBCCA-DW解码算法并结合解码特征的线性特性进行改进。当FBCCA系数的最大项与其他项,特别是第二大项之间的差距较小时,FBCCA的结果精度较低。动态窗口策略可以根据FBCCA系数自适应地寻找最优窗口长度,在更合适的时间输出结果,从而解决上述问题。
FBCCA-DW映射FBCCA系数,其中N为目标个数,构成概率分布
通过softmax函数得到,即:
![]() |
然后,FBCCA-DW利用风险函数得到一个统计量,该统计量表示分类结果的可信度。
可简化为:
![]() |
同时设计调节因子,来奖励目标系数增长,惩罚目标系数减少,调节因子
可表示为:
![]() |
为负值,
越低表明SSVEP信号的可信度越高。FBCCA-DW设置阈值
,根据
与
的大小关系决定输出结果还是收集更多数据。当
>
时,脑电数据的可信度不够高,需要更多数据;而当
≤
时,从EEG数据中提取的特征足以输出结果。
1.5 试验方法
本实验邀请了8名受试者(5名男性,3名女性,年龄20~30岁)参加。参与实验前,受试者被告知实验对人体有无伤害,签署了实验知情同意书,实验结束后给予每人一定报酬。
为了实现对受试者的视觉目标选取,实验中在受试者的视野上分配了不同频率的虚拟物体,并将这些虚拟物体叠加到现实世界中的物体上。受试者需要注视相应的现实物体来实现对用户意图的识别。在研究中选取了4个最明显的刺激频率,分别为8、10、12、14 Hz。这四个刺激频率与代表现实物体的虚拟物体相关联。受试者按照指定的顺序关注目标物体。
SSVEP刺激时序如图所示。实验流程如图5所示,实验包含2个blocks,每个block包含20个trials。每个trial持续时间为5 s,包括1 s提示、3 s刺激闪烁和1 s休息时间。

系统在线测试开始前,需要受试者佩戴好AR眼镜,四处转动视角,保证实验物品均在受试者视线所及的范围内。随后正式开启实验,每次选取时受试者需要移动视角让目标物品进入AR眼镜的视野范围内,当闪烁块变绿后表示为提示物体,随后注视该物品上的闪烁块进行选中,当闪烁块变红后表示已经选中。
2 结果
在这一部分中,通过分析视觉目标检测系统采集的实验数据,验证了系统的可靠性,证明了对动态窗的优化策略适用于该系统。在系统中使用FBCCA-ADW方法的实验结果如表1所示,8名受试者使用AR-SSVEP-BCI的视觉目标检测系统的平均解码正确率达到90.6%,其中6名受试者的准确率达到了90%以上,保证了系统的稳定性;从受试者注视一个实际目标到系统给出识别反馈,这一过程平均需要解析2.07 s的脑电数据来完成,对应的ITR达到40.57 bits/min。

图6给出了CCA、FBCCA和FBCCA-DW及改进动态窗方法FBCCA-ADW的BCI性能。从图6a~b可以看出,FBCCA-ADW方法在准确率和ITR方面明显优于传统的固定窗口方法,且相较于FBCCA-DW有略微提升。

a. 平均分类准确率;b. 平均信息传输速率
Figure6. Performance analysis of different classification methodsa. average classification accuracy; b. average information transmission rate
在实验结束后,我们对受试者的感受进行了问卷调查。结果显示,本试验的脑力需求和身体负担处于较低水平,时间需求适中,任务困难程度适中。受试者也并未在实验中产生不适的感觉,整体系统设计流程较为友好。
3 讨论
利用AR设备独特的显示技术,可以让用户在不改变视场的情况下同时观察工作空间和刺激界面,大大减少了注意力切换,提升了用户体验和效率。在BCI系统的特定应用中,准确性往往被视为一个更为关键的衡量标准。有些研究指出,只有当平均准确率达到70%以上时,BCI系统才能被认为是有效的[26]。实验表明,本文基于AR-SSVEP-BCI视觉目标检测系统能达到较高的分类准确率,动态数据窗口检测下平均准确率为90.6%;从被试开始注视到识别反馈,这一过程平均需要解析2.07 s的脑电数据来完成。很多关于AR-SSVEP-BCI的应用研究也都进行了类似验证,如表2所示,正确率多在90%左右。其中文献[14]使用了有训练算法FB-tCNN,识别窗口时间大幅缩减,取得了较高的ITR值,但是有训练算法需要提前对受试者模型进行大量离线训练,训练过程繁琐费时。而本文采用无训练算法以及使用干电极进行脑电信息采集,相较而言过程更加快捷方便,可以提高用户体验。与一般的固定窗口策略相比,动态窗口策略更加灵活、稳定。比如在图6中可以明显看出,基于自适应动态窗口的策略FBCCA-ADW方法,可以找到一个准确率较高而速度又较快的平衡点。综合来看,在SSVEP-BCI系统中使用AR设备是可行、有效的,这种技术融合为BCI系统带来了很多创新性的变化,也为未来的应用和发展提供了广阔的空间。

传统的SSVEP-BCI系统设计大多将刺激目标与预设意图命令固定映射,这会限制用户的选择。本文提出了一种新的方法,利用深度相机和AR设备对识别到的现实物品增加虚拟框体来叠加视觉刺激,用户只需直接注视目标物体上的闪烁刺激即可完成目标选取任务。这种融合视觉信息的刺激界面更符合自然选择过程,能够适应复杂多变的场景,自动更新对象与刺激目标之间的映射。本文所提出的基于AR和SSVEP信号的视觉目标检测系统也易于继续扩展外层控制设备和识别指令,来丰富其在现实生活中的应用,比如控制智能家居、抓取远程物体、控制设备移动等等。
由于现有的大多数SSVEP-BCI都需要注视,为了进一步扩大BCI的适用性,将SSVEP和非脑电信号结合使用有望进一步拓宽用户的控制能力。眼动追踪也可以实现对受试者视觉目标的追踪,但是当前大部分眼动追踪设备使用前需校准,从而建立使用者的特征模型以提高检测精度,同时眼动追踪技术对外部条件较为敏感,如环境光、头部位置变化和佩戴眼镜的状况都可能影响其精度[27]。相比之下,SSVEP信号不易受环境影响,主要依赖使用者的注意力集中,且无需校准频次,大大简化了操作流程。本文只研究了SSVEP结合AR进行人机交互,目前也有许多学者在研究SSVEP-BCI和眼动追踪组合的混合系统以实现更好的控制能力[28]。未来可以针对基于SSVEP和眼动追踪的多模态BCI系统进行研究,使得二者相辅相成互相验证。本文采用了动态时间窗的方法来减少受试者对视觉刺激的注视时间,但长时间的中低频视觉刺激仍然不可避免地导致受试者感到疲劳。未来可以再优化刺激范式,比如采用高频SSVEP刺激闪烁或者多频率组合,同时改进识别算法来提升系统的脑电解码效率,达到改善用户体验的目的。
4 结论
本文构建了一种基于AR和SSVEP信号的视觉目标检测系统,该系统利用深度相机实时识别现实物品,并在AR设备中自动叠加虚拟框体作为视觉刺激元素,然后通过分析受试者的SSVEP脑电信号,实现对受试者视觉关注目标的检测。与传统的基于闪烁刺激的SSVEP-BCI系统相比,该系统具有以下优点,能够适应不同的场景和物品种类,提高了系统的通用性和灵活性;能够实现快速且准确的视觉目标物品识别,系统具备高效性和稳定性。本系统基于FBCCA-DW动态时间窗解码方法进行改进,结合特征系数随时间增加特性,优化了动态寻找最优数据长度来预测结果,适应不同试验和不同个体的差异,实验结果表明FBCCA-ADW相较于FBCCA-DW性能有所提升,可以更加高效地实现对受试者EEG信号的分类和解码,进而识别到受试者所关注的视觉目标。
该系统旨在优化SSVEP信号在现实生活场景中的应用,提升受试者对视觉目标选取的效率,在辅助行动受限及肢体功能受损的患者执行物品选取任务方面展现出了可行性与有效性。本文的研究为AR环境下的SSVEP-BCI系统的设计和应用提供了一种新的思路和方法。该系统未来有望为中风和瘫痪患者提供生活上的辅助,提升患者的生活便利性和生活质量。此外该系统还具备在不同场景下辅助完成目标搜索任务的应用潜力。未来可以对算法继续进行优化,优化系统流程,拓展外部设备,提高系统在现实场景的适用性和交互性。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:郭孟澳负责实验设计、数据分析、论文撰写;耿亦婷、竭荣昕负责数据收集、数据处理;杨帮华、张永怀、郑炎炎指导论文撰写。
伦理声明:本研究通过了上海大学伦理委员会的审批(批文编号:ECSHU 2023-001)。
0 引言
脑机接口(brain-computer interface,BCI)是一种新型的人机交互技术,它将人的大脑信号与计算机系统相连接,使人类可以利用大脑信号来直接操控计算机和外部设备,实现人机交互的目的[1]。BCI系统的设计方法就是将脑电(electroencephalography,EEG)特征信号予以记录和提取后,转换成能够驱动外部设备的命令,从而代替人的肢体或者语言器官完成对外部环境的控制[2]。BCI技术的持续进步有望深刻优化并提升人类生活与工作的效率和质量,尤其对于一些肢体残疾人士来说,这种技术可以让他们拥有一种新的自主控制能力,帮助他们进行康复和生活[3]。
用于BCI系统的典型范式主要包括运动想象(motion imagination,MI)、稳态视觉诱发电位(steady-state visual evoked potential,SSVEP)、P300电位等。当人眼受到特定频率的闪烁信号刺激时,会导致大脑的电位活动具有与视觉刺激频率相同的基频及其谐波成分,从而形成SSVEP[4],因无需长期训练并且具有较高的传输速率和准确度等特点,而被广泛应用。目前传统的SSVEP-BCI系统往往使用普通液晶显示屏呈现指令并进行视觉刺激,以引导受试者进行相应的意图表达[5],受限于屏幕问题,系统的便携性不强,因此人们开始寻找摆脱固定视觉刺激器的方法。增强现实(augmented reality,AR)是一种将虚拟信息与真实世界环境实时融合并交互呈现的技术。AR的头戴式显示器(Helmet-Mounted Displays,HMD)就可以作为呈现SSVEP所需闪烁刺激手段的替代方案,这种方案将AR技术和SSVEP进行结合,为SSVEP-BCI系统的便携性和移动性带来了提升,展现了BCI技术在未来可能广泛应用于实验室以外的各种环境,进一步激发了BCI技术在人机交互领域的广阔前景[6-7]。
张力新等[8]将SSVEP与AR结合并与传统显示器进行解码效果对比,发现二者诱发的SSVEP准确率在数据长度为2 s时没有差异。Wang等[9]验证了全息眼镜可诱发稳定的SSVEP信号,当数据长度为1 s时,精度可达83.95%。因此,将AR用于BCI系统中具有可行性。
将AR技术与BCI系统相集成,能够降低系统的复杂度,提升系统的便捷性和适用范围。AR技术可以将虚拟信息叠加到现实环境中,使用户能够在物理世界与虚拟世界之间进行交互,实现超越传统感知界限的体验。在AR-SSVEP-BCI的应用方面,已经有学者做了很多研究。Horii等[10]在真实物体上使用AR标记,使用USB摄像头识别真实物体上的标记从而在HMD上使其对应位置闪烁,2 s的捕获时间分类准确率平均达到80%。Park等[11]结合了AR技术、物联网和SSVEP-BCI,开发了一个可以由佩戴AR眼镜的用户单独操作的在线家电控制系统,在2.5 s可以实现92.8%的准确率,证明了基于BCI的家电控制系统可以应用于实际场景。Sakkalis等[12]研究使用AR驱动的SSVEP实现了轮椅导航系统,该系统收到了积极的用户反馈,平均准确率达到90%。Zhang等[13]引入了AR技术呈现视觉刺激,发现刺激时间为2 s时,准确度为94.05%,信息传输率(information transfer rate,ITR)性能较好,验证了AR-SSVEP-NAO系统在机器人抓取任务中的可行性。
现有的AR-SSVEP-BCI大部分是针对场景中的固定目标进行设计,在AR显示器上固定位置呈现视觉刺激块,然后将每个刺激目标固定映射到预设的意图命令,以此进行应用场景的设计。对于固定目标刺激映射,用户只能选择固定数量的预设意图命令。当场景中的目标发生变化,例如出现刺激范式所含内容以外的目标时,系统将无法正常工作,需要对指令重新进行设计,该过程不仅浪费时间更不利于实际使用。为此Fang等[14]将所有识别物体的图像进行裁剪并放置在闪烁块旁边,用户需要盯着目标物体图像旁边的闪烁块,从而达到将物体的视觉信息与刺激目标相融合,实现了基于AR的SSVEP-BCI线索引导的机械臂抓取任务,成功率为(87.50±3.10)%,ITR达到(159.40±19.00)bits/min。但是这样的刺激选取方法,依然不够直观,无法充分体现现实物品的信息。
为此本文面向目标变化场景进行AR-SSVEP-BCI系统构建,设计了一种适用于目标变化场景的AR-SSVEP-BCI刺激范式。系统融合了计算机视觉、AR以及BCI技术,旨在实现生活中的物品选取任务。系统采用图像目标识别算法实时捕捉场景中的目标信息,然后在AR中向每个识别出的物体叠加具有不同闪烁频率的刺激目标。这种做法旨在提供一种更直观易用的目标选择界面,允许用户通过SSVEP响应来更加自然和高效地选择感兴趣的目标物体,增加使用者与物体的交互性,增强人机自然交互感知,给使用者一种更加直观的反馈,从而实现受试者完成对生活中物品的选取任务。
1 材料与方法
1.1 系统组成
本文提出的基于AR与SSVEP的脑控目标选取系统,由目标检测模块、AR视觉刺激反馈模块和脑电采集解码模块组成,如图1所示。系统的工作流程如下:使用深度相机采集视频流,目标检测模块对视频中的物体进行检测,并输出物体的种类和坐标等信息。这些信息通过TCP/IP协议传输给AR视觉刺激反馈模块。AR视觉刺激反馈模块根据接收到的信息,在相应的物体上叠加不同频率的刺激块,以实现对用户的视觉刺激。同时,使用脑电帽采集用户的脑电信号,然后在脑电解码模块中对采集到的脑电信号进行预处理、特征提取和分类识别,实现对用户意图和想法的准确解析,最终获得用户的视觉目标意图。解码结果发送给AR视觉刺激反馈模块,并向外界传出用户所关注的视觉目标。

在该系统中,使用的AR显示设备是美国微软公司研发的HoloLens2混合现实头戴显示器,型号为XL2411-B。该设备采用BENQ彩色液晶显示器,支持全息影像,并提供可增强协作的应用和解决方案。系统还使用微软提供的混合现实开发工具包(Mixed Reality Toolkit,MRTK),该工具包基于Unity提供了多种API来加速AR项目的开发。MRTK为空间交互提供了跨平台输入系统、基本组件和通用构建块[15]。同时使用美国英特尔的RealSenseD435深度相机进行目标识别和定位。该深度相机具有高分辨率和快速传输速度。图2展示了实验中的系统硬件结构图。

1.2 目标识别和视觉刺激
本文采用了基于Yolov5的目标检测算法来实现目标检测任务。Yolov5算法最初由Joseph Redmon等于2015年提出,并在随后的改进中不断发展。Yolov5的核心思想是应用单个神经网络模型同时预测图像中不同对象的类别和位置。Yolov5s网络是Yolov5系列中深度最小、特征图宽度最小的网络,该算法的设计目标是实现高速和高准确性的目标检测任务[16]。针对本文的实际应用需求,我们选择生活常用物品构建数据集,选择小模型作为初始模型参数进行训练,得到的目标检测模型在本系统的实际应用中具有良好的适用性。图3所示即为本系统中物体检测模块构建的流程图。

当加载完目标检测模型后,使用深度相机检测得到日常生活物品的信息和位姿,并传入到Unity工程脚本中以在对应位置产生相应的虚拟物体块,如图4所示。在头戴式显示器中则显示为在真实物体的表面叠加不同刺激频率的闪烁块。

a. 相机识别的物体信息;b. 映射到AR中的虚拟物体
Figure4. Depth camera and object position mapping in virtual realitya. object information recognized by camera; b. map virtual objects in the AR
利用Unity脚本编程为虚拟物体添加闪烁控制脚本,实现对特定闪烁频率和颜色的精准控制,从而给实验提供可靠和精确的刺激条件。式(1)为正方体灰度值与显示器当前采样帧以及相位间的关系,灰度值取值范围为0~1。其中,R表示显示器的刷新率;n表示显示器当前帧数;φ表示采样中的相位。
![]() |
经过实验验证设计的AR-SSVEP-BCI刺激范式可以准确地检测目标并进行相应视觉刺激标记,不会出现无法识别或标记失败的情况,验证了该刺激范式的可行性。
1.3 信号采集和预处理
本系统采用8通道的干电极对视觉枕区的脑电进行采集,尽管干电极相较于湿电极具有更高的接触阻抗和较低的信噪比[7],但是面对SSVEP这种高可识别性信号,干电极可以满足实验需求,且干电极脑电帽穿戴更简单方便,在应用场景中的实用性更强[17]。电极位置参考国际标准系统电极放置法[18],采集枕叶区域的8个通道(PO5、PO3、POz、PO4、PO6、Oz、O1和O2)用于实验分析,因为它们含有最多信息的SSVEP成分[19]。考虑到视觉的延迟过程,本文选择140 ms的时间延迟进行SSVEP分析[20]。本文选择1~100 Hz带通滤波以及50 Hz的陷波处理对脑电信号进行预处理,使用同步器截取刺激响应信号段进行分析。
1.4 系统识别算法设计
传统的SSVEP解码算法采用静态停止方法,其中最常用的是采用滤波器组典型相关分析算法(filter bank canonical correlation analysis,FBCCA)对EEG信号进行特征提取与分类识别,该方法对典型相关分析(canonical correlation analysis,CCA)算法进行了改进,有效地利用了SSVEP信号的基波和谐波成分,可以显著提高SSVEP信号的频率识别准确率[21]。CCA是一种有效的用于SSVEP检测的空间滤波方法,它使用统计分析来度量两组多维变量的潜在相关性[22]。
FBCCA方法主要包括三个部分:① 对脑电信号进行滤波组分析;② SSVEP子带分量和正弦余弦参考信号的CCA分析;③ 目标识别。首先,滤波器组分析使用多个不同的带通滤波器将信号分解成多个子带信号。本文使用零相位切比雪夫I型IIR滤波器从原始的脑电信号中提取每个子带分量
。再针对每个子带信号进行CCA分析,计算各子带信号与当前参考信号间的相关度,每个子带进行一次计算后最终会得到N个结果,经过对滤波器集的分析,得到了各子带分量和各激励频率
对应的正弦参考信号的典型相关系数。对于第k次刺激频率
,相关向量
由N个相关系数组成:
![]() |
然后将这N个结果进行加权平均:
![]() |
此处表示的是权重系数:
![]() |
计算后得到本次SSVEP信号与当前参考信号之间的相关度。在遍历过所有参考信号后,选择具有最大相关度的参考信号的频率作为最终结果。
由于不同试验之间的可变性,每次试验的最优数据长度可能是不同的,采用动态寻优找到最佳的数据长度可以提高解码的准确性和效率。Yang等[23]提出了一种基于自适应均衡理论和假设检验的时空均衡器动态窗口(spatio-temporal equalization dynamic window,STE-DW)识别算法,该方法不需要训练数据,可自适应控制窗口长度,显著提高了ITR的性能。Chen等[24]基于假设检验和交叉熵代价函数开发了一种无需训练的基于FBCCA的动态窗口识别方法(dynamic window recognition method based on FBCCA,FBCCA-DW)。该方法在在线实验中明显优于STE-DW。在使用FBCCA解码SSVEP信号时,数据长度与分类准确率是相关的,数据长度越长,得到正确预测结果的概率越高,因为目标刺激提取的特征随着刺激时间的增加呈线性增加。Lee等[25]提出了一种基于协方差分析的滤波器组典型相关分析(ANCOVA-based filter-bank canonical correlation analysis,ABFCCA),适用于基于显著性水平准则的各种基于SSVEP的BCI范式,无需离线分析以寻找最优超参数。
本文基于FBCCA-DW解码算法并结合解码特征的线性特性进行改进。当FBCCA系数的最大项与其他项,特别是第二大项之间的差距较小时,FBCCA的结果精度较低。动态窗口策略可以根据FBCCA系数自适应地寻找最优窗口长度,在更合适的时间输出结果,从而解决上述问题。
FBCCA-DW映射FBCCA系数,其中N为目标个数,构成概率分布
通过softmax函数得到,即:
![]() |
然后,FBCCA-DW利用风险函数得到一个统计量,该统计量表示分类结果的可信度。
可简化为:
![]() |
同时设计调节因子,来奖励目标系数增长,惩罚目标系数减少,调节因子
可表示为:
![]() |
为负值,
越低表明SSVEP信号的可信度越高。FBCCA-DW设置阈值
,根据
与
的大小关系决定输出结果还是收集更多数据。当
>
时,脑电数据的可信度不够高,需要更多数据;而当
≤
时,从EEG数据中提取的特征足以输出结果。
1.5 试验方法
本实验邀请了8名受试者(5名男性,3名女性,年龄20~30岁)参加。参与实验前,受试者被告知实验对人体有无伤害,签署了实验知情同意书,实验结束后给予每人一定报酬。
为了实现对受试者的视觉目标选取,实验中在受试者的视野上分配了不同频率的虚拟物体,并将这些虚拟物体叠加到现实世界中的物体上。受试者需要注视相应的现实物体来实现对用户意图的识别。在研究中选取了4个最明显的刺激频率,分别为8、10、12、14 Hz。这四个刺激频率与代表现实物体的虚拟物体相关联。受试者按照指定的顺序关注目标物体。
SSVEP刺激时序如图所示。实验流程如图5所示,实验包含2个blocks,每个block包含20个trials。每个trial持续时间为5 s,包括1 s提示、3 s刺激闪烁和1 s休息时间。

系统在线测试开始前,需要受试者佩戴好AR眼镜,四处转动视角,保证实验物品均在受试者视线所及的范围内。随后正式开启实验,每次选取时受试者需要移动视角让目标物品进入AR眼镜的视野范围内,当闪烁块变绿后表示为提示物体,随后注视该物品上的闪烁块进行选中,当闪烁块变红后表示已经选中。
2 结果
在这一部分中,通过分析视觉目标检测系统采集的实验数据,验证了系统的可靠性,证明了对动态窗的优化策略适用于该系统。在系统中使用FBCCA-ADW方法的实验结果如表1所示,8名受试者使用AR-SSVEP-BCI的视觉目标检测系统的平均解码正确率达到90.6%,其中6名受试者的准确率达到了90%以上,保证了系统的稳定性;从受试者注视一个实际目标到系统给出识别反馈,这一过程平均需要解析2.07 s的脑电数据来完成,对应的ITR达到40.57 bits/min。

图6给出了CCA、FBCCA和FBCCA-DW及改进动态窗方法FBCCA-ADW的BCI性能。从图6a~b可以看出,FBCCA-ADW方法在准确率和ITR方面明显优于传统的固定窗口方法,且相较于FBCCA-DW有略微提升。

a. 平均分类准确率;b. 平均信息传输速率
Figure6. Performance analysis of different classification methodsa. average classification accuracy; b. average information transmission rate
在实验结束后,我们对受试者的感受进行了问卷调查。结果显示,本试验的脑力需求和身体负担处于较低水平,时间需求适中,任务困难程度适中。受试者也并未在实验中产生不适的感觉,整体系统设计流程较为友好。
3 讨论
利用AR设备独特的显示技术,可以让用户在不改变视场的情况下同时观察工作空间和刺激界面,大大减少了注意力切换,提升了用户体验和效率。在BCI系统的特定应用中,准确性往往被视为一个更为关键的衡量标准。有些研究指出,只有当平均准确率达到70%以上时,BCI系统才能被认为是有效的[26]。实验表明,本文基于AR-SSVEP-BCI视觉目标检测系统能达到较高的分类准确率,动态数据窗口检测下平均准确率为90.6%;从被试开始注视到识别反馈,这一过程平均需要解析2.07 s的脑电数据来完成。很多关于AR-SSVEP-BCI的应用研究也都进行了类似验证,如表2所示,正确率多在90%左右。其中文献[14]使用了有训练算法FB-tCNN,识别窗口时间大幅缩减,取得了较高的ITR值,但是有训练算法需要提前对受试者模型进行大量离线训练,训练过程繁琐费时。而本文采用无训练算法以及使用干电极进行脑电信息采集,相较而言过程更加快捷方便,可以提高用户体验。与一般的固定窗口策略相比,动态窗口策略更加灵活、稳定。比如在图6中可以明显看出,基于自适应动态窗口的策略FBCCA-ADW方法,可以找到一个准确率较高而速度又较快的平衡点。综合来看,在SSVEP-BCI系统中使用AR设备是可行、有效的,这种技术融合为BCI系统带来了很多创新性的变化,也为未来的应用和发展提供了广阔的空间。

传统的SSVEP-BCI系统设计大多将刺激目标与预设意图命令固定映射,这会限制用户的选择。本文提出了一种新的方法,利用深度相机和AR设备对识别到的现实物品增加虚拟框体来叠加视觉刺激,用户只需直接注视目标物体上的闪烁刺激即可完成目标选取任务。这种融合视觉信息的刺激界面更符合自然选择过程,能够适应复杂多变的场景,自动更新对象与刺激目标之间的映射。本文所提出的基于AR和SSVEP信号的视觉目标检测系统也易于继续扩展外层控制设备和识别指令,来丰富其在现实生活中的应用,比如控制智能家居、抓取远程物体、控制设备移动等等。
由于现有的大多数SSVEP-BCI都需要注视,为了进一步扩大BCI的适用性,将SSVEP和非脑电信号结合使用有望进一步拓宽用户的控制能力。眼动追踪也可以实现对受试者视觉目标的追踪,但是当前大部分眼动追踪设备使用前需校准,从而建立使用者的特征模型以提高检测精度,同时眼动追踪技术对外部条件较为敏感,如环境光、头部位置变化和佩戴眼镜的状况都可能影响其精度[27]。相比之下,SSVEP信号不易受环境影响,主要依赖使用者的注意力集中,且无需校准频次,大大简化了操作流程。本文只研究了SSVEP结合AR进行人机交互,目前也有许多学者在研究SSVEP-BCI和眼动追踪组合的混合系统以实现更好的控制能力[28]。未来可以针对基于SSVEP和眼动追踪的多模态BCI系统进行研究,使得二者相辅相成互相验证。本文采用了动态时间窗的方法来减少受试者对视觉刺激的注视时间,但长时间的中低频视觉刺激仍然不可避免地导致受试者感到疲劳。未来可以再优化刺激范式,比如采用高频SSVEP刺激闪烁或者多频率组合,同时改进识别算法来提升系统的脑电解码效率,达到改善用户体验的目的。
4 结论
本文构建了一种基于AR和SSVEP信号的视觉目标检测系统,该系统利用深度相机实时识别现实物品,并在AR设备中自动叠加虚拟框体作为视觉刺激元素,然后通过分析受试者的SSVEP脑电信号,实现对受试者视觉关注目标的检测。与传统的基于闪烁刺激的SSVEP-BCI系统相比,该系统具有以下优点,能够适应不同的场景和物品种类,提高了系统的通用性和灵活性;能够实现快速且准确的视觉目标物品识别,系统具备高效性和稳定性。本系统基于FBCCA-DW动态时间窗解码方法进行改进,结合特征系数随时间增加特性,优化了动态寻找最优数据长度来预测结果,适应不同试验和不同个体的差异,实验结果表明FBCCA-ADW相较于FBCCA-DW性能有所提升,可以更加高效地实现对受试者EEG信号的分类和解码,进而识别到受试者所关注的视觉目标。
该系统旨在优化SSVEP信号在现实生活场景中的应用,提升受试者对视觉目标选取的效率,在辅助行动受限及肢体功能受损的患者执行物品选取任务方面展现出了可行性与有效性。本文的研究为AR环境下的SSVEP-BCI系统的设计和应用提供了一种新的思路和方法。该系统未来有望为中风和瘫痪患者提供生活上的辅助,提升患者的生活便利性和生活质量。此外该系统还具备在不同场景下辅助完成目标搜索任务的应用潜力。未来可以对算法继续进行优化,优化系统流程,拓展外部设备,提高系统在现实场景的适用性和交互性。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:郭孟澳负责实验设计、数据分析、论文撰写;耿亦婷、竭荣昕负责数据收集、数据处理;杨帮华、张永怀、郑炎炎指导论文撰写。
伦理声明:本研究通过了上海大学伦理委员会的审批(批文编号:ECSHU 2023-001)。