(来源:Ian C. Bates, The New York Times)

喜极而泣!失语四年,AI帮他重新“开口”说话

撰文 | 马雪薇

编审 | 学术君

前言

一位失语四年的渐冻症患者,在 AI 的帮助下,重新“开口”说话了。

肌萎缩侧索硬化(ALS),又名渐冻症,是一种神经系统罕见病,被世界卫生组织(WHO)列为与艾滋病、癌症等并列的 5 大绝症之一。

由于“肌无力”,渐冻症患者不仅无法正常完成行走、抓取物品等日常活动,连咀嚼、吞咽也异常困难,最终甚至不能发声讲话,这使得患者的抑郁情绪增加、生活质量下降。

如今,人工智能(AI)在让“失语”患者重新说话方面,取得了新的突破。

在一项新的研究中,由加州大学戴维斯分校健康中心研究团队及其合作者开发的一种由人工智能(AI)驱动的大脑植入物,成功将大脑信号转换为语音,让失语患者重新开口说话,准确率高达 97.5%。

图 | Casey Harrell 与他的妻子。(图源:Ian C. Bates, The New York Times)

相关研究论文以“An Accurate and Rapidly Calibrating Speech Neuroprosthesis”为题,已发表在权威医学期刊《新英格兰医学杂志》(NEJM)上。

在这项研究中,他们对一位 45 岁的渐冻症患者 Casey Harrell 进行了临床试验。在参加试验前,Harrell 四肢瘫痪无力,言语很难理解。试验结果显示:

在系统使用的之一天,经过 30 分钟的尝试说话训练数据后,神经假体达到了 99.6% 的准确率,词汇量为 50 个单词。第二天,可能输出的词汇量增加到了 125000 个单词,并且在额外 1.4 小时的训练数据后,神经假体达到了 90.2% 的准确率。随着更多训练数据的积累,神经假体在植入手术后八个月以上保持了 97.5% 的准确率。

此后,Harrell 使用神经假体进行了超过 248 小时的自主节奏对话,经过短暂的训练期后,皮层内语音神经假体达到了恢复自然交流水平的性能。

视频 | Harrell 利用神经假体进行对话。

据《 *** 》报道,在任何一个时刻,植入物都会捕捉到一群神经元的活跃,将它们的放电模式转化为声音的元音或辅音单位,然后计算机将这些声音串连成一个单词,再将单词串连成句子,选择它们认为最可能对应于 Harrell 试图说的话的输出。

该论文的通讯作者之一、加州大学戴维斯分校助理教授、神经外科医生 David M. Brandman 表示:“这一技术帮助了一位瘫痪的人与朋友、家人和护理者沟通,我们的研究展示了有史以来最准确的语音神经假体设备。”

找回失语患者的声音

参与研究的患者 Harrell 是一位 45 岁的男性,患有 ALS 和四肢瘫痪,伴有严重的构音障碍 (ALSFRS-R = 23)。

在植入阵列之前,研究团队通过解剖 MRI 扫描确定中央沟,并通过功能性 MRI 确认参与者是左半球语言优势。利用人类连接组计划的多模态 MRI 皮层分区,将植入目标精确映射到参与者的脑中。

其次,团队使用四个 64 电极犹他阵列从左侧腹侧前中央回测量皮层神经活动。机器学习技术每 80 毫秒将皮层神经活动解码成一个英语音素。使用一系列语言模型(LM),预测的音素序列被翻译成一系列单词,当参与者尝试说话时,这些单词出现在屏幕上。在句子结束时,一个自声音文本到语音算法将解码的句子发声,旨在模仿参与者在发展 ALS 之前的语音。

图 | 电极位置和语音解码设置。a, 大致微电极阵列位置,由黑色方块表示,叠加在参与者大脑的 3D 重建上。b, 脑到文本语音神经假体的示意图。

神经假体在启动后即可实现高准确率解码,无需大量训练数据。研究结果表明,该神经假体在短期内即可为患有严重言语障碍的 ALS 患者提供自然沟通的能力。

图 | 在线语音解码性能。

图 | 广泛使用神经假体进行准确的自发语音。a, 参与者和语音神经假体在对话模式下的照片。神经假体仅基于神经活动检测到他试图说话,并在 6 秒的语音不活动后结束,或者在他通过眼动追踪选择激活屏幕上的按钮后结束。解码的句子完成后,参与者使用屏幕上的确认按钮来指示解码的句子是否正确。b, 参与者使用语音神经假体与女儿交谈的第二天样本转录。c, 参与者使用语音神经假体与周围人沟通的累积小时数,包括在结构化研究会议期间和个人使用期间。对于由红色轮廓点表示的会议,解码准确度在(d)中量化。d, 评估对话中的语音解码准确度(n = 925 个已知真实标签的句子,来源于(c)中红色标记的会议)。平均单词错误率为3.7%(95%置信区间,3.3%至4.3%)。

此外,研究还发现,腹侧中央前回区域的电极阵列在解码语音方面表现更佳,其次是 55b 区、4 区和背侧中央前回区域的电极阵列。解码错误往往发生在发音相似的音素之间。此外,神经假体还能够泛化到新的单词,并且训练数据中出现的频率越高,对特定单词的解码准确性也越高。神经假体能够解码非发声语音,以及不同说话幅度的语音,包括低声、正常和大声说话。

总而言之,这项研究证明了脑机接口技术在恢复失语症患者沟通能力方面具有巨大潜力。

不足与展望

虽然这项研究取得了显著的成果,但仍然存在一些局限性,需要在未来研究中进一步解决。

首先,该研究仅涉及一位参与者,因此需要更多参与者的研究来评估该系统在不同个体中的性能分布,并确定是否存在个体差异。

其次,该研究的参与者患有 ALS 并伴有严重构音障碍。需要进一步研究来评估该系统是否适用于其他原因导致的构音障碍患者,例如脑干卒中或中风。

而且,该研究仅报告了 8 个月的数据。需要更长时间的数据来评估神经解码的长期稳定性,并确定是否存在信号衰减或其他长期问题。

此外,该系统将脑信号解码为文本,然后使用语音合成器将其转换为语音。然而,目前的语音合成技术无法完全复制人类语音的自然度和丰富性。将脑信号直接转化为语音仍然是一个挑战,需要进一步的研究。

还需要考虑的是,目前使用的设备较大,并且需要连接到外部电脑。需要开发更小、更便携、无线连接的设备,以提高患者的舒适度和便利性。在未来,还可以尝试开发更易于用户和护理伙伴操作的自动化软件,以进一步提高患者的自主性。