首页 > 资讯 > 科学 > 正文
2023-05-02 16:15

人工智能将思想转化为文字,使非侵入式读心术成为可能

一种基于人工智能的解码器已经被开发出来,它可以将大脑活动转化为连续的文本流,这是一项突破,首次允许人们无创地阅读一个人的思想。

当人们在听一个故事,甚至是在想象一个故事时,解码器可以用功能磁共振成像扫描数据以惊人的准确性重建语音。以前的语言解码系统需要手术植入,而最新的进展为中风或运动神经元疾病导致的沟通困难患者恢复语言的新方法带来了希望。

领导德克萨斯大学奥斯汀分校这项研究的神经科学家亚历山大·胡特博士说:“我们对它的作用如此之好感到有些震惊。我研究这个项目已经15年了,所以当它最终成功时,我感到既震惊又兴奋。”

这一成就克服了功能磁共振成像的一个基本限制,即虽然该技术可以以令人难以置信的高分辨率将大脑活动映射到特定位置,但存在固有的时间滞后,这使得实时跟踪活动变得不可能。

这种滞后的存在是因为fMRI扫描测量的是对大脑活动的血流量反应,它在大约10秒内达到峰值,然后回到基线,这意味着即使是最强大的扫描仪也无法改善这一点。胡斯说:“这是神经活动的嘈杂、缓慢的代理。”

这个硬性限制阻碍了解释大脑对自然语言反应的能力,因为它在几秒钟内提供了“信息的大杂烩”。

然而,大型语言模型(OpenAI的ChatGPT的基础)的出现提供了一种新的方法。这些模型能够用数字来表示语言的语义,让科学家们看到神经元活动的模式与具有特定含义的单词串相对应,而不是试图一个词一个词地读出活动。

学习过程是密集的:三名志愿者被要求每人躺在扫描仪里16个小时,听播客。解码器经过训练,使用一个大型语言模型GPT-1 (ChatGPT的前身)来匹配大脑活动和含义。

之后,对同样的参与者进行扫描,让他们听一个新故事或想象讲述一个故事,然后用解码器单独从大脑活动中生成文本。大约有一半的时间,文本与原文的意思非常接近,有时甚至完全吻合。

“我们的系统在思想、语义和意义的层面上工作,”胡特说。“这就是为什么我们得到的不是确切的文字,而是要点。”

例如,当参与者听到“我还没有驾照”这句话时,解码器将其翻译为“她甚至还没有开始学开车”。在另一个例子中,“我不知道是该尖叫、哭泣还是逃跑。”相反,我说:‘别烦我!’”被解读为“开始尖叫和哭泣,然后她只是说:“我告诉过你别来烦我。”

这篇发表在《自然神经科学》上的论文称,参与者还被要求在扫描仪中观看四段简短的无声视频,解码器能够利用他们的大脑活动准确地描述其中的一些内容。

胡特说:“对于一种非侵入性的方法来说,与以前的方法相比,这是一个真正的飞跃,以前的方法通常是单个单词或简短的句子。”

有时解码器会搞错方向,它会在语言的某些方面遇到困难,包括代词。“它不知道它是第一人称还是第三人称,是男性还是女性,”胡特说。“我们不知道为什么它在这方面做得不好。”

解码器是个性化的,当模型在另一个人身上测试时,读出的是不可理解的。解码器训练过的参与者也有可能通过想象动物或安静地想象另一个故事来挫败系统。

德克萨斯大学奥斯汀分校(University of Texas at Austin)的博士生、研究报告的合著者杰里·唐(Jerry Tang)说:“我们非常重视人们对它可能被用于不良目的的担忧,并一直在努力避免这种情况发生。”我们希望确保人们只在他们想要的时候使用这些类型的技术,并且这些技术对他们有帮助。”

牛津大学(University of Oxford)的计算神经科学家蒂姆·贝伦斯(Tim Behrens)教授没有参与这项研究,但他形容这项研究“在技术上令人印象深刻”,并表示它开辟了一系列实验可能性,包括解读人做梦时的想法,或研究大脑背景活动如何产生新想法。“这些生成模型让你在一个新的水平上看到大脑里的东西,”他说。“这意味着你可以从功能磁共振成像中真正读出一些深层次的东西。”

大阪大学的西本真司教授是大脑活动视觉图像重建的先驱,他将这篇论文描述为“重大进步”。他说:“这篇论文表明,在感知和想象过程中,大脑以一种兼容的方式表达了连续的语言信息。”“这是一个重要的发现,可以成为脑机接口发展的基础。

该团队现在希望评估这项技术是否可以应用于其他更便携的脑成像系统,比如功能性近红外光谱(fNIRS)。