rafapress / Shutterstock.com

OpenAI全新模型草莓浮出水面:推理能力已接近人类,可让ChatGPT像人一样思考

出品 | 搜狐科技

作者 | 王一鸣

这几天互联网上都在与大语言模型讨论一个数学问题:9.9和9.11,哪个数字更大?很多大模型都会说9.11大,理由非常滑稽:因为11这个数比9大。这大概是由于语言模型硬件的Tokens(理解语句的基本单位)把“9”、“小数点”和“11”理解成了三个部分,似乎并没有把它们理解成为一个整体。

而草莓(Strawberry)或许能让ChatGPT更加智能。草莓的细节从未被披露和报道,而且在内部都是被严格保密的。

根据一位知情人士和内部文件称,ChatGPT的公司 OpenAI正在研究一种全新的人工智能模型,代号为“草莓”(Strawberry),它的前身为Q*。

一份OpenAI内部文件的副本显示,OpenAI 内部的团队正在开发草莓。但是无法确定该文件的具体日期,文件详细说明了OpenAI打算如何使用草莓进行研究的计划。

草莓项目可以让AI不仅能够生成查询的答案,而且可以执行长任务(LHF),做到提前规划,自主地浏览互联网(CUA技术),提高可信度,从而执行OpenAI所说的“深入研究”。

面对关于“草莓”的问题时,OpenAI发言人表示:“我们希望我们的AI模型能够像我们人类的方式去看到和理解世界。不断研究AI能力是业界普遍做法,大家普遍相信随着时间的推移,这些智能系统的推理能力将得到改善。”

然而并没有提及“草莓”项目。

山姆奥特曼今年曾说过:“AI最重要的领域会围绕着推理能力展开。” 推理能力可拓展AI探索科学领域的能力,让AGI照进现实。

OpenAI这一举动引来了马斯克强势围观:

“我们之前已经知道AI浩劫可能是回形针泛滥,看来得成草莓田了。(鼓)”

(*注:尼克·博斯特罗姆(Nick Bostrom)曾提出一个著名的思想实验:要求AI产生更大量的回形针。AI最终决定:“杀死人类,将人类当作额外的资源,把你们都做成回形针。”因为 AI 对于人类的价值没有基本的人类认知。)

强大的推理能力

草莓项目此前被称为Q*,据路透社称,OpenAI内部已经将其视为一项突破。Q*的demo能够回答目前商用模型不能解决的科学和数学问题。

OpenAI内部测试的AI在MATH数据集上得分超过90%,这是基准测试里面属于王者级别了,但无法确定这是否为草莓项目。

据彭博社报道,OpenAI在内部全员会议上做了次演示,声称该项目的推理能力已经接近人类水平。发言人也证实了这次会议,但拒绝透露细节。

研究人员表示,推理能力是人工智能达到甚至超越人类智力水平的关键。

这样的AI就像是受过高等教育的人一样,有能力解决基本问题,还不需要任何工具。下一个阶段会有“Agents”(AI实体)和“Innovators”(创新者)出现,Agents可以在几天内自主执行任务,Innovators能够设计新技术。最终会形成全面自主性和复杂性的人工智能系统,这些阶段映射出来一个完整的(AGI)通用人工智能路线图。

人工智能研究人员认为,这种能力是目前现有人工智能模型所不具备的。

虽然大语言模型可以很快地总结文本和书写文本,但有时候存在常识性问题,对人们来说这些问题非常简单和直观,比如识别逻辑错误和“幻觉”问题。

人工智能的推理涉及模型的形成,AI可以进行提前规划,反映物理世界的运作方式,从而可靠地解决有挑战性的多步骤问题。

改进人工智能模型的推理能力是释放模型能力的关键,这些能力往大了说可以代替人类研究重大科学,往小了说可以写代码写软件。

谷歌、Meta和微软这样的公司和许多研究AI的学术实验室,都在尝试用不同的技术来增强AI模型的推理能力。然而研究人员对大语言模型是否能够将想法和长期规划纳入的预测方式存疑。

现代人工智能的先驱之一的Yann LeCun说,大语言模型无法进行像人类一样进行推理。

OpenAI希望此项目能够大幅提高AI模型的推理能力,草莓涉及专门计算处理方式,它可以在大量的数据集上预先训练AI模型。

其中一种方式就是后训练(post-training),或者在基础模型已经“训练”了大量通用数据后,调整基础模型以特定方式“磨练”性能。

“微调”和人类反馈强化学习(RLHF)都是后训练的 *** ,RLHF可以让人类根据模型的响应向模型提供反馈,提供正确和错误的例子做提示工程。

一位知情人士称,草莓与斯坦福大学在2022年开发的一个叫“自学推理者”("Self-Taught Reasoner”,简称“STaR”)的 *** 相似。

斯坦福大学教授Noah D. Goodman称STaR让AI模型能够通过迭代创建自己的训练数据来“指导”自己进入更高的智能水平,理论上可以让语言模型超越人类水平的智能,成为创造者。

这篇论文中概述了自我推理的原理,最开始使用少量样本提示作为示例,模型自行生成推理,最后通过微调产生正确答案的推理来进一步完善模型的能力。

研究人员层层深入这一过程,每次都使用改进的模型产生下一个训练集。这是一个协同过程,推理生成的改进会改善训练数据,从而进一步改善推理能力。

但是这个循环无法解决训练集的新问题,因为它回答错的问题的时候得不到直接有效的提示。

他们为此提出了推理化(rationalization):通过为回答错的问题提示正确答案来生成新的推理。此举称为反向推理(reason backward)——正确的答案使得模型轻松地生成可用的推理。然后这些推理被收集整合作为训练数据的一部分,从而提高整体准确性。

什么东西可以带着小狗?答案是B,篮子。答案必须是可以用来带小狗的东西。篮子是用来装东西的。因此,答案是篮子

上图为STaR概述和 CommonsenseQA上STaR 生成的推理。虚线表示微调(Finetune)外循环。问题和基本事实答案预计会出现在数据集中,而推理使用STaR产生。

他们又在今年5月发布了Quiet-STaR,做出了改进。

不同于STaR,Quiet-STaR直接在内部产生基本推理或想法,控制单个token推理与预测结合在一起,增强了理解和响应结果。通过强化学习进行优化,模型产生更强的推理能力以预测之后的结果,不需要特殊调整和干预。

也就是说Quiet-STaR可以让语言模型去通过内部推理进行思考。

它解决了三个主要难题:生成文本的高计算成本、引导LLM如何生成和使用内部想法以及预测将要产生的结果以外的内容。

Quiet-STaR使用了控制特殊token的新采样算法,模型在推理过程中可以自主学习和决定「开始思考」和「结束思考」。

上图概括了算法在训练过程中单个想法的过程。根据文本问题所有tokens并行生成想法(思考)。模型产生的下一个tokens预测想法走向(谈话)。REINFORCE有助于模型预测未来文本的想法走向,同时舍弃可能性较低的想法(学习)。

这是一个多重预测的训练,模型通过目前的推理来产生多个可能性预测之后的推理走向,产生更合理可靠的推理结果。

上图的x轴表示训练步骤,y轴表示零样本准确率(直接),不同颜色的线代表Quiet-STaR的使用程度。可以很直观地看到,G *** 8K和CommonsenseQA最初准确率是5.9%和36.3。其中Quiet-STaR使用程度越高,准确率越高,更高分别达到10.9%和47.2%。

“我既兴奋又恐惧......如果事情继续朝着这个方向发展,作为人类有一些严肃的事情需要思考一下。”Goodman说。