出品 | 虎嗅科技组

狂奔一年后,面壁者决心“破壁”

作者 | 王欣

编辑 | 苗正卿

头图 |《奥本海默》

“世界上不需要超过 5 个或是几个大模型,我觉得这完全跟当年 IBM 的董事长的论调——世界不需要超过5台计算机是一模一样,是非常短视的。”面壁首席科学家、清华⼤学长聘副教授刘知远对虎嗅表示,“我认为未来的大模型就像是CPU一样,无处不在。所以我们首先要做的是降低成本,让每个人有属于自己的若干个大模型来支持生活、学习和工作。”

这是近期中关村初冬的早晨。2024中国人工智能大会(CCAI 2024)像呈燎原之势的大模型产业切片,汇集了AI新锐企业和学者。此时距离刘知远在CCAI 2024端侧专题论坛发表Densing Law主题演讲,不足一小时。

在众多AI企业中,面壁从路线、模式甚至名字,都显得又些另类。当刘知远坐在我面前,这些另类似乎都找到了答案源头——他的身上,学者的儒雅和接地气的一面达到了奇妙的平衡比例。

巧合的是,在交流的前一天,llya发表了预训练时代将会终结的判断,又撼动了一些从业者对于大模型和AGI的信心。

刘知远也观察到,目前国内已经有大模型公司放弃预训练。“这种事情在历史任何时刻都会存在”,就像2000年互联网泡沫破灭时,不坚定的参与者批量离场,“很多人看到大模型这个方向火,然后加入进来,这样的人,他一定会在遇到挫折的时候率先退场 。”

“数据差不多耗尽了,接下来的确会面临,模型可持续训练的未来的发展瓶颈”,但刘知远认为:“通过强化学习或者合成数据依然可以制造更多数据,明年仍然还是快速发展的阶段。”

这一瓶颈是刘知远在一年前就预判到的问题:“半年之后,国内一定有五六家可以把GPT-4水平的模型做出来,那还有必要做这个事情吗?”

从商业上考虑“投入了几千万,市面上五六个同类型的模型,你怎么能确保你的模型能卖得的比别人都好?”

因此一年前,脱胎于清华NLP实验室的面壁智能,就开始专注端侧模型的路线。

交流结束后,刘知远上台分享了近期团队的研究成果。正是Scaling Law遇到瓶颈后的“破壁之法”,预测大模型发展的另一视角——大模型密度定律(Densing Law)—— 模型能力密度随时间呈指数级增长。

就像摩尔定律背后的核心其实是有效地提升芯片上的电路密度,而不是简简单单的芯片尺寸。大模型行业也有着和摩尔定律相似的规律,和芯片的电路密度类似,大模型的能力“密度”也在提升,这意味我们能用更少的参数实现相同的智能水平。

模型能力密度提升意味着——如果一个4B的模型能实现40B模型的效果,那么它能搭载运行的终端范围会大大拓宽,比如原来服务器上的模型,就可以直接在手机上运行,它的应用范围也就拓宽了。

以下为虎嗅与刘知远一对一交流实录:

虎嗅:最近半年你关心的问题是什么?

刘知远:现在算力浪费现象严重,导致模型训练成本过高。历史上,IBM曾预测全球仅需5台大型计算机,但如今我们有13亿台PC、70亿部手机和数百亿联网设备,以及2000亿个CPU在运行。有种说法是世界上不需要超过 5 个或是几个大模型,我觉得这完全跟当年 IBM 的董事长的论调一模一样,是非常短视的。我认为未来大模型应像CPU一样普及,让每个人都能拥有大模型来改善生活、学习和工作。因此,降低成本是关键,来让大模型达到信息革命PC机的时刻。(虎嗅注:密度定律表明,达到相同能力的模型参数指数递减,2023年以来每3.3个月减少一半,相应模型推理速度提升一倍。例如,GPT-3.5级模型在过去20月内API价格下降至1/266.7,约2.5个月下降一倍。)

虎嗅:llya最近表示预训练毫无疑问将会终结,训练模型需要的海量数据即将枯竭。你如何看待他的观点?

刘知远:我觉得他说了一部分的这个正确的事情,现在数据差不多耗尽了,可能接下来的确会面临,模型可持续训练的未来的发展瓶颈。因为所谓的Scaling Law有两个基本的支撑点,数据和算力。llya主要还是强调的数据问题,但是其实我们会认为算力也是关键问题,随着这个模型变得越来越大,训练算力成本有限。如何支撑这个模型可以去有效scale?所以我们会认为llya提出来的是合时宜的,解决方案还要探讨。

其实我们在去年的时候就意识到这个问题。

虎嗅:目前国内有公司已经陆续放弃预训练,你怎么看?

刘知远:大模型是去年才开始火的。所以我们会认为,很多看到这个方向火然后就加入进来,这样的人,他一定会在遇到挫折的时候率先退场。这是必然的。因为在历史上的任何的时刻都会存在这样的事情,就跟千禧年互联网兴起的时候,也有很多人被吸引想要参与,但是互联网泡沫破灭时,就会主动地或者被动地退出。

虎嗅:这可能跟明年哪些新的趋势有关系? 你对明年大模型发展的预判是什么?

刘知远:可以看到就是的,不管是比如说这个推理,还是说Agent,还是说别的强化学习等等,就是包括 o1他提到的各种各样,其实回归到本质的话,其实无非就是要想到某种办法,然后能够为这个模型来提供更多数据。

比如AlphaGo先从人类积累的数据来学习下起,所有的基础都学完后,就出现AlphaZero让下围棋的 Agent 跟自己下棋,来产生更多数据。

如果我们控制这个模型的参数规模不变,我们可以随着技术的发展,把更多能力放进去。也就是说模型的规模不变,但是模型的这个知识量密度在增加。所以我觉得面向未来其实仍然大有可为,明年一定还是快速发展的阶段。

这个过程其实就像是,科学技术的发展,来对抗这个世界的熵增的过程,就像芯片是要通过技术进步,来改善算力密集度,以更高的质量,更低的价格来达到相同的能力。

虎嗅:一年前是如何提前预判到行业目前现状的?为什么那时开始专注端侧?

刘知远:这个涉及到对技术的预判。就是在去年初的时候,ChatGPT的横空出世,其实是让很多人震惊。因为大家都还不知道这个东西到底是怎么训练出来的。但是经过大家快速的研判和探索,实际上在去年的大概到 4 月份,已经大致找到了到底如何达到相同水平的路径。

我们那次判断是:国内是到 2023 年12月实现GPT-3.5水准的模型能力,差不多需要一年的时间。

事实证明我们的判断是对的,因此2023年4月份GPT-4发布时,我们预计国内一定会在2024年的六月份前做出GPT-4水平模型。

所以我现在想问你,如果你是我们这个团队的决策者,你发现一年后国内一定有五六家可以把GPT-4水平的模型做出来,那还有必要做这个事情吗?问题是在于GPT-4的模型能力,至少需要几千万美元的算力。

当然,技术上是可以做的,但你做出来之后,你怎么把这个钱给赚回来?你投了几千万。但市面上有五六个同类型的模型,你怎么能确保你的模型能卖的比别人都好?

也就是说在我们确保技术上可行的时候,得去看这件事情在商业是不是值回成本的一件事情。

所以我们会认为应该更加重视的是极大地去降低训练模型的成本,极大地提升用相同的成本训练出来的模型品质,所以那个时候我们坚持的是这样的事情。这件事情其实事前我们并没有那么多信心一定是对的,当然事后的话证明我们是对的。

虎嗅:你怎么看现在有公司也开始转向端侧了?

刘知远:是的,我觉得这是好事。这是理性的决定。因为你不走向端侧,那就说明你还没有做出理性的决定。

虎嗅:你觉得未来这样公司会越来越多吗?

刘知远:一定会。

虎嗅:经历过这一年之后,你的感受是什么?

刘知远:我觉得学到好多事情。因为我是作为清华的老师,去参与创业。我觉得这的确是一个大的时代,一定要抽身参与其中,但是这里面其实对我来讲有很多新鲜感受。

我们最近几个月其实一直在尝试着去总结说我们到底怎么办?后面的路怎么走?因为这件事情是充满不确定的。

llya的判断出来后,很多人对AGI信心又撼动了。是不是llya说的就一定是对的?或是我说的就一定是对的?

这个世界本身就是充满非共识的。真正创新的东西才是推动科学发展的力量,所以其实我觉得还是要能够去寻找,历史上的一些蛛丝马迹的规律,来指导着我们往前走的方向。

我一直跟实验室的同学说要实事求是。不要因为你在这方向上取得了优势和一些积累,你就会认为这个方向就一直是对的。

我们团队其实从 2010 年开始,就在做自然语言处理,然后再到 2018 年从深度学习到大模型,其实我们应该算是最早做这个事情的。原因在于我会认为就是这个世界的趋势,它不以个人意志为转移,不会说因为你觉得这个技术有缺点,它就不会发展。该发生的一定会发生,我们要做的事情就是要去顺应事实,而且我们看得更前瞻,更前沿去做一下。

虎嗅:之前被斯坦福抄袭时,你的感受是什么?如何看待中美大模型发展差异?

刘知远:我觉得它可能算是一个偶然事件,本身对面也相当于只是一个学生团队,我个人倾向于不太会把这件事情当成有深刻含义的一件事情,我觉得如果放在宏大的历史上来去讲,就像是黄仁宇的《万历十五年》,就是通过那一个年份,来叙述整个明朝的衰败,所以其实众多的case,会汇聚成一个大的趋势。

我们其实能清晰地看到,中国在过去的这十年、二十年的发展,其实是非常快速地在去成为这个世界上的,从追赶者到去原始创新的一个角色。

20 年前,大家都在说copy to China。那又过了十年,到 2010 年的时候,那时中国的 AI 论文发表已经在国际上能够数得着,已经算是崭露头角,那个时候其实大家一般就很少说 copy to China,而是说,中国好像不太善于做技术创建,善于做模式的创建。

现在又过了十年。我们会看到国际的顶级会议,国人的身影已经占了一半 ,所以我会认为我们现在已经有足够多的高水平青年学者。现在我们也像历史上的任何一个强国一样,能够实现技术超车,这就跟Densing Law所指向的那个趋势一定会发生。