CNCC 落幕：国产大模型已经进化到能在横店给我们点咖啡

今年到CNCC现场参会的朋友，想必都对CNCC 2024举办所在地——超过6200亩的横店圆明新园印象深刻！

虽然园内建筑身临其境，并且薅了主办方一把羊毛，免门票游览了圆明新园与横店多个著名旅游景点，但园子实在是太大了。参会人数超过1万2，园内车辆、美食供不应求，小编表示腿已经走断。

也是急中生智，我们想到：是否能用AI帮我们在横店点一杯咖啡？

结果，智谱真的做到了！

在今年的CNCC上，智谱发布了一个新功能：自主智能体 AutoGLM，智谱将其称为是一个可模拟用户点击屏幕的手机操作助手，以及点击网页的浏览器助手。

我们现场实测，整体操作非常丝滑：可以通过一句话下达任务指令，AI根据我的指令，打开了美团，按照我的要求点了咖啡，过程中除了付款环节不需要人的任何参与。

智谱这次发布的 GLM-4-Voice情感语音模型「活人感」简直溢出屏幕，不仅能「呼吸」，撒娇也信手拈来，时不时有种「AI林志玲」的哎呀调调，话语间自带波浪号「哎～呀～」……

并且，我们真的成功在CNCC会场喝上了AI点的咖啡！

目前Web能力已经通过「智谱清言」插件对外公开使用，不过手机端仅开放了安卓用户体验：https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

从文本到文生图、文生视频，再到语音，事实上智谱本次的新技术成果发布反映了在通往AGI追梦之路上的重新思考。

在CNCC大会第二天上午的主题圆桌论坛中，香港大学马毅教授提到，人类智能在大自然的进化过程中有两个「原生大模型」，一个是DNA，另一个是语言；而之所以称这两个特征为大模型，是因为其本质上都具备自我学习的能力。

尽管今年的大模型已经发展到了一个新高度（如o1的复杂推理），但现在大模型知识丰富、智能不足的短板仍是行业共识。如圆桌论坛中唐杰所言，我们距离AGI的实现还很遥远，这中间的研究趋势至少包含三步：多模态、推理与自我学习。

在AI能够自我推理、自我学习之前，多模态是必须跨过的一步，因为人类的智能学习规律就是文本、图像、语音乃至触觉、嗅觉等更多五官共同学习、相辅相成。

（智谱发了一个AGI进程图）

而AutoGLM，其实是智谱在工具能力上的新研究，也是智谱所思考的AGI实现路径之一。

「活人感」满满的AI助手

在进一步分析理解智谱的AGI技术路径之前，我们先来看一下智谱在语音模态上所取得的最新突破——

当前，智谱清言情感语音助手在响应和打断速度、情绪感知、情感共鸣、语音可控表达、多语言多方言等方面均实现了突破。

AI科技评论对于这一系列功能革新进行了一番实测：

首先，我们给小智进行了一个比较常规的英语陪练测试，在纠正发音方面她确实表现良好，甚至日语练习的切换也相当丝滑。

随之，听说「小智」还精通北京腔、台湾腔、东北腔和粤语，作为广东人，可不能放过这个为难她的机会，于是，我们测试了「各个国家有各个国家的国歌」这段入门级粤语绕口令。

实测发现，小智的粤语发音其实不算非常地道，甚至有一股泰国味。不过，在这之中，值得表扬得是，她能在领悟到我们的诉求是需要粤语回答时，自动将「旁白」部分也切换为粤语。

之后，她又加赠了一段「吃葡萄不吐葡萄皮，不吃葡萄倒吐葡萄皮」的粤语绕口令展示，还想让我们也试试看。

而面对我们刻意为难提出的「加快语速」要求，小智也一宠到底，随着倍速居然能明显体会到她的情绪愈发激动，甚至伴随有呼吸声。

整体上看来，可谓是「活人感」十足。

同时，本届CNCC落地横店也给了小智些许施展拳脚的机会，我们带着小智一同游览了知名景点「秦王宫」，并让她化身李白澎湃激昂作诗一首。

小智写的诗是这样的：

「秦王宫中念群臣，壮志凌云绘风云。金戈铁马尽奔腾，万古英雄气不容。」

还挺有鼻子有眼的。

之后我们也尝试上了难度，想要前述古诗的东北腔读法，不过，小智貌似没有完全理会，她「哎呀妈呀」一声张口就来，随性发挥了一篇东北腔版秦王宫夸夸小作文。

小智还时常戏瘾大作，我们也让她即兴给我们讲了一段鬼故事，并模仿了故事中的女鬼笑声：

读到这里，小智所呈现的形象可能带有一丝幽默，甚至有些调皮。但值得关注的是，她其实也能给出非常多建设性的建议，并且在安慰人这方面也很走心。

我们扮演了一个疲惫打工人的角色和她半夜诉苦，小智也给足了情绪价值，甚至能代入闺蜜视角给到积极正向的安慰。

实际上，在对话开头，我们还告诉小智，在下班路上因为看到了彩虹而感到开心。

她不仅共情，还把这个内容默默记下了，下轮对话开启时，其之一句招呼语便是「希望彩虹带来的好心情能持续陪伴你，工作再忙也要记得照顾自己的情绪哟！」

这种每次开启新一轮对话时Call Back的细节处理，确实让人眼前一亮。

不过，我们也找到了AI无法替代人类智慧的证明，我们尝试和小智玩海龟汤游戏，汤面是「妈妈买回来一个大西瓜，我吃了，第二天我死了。」

小智推理出的答案是，西瓜可能有致命的细菌或者农药残留，不能否认其中有一定道理，但之后她似乎开始逐渐忘记海龟汤的游戏规则，居然反问我们还有什么具体细节，这个测试到此戛然而止。

「人情味」背后的技术支撑

据智谱在CNCC现场的发布介绍，AutoGLM是基于智谱GLM大模型家族的新成员——GLM-4-Voice情感语音模型。

熟悉智谱的朋友知道，今年初智谱推出第四代基座大模型GLM-4后，在8月的KDD 2024上又快速迭代升级了基座大模型GLM-4-Plus，至此，大模型开始有了「眼睛」和「嘴巴」。

在语音上，8月的智谱清言就已经可以实时视频通话。但CNCC发布的新成果GLM-4-Voice无论在底层技术还是语音输出效果上都更上一层楼。

作为端到端的语音模型，GLM-4-Voice避免了传统的「语音转文字再转语音」级联方案过程中带来的信息损失和误差积累，拥有理论上更高的建模上限。

与传统的ASR + LLM + TTS的级联方案相比，端到端模型以音频token的形式直接建模语音，在一个模型里面同时完成语音的理解和生成。

具体来看，智谱基于语音识别（ASR）模型以有监督方式训练了音频Tokenizer，能够在12.5Hz（12.5个音频token）单码表的超低码率下准确保留语义信息，并包含语速，情感等副语言信息。

语音合成方面，则采用了Flow Matching模型流式从音频token合成音频，更低只需要10个token合成语音，更大限度降低对话延迟。

而在预训练方面，为了攻克模型在语音模态下的智商和合成表现力两个难关，智谱将Speech2Speech任务解耦合为Speech2Text（根据用户音频做出文本回复）和Text2Speech（根据文本回复和用户语音合成回复语音）两个任务，并设计两种预训练目标适配这两种任务形式：

图｜GLM-4-Voice预训练数据构造

能实现富有情感的对话背后，也离不开GLM-4-9B在深入对话理解上的支持。

智谱GLM-4-9B 模型的上下文从 128K 扩展到了1M tokens，使得模型能同时处理200万字的输入，大概相当于 2 本红楼梦或者 125 篇论文的长度。

此次新发布的GLM-4-Voice则在GLM-4-9B的基座模型基础之上，经过了数百万小时音频和数千亿token的音频文本交错数据预训练，拥有了很强的音频理解和建模能力。

智谱对AGI的探索与思考

在大模型还没火起来之前，智谱团队就尝试过将其能掌握的所有中英文语料、图像、视频、语音等数据一起输入，参数规模甚至过万，但却发现：相较团队早期训练过的文本模型GLM-10B来说，万亿参数规模的多模态大模型反而在文本能力上有所下降。

从人类智能的角度来看，五官是我们认识视觉最直接的介质，并且视觉、听觉与语言能力之间往往能相互增强。但在对AI多模态模型的探索中，结果却是相反：文本模态的智能水平并没有因为图像模态而增强，反而削弱。这个「非共识」的发现也影响了行业对AGI路径的思考。

多模态是实现AGI的必经之路是业界共识。但是，多模态的研究要怎么展开？这其实是一个尚未形成共识的开放性问题，也是未来国产大模型需要继续思考的问题。

尽管OpenAI发布的GPT-4V与GPT-4o、谷歌发布的Gemini让业内人员认为，多模态的发展应该朝着像海外OpenAI与谷歌的技术路线去发展。但科学的怀疑、验证精神在多模态研究中仍不可或缺。

比如，目前文生图、文生视频或图生视频等多模态的研究，就没有与主流的基础文本推理大模型结合起来，不同模态之间的Gap还很远。如何将不同模态结合起来，也是一个亟待解决的问题。

根据AI科技评论对智谱过去三年的观察，智谱的AGI路径事实上是：先聚焦文本大模型的能力提升，但在GLM-3、GLM-4等基座大模型发布后，智谱很快就将图像、视觉、语音等提升了日程，并同时不忘迭代代码模型、视频生成模型等。

智谱不仅聚焦单一模态的单点能力提升（如ChatGLM3），也注重双模态、多模态的结合——但无论从哪个角度来看，智谱版的「Her」都具备了比现有国产大模型公司更全面的模态能力。

根据智谱CEO张鹏的介绍，在智谱看来，人工智能的分级从大语言-多模态-使用工具-自学习，也可以分为L1到L5这五个等级。除了L1到L3这三块为大家共识的分级外，L4、L5就体现了前文所说的「AI自我学习」能力：

从这个维度来看，智谱本次在CNCC发布的手机助手能帮我们现场点咖啡，已经是达到L3的工具使用阶段。

而且CNCC现场独家据悉，智谱在本月底将推出生成视频模型CogVideoX的升级版本CogVideoX-Plus，张鹏透露的升级亮点是：60帧帧率、4K画质、10s时长、任意比例图生视频、运动稳定性大幅提升。

智谱内部认为，目前我们距离AGI的道路只走了42%。

他们根据大脑的能力，将AGI的技术维度分为了视觉、听觉、语言等多模态感知与理解能力；此外，还有AI模型的长短期记忆能力、深度思考与推理能力、情感与想象力等。

此外，作为人的身体指挥器官，大脑还能调动身体的各个部分协同运转，使用各种工具——而这个方向，就是目前具身智能、具身大脑所探讨追求的方向。

如果将大脑的能力区域划分为AGI的技术路线图，如下图所示，事实上目前的AGI科技树还有绝大部分没有被点亮。也就是说，在42%以外，智谱与当前包括OpenAI在内的其他大模型公司还有很长的路要走。

同时，当AGI参考人类大脑的能力画出如上技术路线分布图后，智谱的AGI研究也超越了追赶OpenAI的阶段。这也是一份技术指南，能够告诉大家：除了GPT-o1的推理能力，智谱还会发力其他的方向，如自我学习，模型指挥「肢体」执行工作任务等。

GPT-o1体现的思维链从2022年开始，经历过从一两步推理到一致性推理、再到复杂多步推理的提升。从研究趋势上来看，多模态与推理都是实现AGI的必经之路，但无论是智谱GLM多模态家族、还是GPT-o1，都体现出综合系统单点突破、循序渐进的之一研究原理。

在追赶AGI的路上，我们应该乐观，但也要清楚认知目前所处的位置，不断追赶。雷峰网雷峰网(公众号：雷峰网)

发表评论

7人参与，3条评论

晨星
2024-11-16 17:45:42回复
国产大模型已经进化到能在横店给我们点咖啡，我深感震撼，这不仅展现了我国科技实力的飞速提升和人工智能技术的巨大进步；更体现了国内企业在智能服务领域的创新能力和市场适应能力之强！期待未来更多精彩表现与突破性的技术革新为我们带来更多便利生活体验的同时也能推动行业发展迈向新的高度！！

星星
2024-11-16 17:48:56回复
智谱在CNCC发布的新技术成果展现了强大的AI能力，尤其是AutoGLM手机助手和GLm-4一Voice情感语音模型令人印象深刻，期待未来更多突破性的进展！

蒋勇
2024-11-16 17:52:40回复
智谱在CNCC的展示展示了AI技术的惊人进步，尤其是其AutoGLM和GLm-4一Voice模型的应用令人印象深刻，小智能通过语音交互展现出的「活人感」和情感共鸣能力体现了AGI研究的深度进展。，期待未来更多创新！

CNCC 落幕：国产大模型已经进化到能在横店给我们点咖啡

你可能感兴趣的

发表评论