文心大模型日均调用量超7亿，百度竭力为其寻找落地机会

图片来源：官方

界面新闻记者 | 崔鹏

界面新闻编辑 | 宋佳楠

9月25日上午，百度在云智大会上推出百舸AI异构计算平台4.0和千帆大模型平台3.0等AI基础设施产品，并公布了多项AI相关业务的最新数据。其中，文心大模型日均调用量已经超过7亿，距离百度上次公布的6亿数据有进一步提升。

在刚结束的阿里云栖大会上，阿里巴巴CEO吴永铭曾表示，阿里云的单 *** 集群已经拓展至10万卡级别，而百度也不甘于落后。百度集团执行副总裁、百度智能云事业群总裁沈抖特别强调，百舸4.0将不仅仅是万卡集群，而是具备了成熟的10万卡集群部署和管理能力。

百度今年一直在强调大模型的落地应用。百度CEO李彦宏在最近一次内部讲话中表示，具备应用场景、能够持续迭代升级的大模型，与其它模型产品的差距会越来越大。

基于此，百度找来了长安汽车和三星等大量客户为其站台，以展示百度大模型在各行各业的落地应用成果。

沈抖表示，过去一年，百度感受到客户的模型需求猛增，需要的集群规模越来越大，企业对模型推理成本下降的预期也越来越高。

训练大模型的前提是创建集群，这并非简单地买来GPU组装即可，通常需要几个月的时间进行设备配置和调试。

此前有云厂商提到，组建集群可以压缩到1天，而沈抖称，百舸4.0能够做到最快1小时完成组建，主要采用将业界流行训练工具和框架进行内置的方式。

一旦进入到大规模训练阶段，最重要的就是稳定性。大模型领域一直遵循著名的Scaling Law（尺度定律），认为模型性能会随着参数、算力和数据集的规模增加而提高。

根据沈抖的说法，GPU集群需要耗费巨额的建设和运营成本，通常建设一个万卡集群，单是GPU的采购成本就高达几十亿元。如果是10万卡集群，服务器一天消耗的电量大约是300万千瓦时，相当于北京东城区一天的居民用电量。

在这种大规模的集群上，硬件不可避免会出现故障，规模越大，出故障的概率越高。在这些故障中，绝大多数是由GPU引起的，因为GPU是非常敏感的硬件，对温度、湿度等环境波动反应灵敏。

沈抖提到，Meta训练Llama3模型时，用了1.6万张GPU卡的集群，平均每3小时就会出一次故障。

大模型的训练是庞大的单一任务，一个节点出错，整个集群就需要停下，并回滚到上一个记忆点。考虑到GPU集群的成本非常昂贵，每多停一分钟就会白白烧钱，“有效训练时长”便成为非常重要的指标。

针对大模型训练过程中故障频发的问题，百舸4.0对故障检测手段和自动容错机制进行了升级，目前万卡集群上的有效训练时长达到99.5%，沈抖称这高于同行对手的数据表现。此外，百舸4.0将主流的长文本推理效率提升了1倍以上，同时降低了推理成本。

在百度最新的财报 *** 会上，李彦宏曾透露，二季度百度智能云AI贡献的收入占比进一步提升至9%，而上一季度为6.9%。

大模型工具的性能提升固然重要，但对于百度来说，模型落地的成果更具有现实意义。

除升级百舸平台外，百度还着重介绍了最新的千帆3.0平台。根据沈抖公布的数据，在千帆大模型平台上，文心大模型日均调用量超过7亿次，累计帮助用户精调了3万个大模型，开发出70多万个企业级应用。千帆3.0可调用包括文心系列大模型在内的近百个国内外大模型，也支持调用语音、视觉等各种传统的小模型。

目前，大模型落地的三大主要需求分别是应用开发、模型推理和模型开发。

在应用开发层，企业级RAG（将企业和行业数据做成外挂知识库给大模型）和Agent智能体是两大常见的大模型落地场景。

其中，智能体接到任务后，会进行自主思考、任务拆解、方案规划，并调用工具，全程自主进行，能够完成过往需要3到4个APP才能完成的任务。

沈抖表示，百度内部为千帆平台提供了百度搜索和百度地图等超过80个官方组件，用来提升智能体在特定任务上的能力。

而在李彦宏看来，智能体是大模型发展的下一个重要方向。“有很多人看好智能体这个发展方向，但是到今天为止，智能体还不是共识，像百度这样把智能体作为大模型最重要的战略、最重要的发展方向的公司并不多。”

百度在今年的Create大会上曾发布过三款产品，分别是AgentBuilder、AppBuilder和ModelBuilder。其中，AgentBuilder和AppBuilder都与智能体相关，一个门槛更低，另一个更强调功能性。

根据百度最新透露的数据，智能体在百度生态的分发量大幅增加，7月日均分发次数超800万次，为5月数据的两倍。

百度旗下数字人平台和智能 *** 产品也有了最新进展。其中曦灵数字人平台4.0，支持根据文字快速生成不同妆造、不同行业特色的3D数字人形象和视频，并将3D超写实数字人的价格从万元降至199元。

智能 *** 产品“客悦”则在用户意图理解、多模态信息交流等方面进行了优化，提升了处理复杂问题的能力。

按照百度的说法，目前业内“问题自主解决率”的平均水平是80%，升级后“客悦”将这一指标提升至92%。该产品已累计帮助企业客户服务超过1.5亿人次，交互超5亿次。