如果将大模型应用开发比做“淘金”,那么构建大模型基座所必需的算力和工具体系,则是不可或缺的“铲子”。

硅基向左,潞晨向右

俗话说,淘金先富卖铲人,谁都想在这场 AI 浪潮中“分一杯羹”,不光巨头在争当“卖铲人”,也有不少创业公司从中发现了新的机遇。

其中,在加速计算赛道,袁进辉带领的硅基流动与尤洋创办的潞晨科技可谓典型代表,在他们之外,国内早期能做出分布式系统的团队并不多。

然而,虽然赛道相同,二者却屡屡选择不同的分岔路口——

从时间线上来看,2017 年开启创业之旅的袁进辉选择了打破垄断、挑战巨头 Meta,其所带领的 OneFlow 也以 Pytorch“挑战者”的姿态登场,从头自研训练框架。

而 2021年正式入局的尤洋,则选择了一种更为审慎而高效的方式——在PyTorch这一成熟框架的基础上,进行分布式计算的创新与开发。

这也是早期在聚焦训练时,二者最明显的区别所在。如今,大模型“卷”入下半场,重视推理已成为业内共识。

值此之际,二者在打法上又出现了些许差异。延续团队早期的思路,硅基流动的推理框架 SiliconLLM 仍是独立于主流框架 vLLM 和 TensorRT-LLM 外的第三套系统,潞晨科技则专注基于 Colossal-AI 框架进行优化。

值得一提的是,为推进商业化进程,潞晨科技进一步拓展了产品版图,正式推出了文生视频大模型 Open-Sora。对比而言,硅基流动则并未公开过大模型。

而在云平台业务的开展上,硅基流动无需租用云资源并下载模型,潞晨科技则选择了开展算力租赁业务,在此基础上辅助模型训练、微调、推理加速。

二者做出不同选择的原因为何?分别又是如何在下半场继续扮演好“卖铲人”角色的呢?

站在前人的肩膀上

在分布式深度学习框架的创业领域,真正能够实现突破的团队寥寥无几,袁进辉和尤洋可以说是最早出发的那一批人。

2016年,尤洋开始涉足分布式计算领域,当时,业界主流还集中在异步计算的分布式技术上。

同在这一年,袁进辉也在与圈内人讨论时提到,当深度学习模型的参数变得越来越大后,模型的训练就不是TensorFlow、MXNet 或 Caffe 等框架能驾驭的。

但那时的 AI 领域还没有出现参数量极大的深度学习模型,所以也有许多人认为这个观点不成立。

2017 年 1 月,袁进辉带着团队正式启程创业,他亲自命名并在北京创办了 OneFlow。

彼时的 OneFlow 重新定义了分布式计算的实现方式,实现了让多卡分布式系统编程变得像单卡一样直观和便捷。

OneFlow 所做的底层框架,虽然 API 与 PyTorch 相同,但底层的算子实现与框架从上到下的每一份代码都是袁进辉带领团队自己写的。

甚至后来在 2022 年,PyTorch 的 DiscreteTensor 在分布式上也借鉴了 OneFlow 的 GlobalTensor。

2022 年Pytorch创始人之一 Soumith Chintala 的推文

时间回到 2020 年6 月,当时,OpenAI 发布了全球规模更大的预训练语言模型 GPT-3,验证了袁进辉早期观点的正确性。

也就是在这年,尤洋带来了潞晨科技的新故事,彼时研究高性能计算的他刚刚从美国加利福尼亚大学伯克利分校毕业并获得博士学位。

而面对 GPT-3 的出世,尤洋也有一种预判——未来大模型很重要,限制大模型在各行业落地的难点肯定是计算成本。他也因此萌生了开展大模型相关创业的想法。

直到 2021 年,尤洋的这一想法才正式落地。7 月,他创办了潞晨科技,并带领团队进一步推动了分布式计算的边界。

不同于袁进辉从头自研框架的思路,同样瞄准加速计算赛道,尤洋带领的潞晨科技则选择了直接基于 PyTorch 打造大模型训练推理加速系统 Colossal-AI。

分布底层的 API 调用也是 PyTorch,尤洋及其团队所做的主要是将上层的算子重写并优化通信效率及显存占用,让分布式计算更加高效和易于使用。

基于此,Colossal-AI 系统提供统一的并行训练推理系统,以帮助开发者实现数据并行、管道并行、张量并行和序列并行等多种并行技术的无缝集成。

相当于站在前人肩膀上,潞晨科技在 PyTorch 基础上重新实现了分布式,所做的内容也更贴近开源社区。

对于其中缘由,尤洋曾经向 AI 科技评论解释称,“一方面,把开源社区做好,确实创造了更大的价值,即使免费也有很多人用;另一方面,公司最终肯定是想上市的,本质上 AI 在 To B 方面最核心的竞争力是要和用户建立强信任绑定关系。”

而 PyTorch 的大众化程度,也使得潞晨科技更易于被接受,与之相比,OneFlow 则较为小众,吸引开发者的难度相对较高,就此形成了二者早期的差异。

最终,OneFlow 在取代 PyTorch 的“擂台赛”中,还是“输”在了生态上。

“有亮点但不足以扭转局面。”袁进辉曾这样评价,“ PyTorch 生态和上下游完备,综合来说,肯定是基于 PyTorch 去做事情,更有利于产品的推广。”

除此之外,也有业内人士告诉 AI 科技评论,“OneFlow 不依赖开源社区,很多基座都是自己做的,所以很多公司如果模型是用 PyTorch 写的,就不太可能会用 OneFlow,除非 OneFlow 跟这家公司或者其他大厂合作。”。

尽管如此,袁进辉仍旧十分乐观:“虽然工业标准没有弄成 PyTorch 的标准地位,但还是把技术的一个无人区、没人探索的东西提前好几年做了,后面也变成真正流行开来。”

归根到底,技术是“敲门砖”,二者的技术实力都毋庸置疑。

但是,有技术远远不够,如何盈利同样关键,而这也是 AI 赛道一众创业公司最难解的“题”。

2020年,在 OneFlow 时期,袁进辉带领团队做过很多尝试——推出过大规模模型训练开源工具箱 Libai(李白)等产品,做过面向领域的加速方案,也有如 AI 开发平台 OneBrain 等产品。

此后,好不容易找到突破口,却因缺少条件或错过时间点,使得推广困难、商业化步伐缓慢。最终,OneFlow 还是没能形成收入。

时间来到 2021 年,这一年, 是 AI Infra 和开源投资的热潮期,高瓴资本也在这时投资了 OneFlow,袁进辉却并未多拿钱,他还是希望先精进好技术后再融资。

但是,机会不等人,待到次年技术足够耀眼时,资本却先一步冷静下来了。实力之上,袁进辉终究缺了点运气。

2023 年,随着 ChatGPT 的横空出世,“百模大战”打响之一枪。而由于大模型有一定门槛,袁进辉在综合考虑资金、资源整合和商业化问题后,选择了和王慧文合作,OneFlow 并入光年之外。

他们二人并肩作战的时日也并不长,同年,光年之外被美团收购,坚定创业理想的袁进辉则选择了出走另起炉灶。

谈及其中缘由,袁进辉曾反思道,“技术上的好奇心在 OneFlow 时期已满足,还未满足的、未完成的愿望追求主要是商业层面。作为一个创业公司,本质上最终要看商业成功,还是要让客户用真金白银来投票。”

于是,他带着商业理想再出发,今年初,硅基流动(SilliconFlow)正式成立。

同样是在 2023 年,潞晨科技的商业化情况却比 OneFlow 要理想许多。

“Colossal-AI 训练大模型的路线已经在挣钱,”尤洋此前向 AI 科技评论透露,“现在我们已经有很多世界 500 强、2000 强的客户,包括国内这几家创业公司都是我们的潜在客户,像阿里通义千问、百度文心一言、MiniMax 可能都用过 Colossal-AI 了。”

潞晨科技此前为什么能盈利?原因有两点。“一是潞晨的价格比其他公司便宜,二是潞晨不单单提供大模型的构建能力,还提供底层 AI Infra 的训练能力。”知情人士向 AI 科技评论分析。

下半场的发展机遇

发展至今,“百模大战”已然步入下半场,但软件在中国的商业化依旧是行业待解的“难题”。

不过,袁进辉始终抱着乐观的心态:国内软件商业化的道路并非不存在,只是现在还没有人摸索出来一条清晰可行的路径。

目前,从行业共识上来看,基于软件做产品和商业模式上的探索,需要将软件和用户不得不付费的东西结合在一起才可行。

基于此,训推一体机和将软件与云、算力绑定两种方式,成为了硅基和潞晨不约而同的选择。

一体机的路线已经被验证过,是行得通的。

就当下情况来看,在国内如若只卖“铲子”,很多厂商不会买账,更好的解法便是将训练与推理做成一整套工具箱,再配合大模型去卖。

国内客户偏好为软硬一体付费,沿着这条路径比单卖软件情况会好一些,虽然从整体毛利来看,硬件占比居多,但对软件的售卖是有益的。

这也同潞晨科技的转型思路不谋而合——仅靠单一的训练工具提供,就算性能再强大也不足以站稳脚跟,去年底,潞晨也尝试推出了训推大模型一体机,为客户提供整体的大模型训推方案。

值得一提的是,乘着 Sora 的“东风”,潞晨科技进一步拓展了业务版图,正式入局了文生视频大模型。

今年3月,潞晨科技宣布推出开源类 Sora 架构多模态视频模型——Open-Sora,一经推出便得到业内诸多关注,抢占 *** 市场热度。

据其称,Open-Sora 能够降低 46% 复现成本,并将模型训练输入序列长度扩充至 819K patches。

7 月,Open-Sora 最新开源的 1.2 版本已经可以单镜头生成最长 16s 的 720p 视频。

为了与 Open-Sora 实现交互,潞晨科技还提供了可以自行一键部署的 Gradio 应用。Gradio 作为一个 Python 包,允许开发者通过定义模型的输入和输出,自动生成一个网页界面。

潞晨科技推出的 Open-Sora

英雄所见略同,硅基流动也入局了一体机。

不过,在方式上还是和潞晨科技存在些许差异。硅基流动在大方向上的选择相对容易——直接和他人合作做一体机,主打在服务器厂商做一体机时,将产品集成进去再让厂商付费。

同时,硅基流动本身也还未公开推出过大模型。

袁进辉曾向 AI 科技评论分析,“现在模型逐渐收敛,其实大家的模型结构几乎一样了,所以我们的新业务不追求非常通用的模型,重点就是支持经济价值、商业价值更大的模型。”

在大模型 API 云服务平台 SiliconCloud 上,其文生视频所采用的是智谱的开源 AI 视频生成模型 CogVideoX-2B。文本对话、文生图、图生图等其他多种功能,也均采用包括Llama3.1、 Qwen2、GLM4、DeepSeek、Flux.1、SDXL、PhotoMaker 等在内的主流模型。

SiliconCloud 文生视频功能页

这也是硅基流动基于云实现盈利的一套思路——推出大模型 API 按需付费的模式,无需租用云资源并下载模型而直接使用 SIliconCloud API,助力开发者加速开发生成式 AI 应用。

目前,海外各个 AI Infra 公司都能够通过云来盈利,照观国内,这条路径也存在一定可行性。

无论是在公有云还是私有云上,一切都与算力挂钩,所有做产品或应用的客户都要为 GPU、算力、云付费,因此可以把软件和云或算力打包,以服务费用的形式盈利。

沿着这条路径走,潞晨科技旗下的云平台——潞晨云(https://cloud.luchentech.com),则选择了开展算力租赁业务,在此基础上辅助模型训练、微调、推理加速。

潞晨云所提供的服务

止于此不难发现,前述解法的核心均是推理引擎。

当前,训练的“天花板”在整个行业的推动下已经明确,而推理的实际水平与理论水平间仍存有较大差距。

举例来讲,大模型训练的算力利用率MFU理论上最多为 60% 左右,而当前英伟达等企业通过联合优化,能实现 40%~50%,可提升空间仅剩下 10%~20% ,但推理的提升空间至少是十倍。

从成本方面考虑,训练大模型在资金、GPU 等方面的高门槛,让对口的公司屈指可数,并且客户集中、议价能力很强,创业公司的商业化并不好做。与之相比,有庞大的算力不是进入推理Infra领域的前提条件。

此外,训练有阶段性限制,数据集较为固定,而推理具有持续性,服务上线后数据是无止境的,只要用户使用便不会停止。以 OpenAI 为例,在推理阶段,其一天能生成 1-2 万亿 tokens,一周生成的数据量就能超过训练的数据量。

最关键的一点在于,想用大模型不一定要训练,但都要推理,这意味着推理的市场更分散、更大。

而在推理需求逐步上升的当下,纵观全球,较为主流的推理引擎包括英伟达的 TensorRT-LLM 和伯克利大学开源的 vLLM 两种,海外许多 AI Infra 公司都在二者的基础上进行优化。

潞晨科技坚持早期聚焦训练时期的创新思路,选择了基于 Colossal-AI 框架进行研发迭代。今年 5 月,其开源了针对最新 LLaMA-3 模型的推理加速方案,对比主流 vLLM 框架吞吐量可以提高 40% 以上。

除文本生成模型外,Colossal-AI 的推理框架还支持了包括Stable Diffusion3在内的多种图像生成模型的优化。硅基流动则在挑战框架大厂方面“野心”尚存。

区别于 OneFlow 时期以通用训练框架为主,服务深度模型的生产,硅基流动将重心放置在推理层,服务大模型应用。其所推出的推理框架 SiliconLLM 作为从头搭建的第三套系统,完全独立于 vLLM 和 TensorRT-LLM 两个主流框架之外。

硅基流动官网 SiliconLLM 与 vLLM 和 TensorRT-LLM 的性能比较

对此,袁进辉曾经在采访中坦言,“推理框架是兵家必争之地,大家都有掌控它的愿望。在做硅基流动之前,我们的竞争对手就是这些搞框架的大厂。”

而现阶段,如若要抢占推理市场,先在海外打响名堂则是硅基流动综合判断后的之一选择。

对比 OneFlow 最初便开源,硅基流动在开源版之外,推出了付费版本以实现收费方面的突破。

早期,硅基流动主要推广大模型推理引擎,由于海外的付费习惯、商业模式都较为成熟,推广也相对更容易。

在海外,已经有了一套为订阅软件付费的成熟 *** :用户通过信用卡每个月缴费后,后台系统就会自动发送软件,告知如何进行后续操作下载安装。在国内与客户合作却只能走不可持续的项目制。

而国内的付费习惯则受到会计体系的影响,企业很难给无实体的软件定价——国内财务做预算制,会采购固定资产,而软件通常作为服务而非固定资产。

同时,国内即便是市场化的企业,也更倾向于提前定价,偏好一次性买断。海外则不习惯预付,更偏向于“用一付一”。

此外,国内由渠道决定销售,仅做出引擎还不够,得是产品形态,所以在国内需要消耗产品商业化探索的资源。而海外优先考虑产品力,做出全球有竞争力的产品在海外就能卖。

对于硅基流动而言,初期形成商业闭环,见效比较快的也是海外,过去已经把模式走通了。

“现在几乎每天都有老外的邮件过来洽谈,网站解释了是怎么收费的,但还是有其他问题需要洽谈,他们也会问愿不愿意用其他方式,总之合作挺多。”袁进辉曾对 AI 科技评论介绍。

但是,开拓海外市场也意味着要有比在国内更强的竞争力,是机遇,也是挑战——美国在 AI Infra 的每个细分赛道都有非常强势的公司,移动端部署有 AutoML、云端推理服务有 TogetherAI、FireworksAI、编译器有 ModularML 和 TVM、硬件加速有各种不同的 MPO 公司。

单就推理框架方向来看,也需要与包括陈天奇的 OctoAI 、贾扬清的 Lepton AI 等在内的一众创业公司展开竞争。

近期,在海外跑出名堂后,硅基流动也优先在国内上线了 SiliConCloud(https://siliconflow.cn/siliconcloud),并且收获了较为不错的增长势头,日Token生成量达上百亿,目前已在海外“登陆”。

而对于潞晨科技而言,一直以来都主要采取对海内外业务场景因地制宜、同步发展的战略,在国内外积累核心客户案例和用户口碑。

首先,基于开源社区被动获客的性质,潞晨科技在海外不太需要主动拓展市场,当前在中国、欧美、中东以及东南亚都有客户。

从国内来看,潞晨科技目前以传统行业客户为主。在尤洋看来,传统的车厂、药厂、石油公司、金融机构是有长期付费意愿的。最终,AI 要实现落地,传统行业是不可或缺的应用场景。

去年底开始,潞晨科技也与华为达成了合作。

今年 2 月,二者正式合力推出⼀体化的 AI 开发和部署平台——ColossalAI Platform 以及潞晨昇腾训推一体机,以赋能传统企业在本地通过私有数据训练、微调私有垂类大模型。

根据潞晨官方测试,ColossalAI Platform 能辅助大模型预训练成本降低 50%,基础设施成本降低10倍,硬件需求成本降低10倍,项目上线时间缩短10倍。雷峰网雷峰网(公众号:雷峰网)