自研芯片公司：英伟达在前，其余公司能否望其项背？

在追求构建更强大人工智能（AI）模型的当下，一般的通用芯片已难以支撑，行业对人工智能芯片的需求显著增长。在AI芯片领域，有英伟达（NVIDIA）、超威半导体（AMD）、英特尔（Intel）等耳熟能详的大公司持续深耕，也有Groq、SambaNova Systems、Cerebras Systems等后起之秀雨后春笋般涌出。AI势头正盛，未来AI芯片领域中，谁能跻身前列？雷峰网根据行业现有报告，梳理目前顶尖的AI硬件公司，回顾其发展动态。

主要的芯片领导者

1.英伟达NVIDIA

受益于生成式AI市场的爆发，英伟达成了数据中心人工智能芯片领域霸主——据统计，英伟达目前在数据中心AI市场拥有98%的市场份额，相比之下，AMD仅有1.2%的市场份额，英特尔则只有不到1%，英伟达的领导者地位毋庸置疑。

1990年代以来，英伟达一直在为游戏领域生产图形处理单元(GPU)，PlayStation3和Xbox都使用英伟达的视频图形阵列。同时，英伟达也生产Volta、Xavier和Tesla等人工智能芯片，其芯片组旨在解决各行业的业务问题。例如，Xavier是自动驾驶解决方案的基础，Volta则是针对数据中心；而DGX™A100和H100是英伟达成功的旗舰AI芯片，专为数据中心的AI训练和推理而设计。目前为止，英伟达发布了H200、B200和GB200芯片，HGX服务器（如结合了8个此类芯片的HGX H200和HGX B200）；将更多芯片组合成大型丛集的NVL系列和GB200 SuperPod。

不过，需指出的是，由于英伟达的AI芯片价格高昂，且存在供应不足的问题，部分客户也希望选择其他替代产品。

而在云端GPU上，英伟达也几乎处于垄断地位，大多数云端厂商只将英伟达GPU作为云端GPU。英伟达也推出了DGX Cloud产品，直接向企业提供云端的GPU基础架构。

近年来，国内厂商华为海思、景嘉微、海光信息、寒武纪、芯原股份、龙芯中科等，也在加速GPU领域的研发。

2、超威半导体（AMD）

AMD是一家拥有CPU、GPU和AI加速器产品的芯片制造商。在ChatGPT引发生成式AI热潮后，人们对英伟达AI硬件的需求迅速增加，导致其采购更难。在2023年开始，有初创公司、研究机构、企业和科技巨头开始采用AMD硬件。

2023年底，AMD发布了新一代AI/HPC专用加速器Instinct MI300系列，包括纯GPU设计的MI300X、CPU+GPU融合设计的MI300A，全面对标英伟达H100系列。由于AI算力需求激增，MI300销量增长迅速，在2024年二季度的收入超过10亿美元，成为AMD有史以来增长速度最快的产品。

据悉，AMD将发布MI350系列来取代MI300，并与英伟达的H200竞争。此外，Instinct MI325X预计于2024年第四季度发货，与H200的大规模交付仅相差一个季度——AMD表示，在运行Llama 3.1 和Mixtral 等大型AI模型时，MI325X的推理性能会比现有市场领先者H200高出20%至40%。

AMD也与HuggingFace等机器学习公司合作，使数据科学家能更有效地使用他们的硬件。不过，开发硬件的同时，软件生态系统也至关重要，因硬件效能很大程度上依赖软件优化。例如，AMD和英伟达在H100和MI300基准测试上存在公开分歧，分歧焦点是基准测试中使用的包和浮点数。根据最新的基准测试，对于70B LLM的推理，MI300似乎更好、或与H100相当。

3.英特尔Intel

英特尔是CPU市场更大的厂商，拥有悠久的半导体开发历史。2017年，英特尔成为全球之一家销售额突破10亿美元大关的AI芯片公司。

英特尔的至强CPU适用于各种工作，包括数据中心的处理，对其商业成功产生了影响。在2024年9月底，英特尔发布了新一代至强6性能核处理器，代号Granite Ridge，专为满足AI、数据分析、科学计算等计算密集型业务的需求而设计。据官方数据，与第五代至强相比，至强6处理器拥有多达2倍的每路核心数，平均单核性能提升高达1.2倍，平均每瓦性能提升高达1.6倍。

此外，Gaudi3是英特尔最新的AI加速器处理器，英特尔称其比英伟达的H100 GPU更快、更有效率，在训练大语言模型方面比H100快1.7倍，并且，Gaudi3的成本预算远比H100低。不过，自2024年4月公开发布以来，目前对Gaudi3性能的基准测试仍较有限。

生产AI芯片的公共云提供商

4.AWS

AWS生产用于模型训练的Tranium芯片和用于推理的Inferentia芯片。在2024年12月，AWS宣布Trainium2正式可用，其性能比之一代产品提升4倍，能在极短的时间内训练基础模型和大语言模型，且能源效率提升多达2倍。AWS将推出一款由数十万颗自研Trainium芯片组成的巨型人工智能超级计算机。苹果也会成为其最新的芯片客户之一。

雷峰网还了解到，在全球云计算服务市场中，AWS独占近半壁江山。根据2022年的统计，AWS占据全球IaaS市场份额的40%。不过，AWS是在谷歌之后才开始构建自己的芯片。

5.谷歌云平台

TPU是谷歌推出的神经 *** 专用芯片，为优化自身的TensorFlow机器学习框架而打造。其Google Cloud TPU为翻译、照片、搜索、助手和Gmail 等产品提供支持，也可以通过Google Cloud使用。

谷歌在2016年发布了TPU，在2024年推出第六代TPU：Trillium。谷歌表示，Trillium TPU每一晶片峰值计算效能提升了4.7 倍，是“相当惊人的表现”，且Trillium TPU可以更快速地训练下一代基础模型，以较短的延迟时间与较低成本提供模型服务。谷歌亦强调这一产品的永续特质：与TPU v5e相比，Trillium TPU的能源效率高出67%。

除此之外，Edge TPU是谷歌Alphabet的另一款加速器芯片，它适用于多种设备类型的原型设计和生产设备，比一分硬币还小，专为智能手机、平板电脑和物联网设备等边缘设备而设计。

6.阿里巴巴

阿里巴巴于2019年发布了首款AI芯片“含光800”，这款云端AI芯片是当时全球更高性能的AI推理芯片，主要应用于视觉场景。据悉，其基于12nm工艺与自研架构，集成了170亿晶体管，性能峰值算力达820 TOPS。在业界标准的ResNet-50测试中，推理性能达到78563 IPS，比当时业界更好的AI芯片性能高出四倍；能效比达500 IPS/W，是第二名的3.3倍。

7.IBM

IBM于2022年发布其最新的深度学习芯片——人工智能单元(AIU)。IBM表示，这是其之一个完整的系统单芯片，旨在比通用CPU更快、更有效率地运行和训练深度学习模型。IBM正在考虑使用这些芯片为其生成式AI平台watson.x提供支持。

AIU基于“IBM Telum处理器”构建，该处理器为IBM Z大型机服务器的AI处理功能提供支持。Telum处理器推出时的突出用例包括欺诈检测等。IBM还展示了合并计算和内存可以提高效率，并在North Pole处理器原型中得到演示。

领先的AI芯片初创公司

一些AI芯片行业的初创公司尽管才刚刚成立，却已经筹集了数百万美元，未来我们可能会更频繁听到它们的名字。

8.Groq

Groq由谷歌前员工创立。其自研的LPU（语言处理器），旨在以前所未有的速度加速AI模型。在2024年，Groq凭借自研的硬件加速器LPU，达成了500个token/s的神级推理速度，秒杀ChatGPT。行内人士认为，Groq代表了可用速度的一步变化，为LLM提供了新的用例。Groq创始人表示，Groq的存在是为了消除“贫富差距”，帮助AI社区中的每个人蓬勃发展。

Groq专注于LLM推理，并发布了Llama-270B的基准测试。2024年之一季度，该公司表示，有7万名开发人员在其云平台上注册并构建了1.9万个新应用程序。而早在2022年3月1日，Groq收购了Maxeler，后者为金融服务提供高性能计算(HPC)解决方案。Groq已经筹集了约3.5亿美元，并生产了GroqChip™处理器、GroqCard™加速器等。

9.SambaNova Systems

SambaNova Systems成立于2017年，旨在为大量生成式AI工作负载开发高性能、高精度硬件软件系统。该公司开发了全球首款面向万亿参数规模AI模型的AI芯片系统——基于可重构数据流单元 (RDU) 的AI芯片SN40L。据悉，该芯片专门为运行企业应用程序的大型语言模型而构建，其设计目标是能承载ChatGPT高级版本两倍容量以上的大模型，可为一个拥有5万亿个参数的模型提供服务。对比英伟达的H100芯片，SN40L不仅推理性能达到了H100的3.1倍，在训练性能也达到了H100的2倍，而总拥有成本更仅有其1/10。

不仅如此，SambaNova Systems还将其平台出租给企业。SambaNova的人工智能平台即服务方式，使其系统更易于采用，并鼓励硬件重复使用以实现循环经济。该公司也已筹集了超过11亿美元的资金。

10.Cerebras Systems

Cerebras Systems成立于2015年，推动了芯片设计领域的一场革命——将整片晶圆制成一个巨大的芯片。其于2019年推出的WSE-1，具有1.2万亿个晶体管和40万个处理核心，可同时专注于AI和HPC（高性能计算机群）的工作负载。

而在2021年，Cerebras推出专为超级计算机任务打造的Wafer Scale Engine 2（WSE-2），为当时全球更大AI芯片。与其之前推出的WSE-1相比，WSE-2在面积上没有变化，但拥有创纪录的2.6万亿个晶体管以及85万个AI优化核，其芯片的所有性能特征，均比一代增加了一倍以上。2024年3月，Cerebras发布拥有4万亿个晶体管和90万个AI核心的WSE-3，将用于训练一些业界更大的人工智能模型，理论上能训练多达24万亿个参数的AI模型。WSE-3采用台积电先进的5纳米工艺技术，将其现有最快AI芯片的世界纪录提升了一倍。

雷峰网(公众号：雷峰网)了解到，Cerebras的系统还与阿斯利康和葛兰素史克等制药公司及研究实验室合作，如利用生物数据集训练大规模的语言模型，能显著缩短AI模型训练时间、加快研发进程，对新药的发现和开发具有重要意义。

11.Etched

他们选择为了效率而牺牲了灵活性——将变压器架构刻录到芯片中。

Etched宣布推出一款针对Transformer架构专用的ASIC芯片“Sohu”。据称，8个Sohu芯片每秒可以生成500,000个token，远超过配备8张英伟达最新的B200 GPU加速卡的服务器约10倍，其AI性能达到英伟达H100的20倍——这也意味着Sohu芯片将可以大幅降低现有AI数据中心的采购成本和安装成本。

不过，目前，这些都是基于团队的内部测量，许多问题还没有得到解答：模型过时时如何处置？用户是否需要购买新芯片，还是旧芯片可以用下一个模型重新配置？他们如何运行基准测试，使用了哪种量化和模型？此外，考虑到每隔几个月就会发布新模型，将模型刻录到芯片中的做法是否可持续，这一答案也令人期待。

12.Tenstorrent

Tenstorrent生产高性能AI芯片Wormhole芯片，可扩展且成本效益高；还有供研究人员使用的台式机和由Wormhole芯片驱动的服务器（例如Tenstorrent Galaxy）。该公司还为其解决方案提供软件栈。据悉，Tenstorrent于2024年12月从包括杰夫·贝佐斯(Jeff Bezos)在内的投资者那里筹集了7亿美元，估值超过26亿美元。

即将到来的AI硬件生产商有哪些？

还有一些引人注目的AI硬件解决方案，但由于它们是市场新手，目前对其有效性的基准测试有限。

苹果作为一家主要的芯片设计商，也在自研数据中心AI芯片——项目名为ACDC。据称，该公司正在与台积电合作设计和生产这些人工智能芯片。这些服务器芯片的主要焦点可能是AI推理，其中涉及经过训练的机器学习模型从新数据中得出结论。而就在2024年12月底，有消息称苹果正与博通合作开发AI芯片，是其首个专为人工智能设计的服务器芯片，或为行业带来更深刻的变革。

Meta也努力想在生成式AI领域赶上竞争对手。在英特尔宣布其最新AI加速器硬件的第二天，Meta公布其芯片研发的最新成果：下一代 MTIA（Meta Training and Inference Accelerator），MTIA是专为Meta AI工作负载而设计的定制芯片系列。据悉，下一代MTIA基于台积电5nm技术，据称与MTIAv1相比性能提高了3倍。MTIA目前供Meta内部使用，但未来如果Meta推出基于LLaMa的企业生成AI产品，这些芯片可以为此类产品提供支持。

此外，微软于2023年11月推出Maia AI加速器。还有总部位于韩国的初创公司Rebellions在2024年筹集了1.24亿美元，专注于LLM推理。

还有一些AI芯片生产商，如Graphcore，一家成立于2016年的英国公司，已发布其旗舰AI芯片IPU-POD256，能提供64 petaFLOPS的AI计算。该公司已获得了约7亿美元的融资，与DDN、Pure Storage和Vast Data等数据存储公司建立了战略合作伙伴关系，其AI芯片服务于牛津大学OMI量化金融研究院、布里斯托大学和加州大学伯克利分校等研究机构。不过，该公司的长期生存能力面临风险，因其每年亏损约2亿美元，2024年10月，软银（Softbank）以多于6亿美元的价格收购了它。

而成立于2012年、专注于边缘AI的Mythic，走的是一条非常规的路线——模拟计算架构，旨在提供节能的边缘AI计算。它推出了模拟计算引擎（ACE）M1076 AMP、MM1076 key card等产品，并已筹集了约1.65亿美元的资金。不过，Mythic在2023年3月的融资中解雇了大部分员工并重组了业务。

同时，OpenAI也在筹集资金打造自己的AI硬件。

自研芯片公司：英伟达在前，其余公司能否望其项背？

你可能感兴趣的

发表评论