在追求构建更强大人工智能(AI)模型的当下,一般的通用芯片已难以支撑,行业对人工智能芯片的需求显著增长。在AI芯片领域,有英伟达(NVIDIA)、超威半导体(AMD)、英特尔(Intel)等耳熟能详的大公司持续深耕,也有Groq、SambaNova Systems、Cerebras Systems等后起之秀雨后春笋般涌出。AI势头正盛,未来AI芯片领域中,谁能跻身前列?雷峰网根据行业现有报告,梳理目前顶尖的AI硬件公司,回顾其发展动态。
主要的芯片领导者
1.英伟达NVIDIA
受益于生成式AI市场的爆发,英伟达成了数据中心人工智能芯片领域霸主——据统计,英伟达目前在数据中心AI市场拥有98%的市场份额,相比之下,AMD仅有1.2%的市场份额,英特尔则只有不到1%,英伟达的领导者地位毋庸置疑。
1990年代以来,英伟达一直在为游戏领域生产图形处理单元(GPU),PlayStation3和Xbox都使用英伟达的视频图形阵列。同时,英伟达也生产Volta、Xavier和Tesla等人工智能芯片,其芯片组旨在解决各行业的业务问题。例如,Xavier是自动驾驶解决方案的基础,Volta则是针对数据中心;而DGX™A100和H100是英伟达成功的旗舰AI芯片,专为数据中心的AI训练和推理而设计。目前为止,英伟达发布了H200、B200和GB200芯片,HGX服务器(如结合了8个此类芯片的HGX H200和HGX B200);将更多芯片组合成大型丛集的NVL系列和GB200 SuperPod。
不过,需指出的是,由于英伟达的AI芯片价格高昂,且存在供应不足的问题,部分客户也希望选择其他替代产品。
而在云端GPU上,英伟达也几乎处于垄断地位,大多数云端厂商只将英伟达GPU作为云端GPU。英伟达也推出了DGX Cloud产品,直接向企业提供云端的GPU基础架构。
近年来,国内厂商华为海思、景嘉微、海光信息、寒武纪、芯原股份、龙芯中科等,也在加速GPU领域的研发。
2、超威半导体(AMD)
AMD是一家拥有CPU、GPU和AI加速器产品的芯片制造商。在ChatGPT引发生成式AI热潮后,人们对英伟达AI硬件的需求迅速增加,导致其采购更难。在2023年开始,有初创公司、研究机构、企业和科技巨头开始采用AMD硬件。
2023年底,AMD发布了新一代AI/HPC专用加速器Instinct MI300系列,包括纯GPU设计的MI300X、CPU+GPU融合设计的MI300A,全面对标英伟达H100系列。由于AI算力需求激增,MI300销量增长迅速,在2024年二季度的收入超过10亿美元,成为AMD有史以来增长速度最快的产品。
据悉,AMD将发布MI350系列来取代MI300,并与英伟达的H200竞争。此外,Instinct MI325X预计于2024年第四季度发货,与H200的大规模交付仅相差一个季度——AMD表示,在运行Llama 3.1 和Mixtral 等大型AI模型时,MI325X的推理性能会比现有市场领先者H200高出20%至40%。
AMD也与HuggingFace等机器学习公司合作,使数据科学家能更有效地使用他们的硬件。不过,开发硬件的同时,软件生态系统也至关重要,因硬件效能很大程度上依赖软件优化。例如,AMD和英伟达在H100和MI300基准测试上存在公开分歧,分歧焦点是基准测试中使用的包和浮点数。根据最新的基准测试,对于70B LLM的推理,MI300似乎更好、或与H100相当。
3.英特尔Intel
英特尔是CPU市场更大的厂商,拥有悠久的半导体开发历史。2017年,英特尔成为全球之一家销售额突破10亿美元大关的AI芯片公司。
英特尔的至强CPU适用于各种工作,包括数据中心的处理,对其商业成功产生了影响。在2024年9月底,英特尔发布了新一代至强6性能核处理器,代号Granite Ridge,专为满足AI、数据分析、科学计算等计算密集型业务的需求而设计。据官方数据,与第五代至强相比,至强6处理器拥有多达2倍的每路核心数,平均单核性能提升高达1.2倍,平均每瓦性能提升高达1.6倍。
此外,Gaudi3是英特尔最新的AI加速器处理器,英特尔称其比英伟达的H100 GPU更快、更有效率,在训练大语言模型方面比H100快1.7倍,并且,Gaudi3的成本预算远比H100低。不过,自2024年4月公开发布以来,目前对Gaudi3性能的基准测试仍较有限。
生产AI芯片的公共云提供商
4.AWS
AWS生产用于模型训练的Tranium芯片和用于推理的Inferentia芯片。在2024年12月,AWS宣布Trainium2正式可用,其性能比之一代产品提升4倍,能在极短的时间内训练基础模型和大语言模型,且能源效率提升多达2倍。AWS将推出一款由数十万颗自研Trainium芯片组成的巨型人工智能超级计算机。苹果也会成为其最新的芯片客户之一。
雷峰网还了解到,在全球云计算服务市场中,AWS独占近半壁江山。根据2022年的统计,AWS占据全球IaaS市场份额的40%。不过,AWS是在谷歌之后才开始构建自己的芯片。
5.谷歌云平台
TPU是谷歌推出的神经 *** 专用芯片,为优化自身的TensorFlow机器学习框架而打造。其Google Cloud TPU为翻译、照片、搜索、助手和Gmail 等产品提供支持,也可以通过Google Cloud使用。
谷歌在2016年发布了TPU,在2024年推出第六代TPU:Trillium。谷歌表示,Trillium TPU每一晶片峰值计算效能提升了4.7 倍,是“相当惊人的表现”,且Trillium TPU可以更快速地训练下一代基础模型,以较短的延迟时间与较低成本提供模型服务。谷歌亦强调这一产品的永续特质:与TPU v5e相比,Trillium TPU的能源效率高出67%。
除此之外,Edge TPU是谷歌Alphabet的另一款加速器芯片,它适用于多种设备类型的原型设计和生产设备,比一分硬币还小,专为智能手机、平板电脑和物联网设备等边缘设备而设计。
6.阿里巴巴
阿里巴巴于2019年发布了首款AI芯片“含光800”,这款云端AI芯片是当时全球更高性能的AI推理芯片,主要应用于视觉场景。据悉,其基于12nm工艺与自研架构,集成了170亿晶体管,性能峰值算力达820 TOPS。在业界标准的ResNet-50测试中,推理性能达到78563 IPS,比当时业界更好的AI芯片性能高出四倍;能效比达500 IPS/W,是第二名的3.3倍。
7.IBM
IBM于2022年发布其最新的深度学习芯片——人工智能单元(AIU)。IBM表示,这是其之一个完整的系统单芯片,旨在比通用CPU更快、更有效率地运行和训练深度学习模型。IBM正在考虑使用这些芯片为其生成式AI平台watson.x提供支持。
AIU基于“IBM Telum处理器”构建,该处理器为IBM Z大型机服务器的AI处理功能提供支持。Telum处理器推出时的突出用例包括欺诈检测等。IBM还展示了合并计算和内存可以提高效率,并在North Pole处理器原型中得到演示。
领先的AI芯片初创公司
一些AI芯片行业的初创公司尽管才刚刚成立,却已经筹集了数百万美元,未来我们可能会更频繁听到它们的名字。
8.Groq
Groq由谷歌前员工创立。其自研的LPU(语言处理器),旨在以前所未有的速度加速AI模型。在2024年,Groq凭借自研的硬件加速器LPU,达成了500个token/s的神级推理速度,秒杀ChatGPT。行内人士认为,Groq代表了可用速度的一步变化,为LLM提供了新的用例。Groq创始人表示,Groq的存在是为了消除“贫富差距”,帮助AI社区中的每个人蓬勃发展。
Groq专注于LLM推理,并发布了Llama-270B的基准测试。2024年之一季度,该公司表示,有7万名开发人员在其云平台上注册并构建了1.9万个新应用程序。而早在2022年3月1日,Groq收购了Maxeler,后者为金融服务提供高性能计算(HPC)解决方案。Groq已经筹集了约3.5亿美元,并生产了GroqChip™处理器、GroqCard™加速器等。
9.SambaNova Systems
SambaNova Systems成立于2017年,旨在为大量生成式AI工作负载开发高性能、高精度硬件软件系统。该公司开发了全球首款面向万亿参数规模AI模型的AI芯片系统——基于可重构数据流单元 (RDU) 的AI芯片SN40L。据悉,该芯片专门为运行企业应用程序的大型语言模型而构建,其设计目标是能承载ChatGPT高级版本两倍容量以上的大模型,可为一个拥有5万亿个参数的模型提供服务。对比英伟达的H100芯片,SN40L不仅推理性能达到了H100的3.1倍,在训练性能也达到了H100的2倍,而总拥有成本更仅有其1/10。
不仅如此,SambaNova Systems还将其平台出租给企业。SambaNova的人工智能平台即服务方式,使其系统更易于采用,并鼓励硬件重复使用以实现循环经济。该公司也已筹集了超过11亿美元的资金。
10.Cerebras Systems
Cerebras Systems成立于2015年,推动了芯片设计领域的一场革命——将整片晶圆制成一个巨大的芯片。其于2019年推出的WSE-1,具有1.2万亿个晶体管和40万个处理核心,可同时专注于AI和HPC(高性能计算机群)的工作负载。
而在2021年,Cerebras推出专为超级计算机任务打造的Wafer Scale Engine 2(WSE-2),为当时全球更大AI芯片。与其之前推出的WSE-1相比,WSE-2在面积上没有变化,但拥有创纪录的2.6万亿个晶体管以及85万个AI优化核,其芯片的所有性能特征,均比一代增加了一倍以上。2024年3月,Cerebras发布拥有4万亿个晶体管和90万个AI核心的WSE-3,将用于训练一些业界更大的人工智能模型,理论上能训练多达24万亿个参数的AI模型。WSE-3采用台积电先进的5纳米工艺技术,将其现有最快AI芯片的世界纪录提升了一倍。
雷峰网(公众号:雷峰网)了解到,Cerebras的系统还与阿斯利康和葛兰素史克等制药公司及研究实验室合作,如利用生物数据集训练大规模的语言模型,能显著缩短AI模型训练时间、加快研发进程,对新药的发现和开发具有重要意义。
11.Etched
他们选择为了效率而牺牲了灵活性——将变压器架构刻录到芯片中。
Etched宣布推出一款针对Transformer架构专用的ASIC芯片“Sohu”。据称,8个Sohu芯片每秒可以生成500,000个token,远超过配备8张英伟达最新的B200 GPU加速卡的服务器约10倍,其AI性能达到英伟达H100的20倍——这也意味着Sohu芯片将可以大幅降低现有AI数据中心的采购成本和安装成本。
不过,目前,这些都是基于团队的内部测量,许多问题还没有得到解答:模型过时时如何处置?用户是否需要购买新芯片,还是旧芯片可以用下一个模型重新配置?他们如何运行基准测试,使用了哪种量化和模型?此外,考虑到每隔几个月就会发布新模型,将模型刻录到芯片中的做法是否可持续,这一答案也令人期待。
12.Tenstorrent
Tenstorrent生产高性能AI芯片Wormhole芯片,可扩展且成本效益高;还有供研究人员使用的台式机和由Wormhole芯片驱动的服务器(例如Tenstorrent Galaxy)。该公司还为其解决方案提供软件栈。据悉,Tenstorrent于2024年12月从包括杰夫·贝佐斯(Jeff Bezos)在内的投资者那里筹集了7亿美元,估值超过26亿美元。
即将到来的AI硬件生产商有哪些?
还有一些引人注目的AI硬件解决方案,但由于它们是市场新手,目前对其有效性的基准测试有限。
苹果作为一家主要的芯片设计商,也在自研数据中心AI芯片——项目名为ACDC。据称,该公司正在与台积电合作设计和生产这些人工智能芯片。这些服务器芯片的主要焦点可能是AI推理,其中涉及经过训练的机器学习模型从新数据中得出结论。而就在2024年12月底,有消息称苹果正与博通合作开发AI芯片,是其首个专为人工智能设计的服务器芯片,或为行业带来更深刻的变革。
Meta也努力想在生成式AI领域赶上竞争对手。在英特尔宣布其最新AI加速器硬件的第二天,Meta公布其芯片研发的最新成果:下一代 MTIA(Meta Training and Inference Accelerator),MTIA是专为Meta AI工作负载而设计的定制芯片系列。据悉,下一代MTIA基于台积电5nm技术,据称与MTIAv1相比性能提高了3倍。MTIA目前供Meta内部使用,但未来如果Meta推出基于LLaMa的企业生成AI产品,这些芯片可以为此类产品提供支持。
此外,微软于2023年11月推出Maia AI加速器。还有总部位于韩国的初创公司Rebellions在2024年筹集了1.24亿美元,专注于LLM推理。
还有一些AI芯片生产商 ,如Graphcore,一家成立于2016年的英国公司,已发布其旗舰AI芯片IPU-POD256,能提供64 petaFLOPS的AI计算。该公司已获得了约7亿美元的融资,与DDN、Pure Storage和Vast Data等数据存储公司建立了战略合作伙伴关系,其AI芯片服务于牛津大学OMI量化金融研究院、布里斯托大学和加州大学伯克利分校等研究机构。不过,该公司的长期生存能力面临风险,因其每年亏损约2亿美元,2024年10月,软银(Softbank)以多于6亿美元的价格收购了它。
而成立于2012年、专注于边缘AI的Mythic,走的是一条非常规的路线——模拟计算架构,旨在提供节能的边缘AI计算。它推出了模拟计算引擎(ACE)M1076 AMP、MM1076 key card等产品,并已筹集了约1.65亿美元的资金。不过,Mythic在2023年3月的融资中解雇了大部分员工并重组了业务。
同时,OpenAI也在筹集资金打造自己的AI硬件。
发表评论