12月12日,谷歌宣布其第六代TPU(张量处理器),Trillium正式上市。

谷歌「被迫」研发的TPU,引发成千芯片与之竞逐

谷歌计算和人工智能基础设施副总裁兼总经理Mark Lohmeyer表示,谷歌旗下的大模型Gemini 2.0正是采用Trillium进行训练, TPU是Google Cloud AI超级计算(AI Hypercomputer)的关键组件,集成了性能优化后的硬件、开放软件、领先的机器学习框架以及灵活的消费模型。

以色列人工智能公司AI21 Labs的CTO Barak Lenz表示,AI21 Labs是自TPU v4以来的长期用户,Trillium在规模、速度和成本效率方面都取得了显著的进步。

在GPU加速一切的人工智能时代,TPU像极外来物种。毕竟在各大搜索软件里输入关键词“TPU”,前几条结果显示的都是材料学科里的聚氨酯。

TPU因谷歌而出现,TPU市场因谷歌而繁荣。为何研发TPU,以及TPU团队的工程师离开谷歌后如何将行业推向繁荣,背后的故事值得讲述。

谷歌「被迫」研发TPU

2009年,Geoffrey Hinton将深度神经 *** 应用于语音建模,在TIMIT(声学-音素连续语音语料库)上获得当时的更佳成果,深度学习神经 *** 技术在语音识别领域开始大放异彩。

如果说ChatGPT是当下人工智能浪潮的起点,那AlexNet神经 *** 架构的出现就是上一个里程碑。

2012年,Alex Krizhesky、Ilya Sutskever和Hinton提出的AlexNet架构,通过使用GPU构建深度学习模型,刷新当时的图像识别世界纪录,并且准确率达到85%,在当年的ImageNet大赛中一举夺冠。

人工智能在语音和图像识别领域的应用引起了谷歌的关注,毕竟这两个领域与谷歌的核心业务,如搜索、地图、照片和翻译等紧密相关。正值谷歌考虑推出面向全球的语音识别功能之际,研究团队发现需要处理的人工智能计算量将超过其现有的算力。

谷歌首席科学家Jeff Dean在采访时称:“当时,我们粗略地估算了数亿人与谷歌的产品对话会产生多少计算量,结果显示谷歌需要部署多一倍的算力才可以满足这样的需求。”

做为大厂,谷歌天生带有傲性。当时,谷歌团队研究了市面上提供的所有算力解决方案,全部都被高层否决掉。

互联网大爆发使算力需求呈现指数级上升,两个明显的的趋势开始涌现,一是算力使用场景细分化,二是用户对算力的需求不断攀升,传统的通用算力芯片很难再满足一些特定场景的需求。

对专用芯片的投入日益受到关注,开发公司内部的深度学习专用处理器芯片成为谷歌的不二之选。

「出道即巅峰」,首代TPU推理速度为竞品30倍

决策后,是迅速的执行。谷歌挖来惠普智能基础设施实验室高级总监Norm Jouppi、Pacmid的研发负责人Jonathan Ross、Arm架构开发商Calxeda的SoC工程总监Richard Ho以及高通高级工程师Ravi Narayanaswami等一批芯片行业资深从业人员,而这一批人员也勾勒出当下人工智能芯片领域巨头博弈的核心人才画像。

面对全世界更好的工程师,大厂光环和天价薪资略显廉价,真正让这帮人聚在一起的是开发出满足全球人工智能算力需求的解决方案这一愿景。

谷歌云TPU业务创始人Zak Stone称:“2012年,我创立了一家机器学习创业公司,为了以较低的成本获得算力,我的联合创始人会在网上购买二手的游戏GPU,然后在咖啡桌上搭建服务器,一旦我们在运行GPU的时候打开了微波炉,电源就会耗尽。加入谷歌后,我创建了云TPU项目,我知道我们必须把TPU打造成谷歌云的基础设施。”

这也正是谷歌不直接出售TPU,而是通过谷歌云出售TPU算力的原因之一。另一方面,这种做法可以免于搭建供应链和硬件销售团队,节省对陌生业务的投入,同时反哺了谷歌云业务并且提高了硬件产品的保密程度。

从立项到落地,谷歌花了15个月。2015年,谷歌开发出之一代TPU处理器,并开始部署在谷歌的数据中心进行深度学习模型训练。彼时,外界对于谷歌内部的基础设施建设鲜有认知,而事实上,击败棋王李世石的AlphaGo正是由TPU驱动的。

研发TPU的团队负责人Norm Jouppi称:“TPU的设计过程异常迅速,这本身就是一项非凡的成就。更出乎意料的是,首批交付的硅片无需进行任何错误修正以及掩膜的更改,而正在同步进行的还有团队组建,RTL(寄存器传输级)设计专家、验证专家都急需补充,整个工作节奏非常紧张。”

机器学习硬件系统的首席工程师Andy Swing同样表示:“我们原以为TPU的产量不会超过1万颗,但最终生产了超过10万颗,在广告、搜索、语音、AlphaGo甚至自动驾驶等领域被广泛采用。”

TPU跟GPU的核心差异在于,GPU更通用,而TPU则专用于加速机器学习工作负载,是一款ASIC(专用集成电路)芯片。TPU包含数千个乘法累加器,这些累加器直接连接,形成大型物理矩阵,即脉动阵列架构,这样的处理使TPU可以在神经 *** 计算中实现高计算吞吐量。

Google杰出工程师David Patterson称:“TPU就像海伦(希腊神话中最美的女人),它的出现引起了成千芯片与之竞逐。”

首款TPU发布后,英特尔便耗资数十亿美元收购了多家芯片公司。阿里巴巴、亚马逊等公司同样开始研发类似产品。TPU重新唤起了人们对计算机架构的关注,后来的几年内,出现了上百家相关初创企业,年均总融资额近20亿美元,新想法层出不穷。

截至目前,谷歌TPU经历了多次迭代,TPU系列产品的性能也实现了指数级的上升。TPU v1的峰值性能为92 TOPS,1TOPS代表处理器每秒钟可进行1万亿次浮点运算,做为同期的竞品,TPU v1的推理速度比英伟达K80 GPU和英特尔Haswell CPU快15到30倍。TPU v4的峰值性能达到1.1PFLOPS,即每秒进行1100万亿次浮点运算,首次突破每秒千万亿次浮点运算的大关,相较于TPU v1,性能提高了将近12倍。最新发布的Trillium性能为TPU v5e的4.7倍,官方称是迄今为止性能更高、最节能的TPU。

所有这些处理能力还只是开始。

TPU的主要设计师Cliff Young认为,跟上深度学习的发展不仅需要增加用于训练的芯片数量,现有的软硬件架构设计也必须改变,需要运用全新的材料-应用协同设计概念。未来深度学习架构的设计需要包含从物理到应用的各个层面的协同设计,这是打破摩尔定律瓶颈的一种方式,是深度学习发展的新出路。

团队表示:“当时,我们的TPU和Pod设置对建设数据中心能力很有意义,但现在我们正在改变数据中心的设计,以更好地满足需求,当下的解决方案与未来的解决方案将非常不同。忘记单个芯片或单个TPU吧,我们正在构建一个载满TPU的全球数据中心 *** 。未来是全栈定制,从硅到一切。”

TPU梦之队,从「队友到对手」

当下,所有人都在眼红英伟达在人工智能芯片市场占据的市场份额,而TPU让谷歌成为英伟达之外另一个重要的算力供应商。全球超过60%获得融资的生成式AI初创公司和近90%生成式AI独角兽都在使用谷歌Cloud的AI基础设施和Cloud TPU服务,包括Anthropic、Midjourney、Salesforce、Hugging Face和AssemblyAI等企业。

2024年7月,苹果公布其使用了2048片TPUv5p芯片来训练拥有27.3亿参数的设备端模型AFM-on-device,以及使用8192片TPUv4芯片来训练大型服务器端模型AFM-server。

这些数据回答了TPU在人工智能市场里的应用情况,也昭示着这个市场会涌入更大量的竞争者。而事实上,在TPU v1刚刚发布的时期,TPU团队成员另立门户或加入竞对公司的现象就已初显苗头。毕竟在硅谷,当你萌生出创业想法时,成事法则中的一条就是从谷歌挖人。

Social Capital的创始人Chamath Palihapitiya深谙其中的门道,他总是那么尖锐且冒进,面对名流及精英他直言不讳,做为美国的SPAC(特殊目的收购公司)之王,带着散户逼空华尔街精英也让他赚足了吆喝。

Palihapitiya就像投资界的马斯克,掌握资本和流量杠杆让他成为创业者背后的攒局人。

2015年,在谷歌的季度财报会上,Palihapitiya不经意间了解到谷歌正在自研AI芯片,为什么谷歌要跟英特尔竞争?问题在Palihapitiya心中浮现,他开始寻找答案。

2016年,TPU v1发布,跟市场上其他人一样,Palihapitiya的策略是“no miss”,他认为这一次芯片创新可以让Facebook、Amazon、Tesla等公司以及 *** 利用机器学习和计算机去做此前没人能做的事情。

巨头入局,Palihapitiya做局。他开始对谷歌TPU领域的工程师进行人才mapping,一年半的时间里,Palihapitiya挖走了谷歌芯片创始团队里10人中的8位,背后的两个关键角色是Jonathan Ross和软件工程师Doug Wightman,而成立的这家新公司正是当下炙手可热的AI芯片企业Groq。

今年的8月5日,Groq完成由Blackrock领投的新一轮6.4亿美元融资,28亿美元的估值让Groq毫无疑问地成为AI芯片新贵。另一方面,Meta首席人工智能科学家Yann LeCun宣布担任Groq的技术顾问,在Groq的官网上赫然挂着Yann LeCun对于Groq芯片的评价:“Groq芯片确实直击要害。”

而问题在于Meta内部也在研发AI芯片,竞对公司间的人事往来不经让外界感到意外。但可以推测出这背后离不开Palihapitiya的周旋,毕竟他曾担任了五年多的Facebook(Meta前身)副总裁,化敌为友,是攒局人的基本素养。

Groq之外,是OpenAI对谷歌近乎疯狂的“挖墙脚”。

疯狂的背后,是Sam Altman激进的7万亿自研芯片战略。此前,台积电CEO CC Wei在采访中表示:“Altman的计划太激进了,让人难以置信。”

今年10月30日,外媒报道OpenAI与博通以及台积电达成合作,计划于2026年生产其首个定制芯片。

OpenAI造芯传言靴子落地的背后,是Sam Altman网罗AI芯片人才计划的收网。Sam Altman的用人法则只有一条,要么现在在谷歌,要么之前在谷歌。

近一年里,大量谷歌TPU团队的研发人员密集加入OpenAI,Sam Altman搭建了以前谷歌高级工程总监Richard Ho为首的硬件研发团队,主要成员包括Tensor SoC负责人Ravi Narayanaswami、高级硬件工程师Thomas Norrie、技术经理Sara Zebian、研究科学家Phitchaya以及设计验证经理Jerry Huang等人。

而这一批人收获的最多的评价正是:“他们是我合作过的更好的工程师之一。”

吸引更好的工程师,Sam Altman开出的条件是:参与构建人类有史以来最宏大的计算机系统、与大模型团队的高度协作且不会面临大公司内部的沟通阻碍,以及高薪。

TPU团队在市场颇受认可的背后是任职于谷歌时研发TPU锻炼的从0到1的工程能力,而专用于加速机器学习和神经 *** 的设计正是当下市场最需要的。

商业层面,身居不同公司或许针尖对麦芒,但个人层面,他们都是谷歌TPU的同行者,更是AI芯片未来的缔造者。

雷峰网(公众号:雷峰网)参考材料:

https://cloud.google.com/blog/products/compute/trillium-tpu-is-ga

https://cloud.google.com/transform/ai-specialized-chips-tpu-history-gen-ai?e=48754805

https://www.censtry.com/blog/why-did-google-develop-its-own-tpu-chip-in-depth-disclosure-of-team-members.html

https://cloud.google.com/tpu/docs/system-architecture-tpu-vm?hl=zh-cntargetText=Tensor%20Processing%20Units%20(TPUs)%20are,and%20leadership%20in%20machine%20learning.