出品 | 搜狐科技
作者 | 梁昌均
“人工智能大模型现在从单模态向多模态发展,同时应用也很多,这使得算力爆发性增长,算力一直供不应求。”在7月7日的信百会2024年度研讨会上,中国工程院院士、清华大学计算机科学与技术系教授郑纬民在演讲中表示。
他提到,算力存在于大模型全生命周期,包括模型开发、模型训练、模型精调和模型推理。同时,算力还很贵,成本居高不下,如GPT-4训练用了1万块A100,开销达2亿美元,ChatGPT每天推理开销达70万美元。在大模型企业模型训练成本中,算力占70%,而在模型推理成本中,95%都是算力。
郑纬民表示,目前有三种支持大模型训练的系统,之一个是基于英伟达芯片的GPU系统,硬件性能好,编程生态好,但是不卖给中国,一卡难求,价格也贵了很多倍。
第二个是基于国产AI芯片的系统。“这些年国产芯片无论是软件硬件都有很大的进展,但是用户不太喜欢用,原因是国产卡的生态系统不太好。”
什么是生态系统好呢?郑纬民给出的定义是,如果原来用英伟达写了一个人工智能软件,现在很容易移植到国产系统上,写起来的 *** 跟原来差不多,就叫生态好。如果移植起来,没有一年两年移不过来,那就是不好。
“现在我们的状况就是生态不太好,所以大家不喜欢用。”郑纬民认为,这需要做好系统设计和相关软件优化,具体包括十个方面:编程框架、并行加速、通信库、算子库、AI编译器、编程语音、调度器、内存分配系统、容错系统、存储系统等。
他表示,生产AI芯片的厂家,一定要把这个十个方面做好,做好了大家就喜欢用。在郑纬民看来,在国产算力支撑大模型训练时,国产AI芯片只要达到国外芯片60%的性能,但如果把前述十个方面的软件生态新做好了,客户也会满意会用。
“大多数任务不会因为芯片性能只有60%而有明显感知,大家感觉到的不好用还是生态不行。即使你做的硬件性能是人家的120%,但如果这十个软件没做好,还是不会用。”郑纬民说。
第三种是基于超级计算机的系统。目前国内14个国家级超算中心,但机器用得不是非常满,那么用超级计算来做大模型训练行不行?
郑纬民认为可以,但需要进行软硬件协同设计,并有望节省训练成本。现场以Llama-7B的演示显示,使用国产超级计算训练相较英伟达芯片可节省成本82%左右。
除了算力,存储也存在于大模型的生命周期的每一环,包括数据获取、数据预处理、模型训练、模型推理等。郑纬民强调,内存对推理特别重要,如果内存改进,性能能有好几倍的提高,这意味着可以少买很多卡。
他认为,在存储系统设计中要考虑半精度与双精度运算性能的平衡、 *** 平衡设计、IO子系统平衡设计、做好内存设计,国产芯片则需要做好前述十个软件。
“如果把大模型基础设施平衡设计这些方面做好,别人用1万张卡,我们用9000张卡就可以了。”郑纬民表示。
发表评论