1元钱，284张图片！字节再掀AI价格战，视觉理解模型进入“厘时代”

火山引擎 Force 大会现场。

出品｜搜狐科技

作者｜张莹

编辑｜杨锦

继大语言模型价格以厘计算之后，视觉理解模型也宣告进入“厘时代”。

在12月18日举办的火山引擎 Force 大会上，字节跳动正式发布发布豆包视觉理解模型。

同时，火山引擎总裁谭待在会上披露豆包视觉理解模型的定价——千tokens输入价格仅为3厘，一元钱就可处理284张720P的图片。

对比claude 3.5 Sonnet的0.021元/千tokens、qwen-vl-max的0.02元/千tokens、GPT-4o的0.0175元/千tokens，豆包视觉理解模型比行业价格便宜85％。

据谭待介绍，豆包视觉理解模型不仅能精准识别视觉内容，还具备出色的理解和推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。此外，该模型有着细腻的视觉描述和创作能力。

5月份，字节跳动豆包大模型正式发布。其主力模型在企业市场的定价为0.0008元/千Tokens，0.8厘能处理1500多个汉字，比行业便宜99.3%，大模型从以分计价到以厘计价。

随后，阿里云也宣布阿里云宣布其9款商业化及开源系列模型降价。百度智能云宣布文心大模型的两款主力模型ENIRE Speed、ENIRE Lite全面免费。2024云栖大会期间，阿里云宣布三款通义千问主力模型再次降价，更高降幅达90%。

谭待曾在9月份在采访中提到，“我觉得这不是价格战，而是大家要把应用做起来的时候，要把成本做到一个合理的价格，现在大家已经做到了。”

此次大会上，豆包3D生成模型首次亮相。豆包大模型多款产品也迎来重要更新：豆包通用模型pro已全面对齐GPT-4o，使用价格仅为后者的1/8；音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品；文生图模型2.1版本，更是在业界首次实现精准生成汉字和一句话P图的产品化能力，该模型已接入即梦AI和豆包App。

数据显示，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍。

1元钱，284张图片！字节再掀AI价格战，视觉理解模型进入“厘时代”

你可能感兴趣的

发表评论