火山引擎 Force 大会现场。

1元钱,284张图片!字节再掀AI价格战,视觉理解模型进入“厘时代”

出品|搜狐科技

作者|张莹

编辑|杨锦

继大语言模型价格以厘计算之后,视觉理解模型也宣告进入“厘时代”。

在12月18日举办的火山引擎 Force 大会上,字节跳动正式发布发布豆包视觉理解模型。

同时,火山引擎总裁谭待在会上披露豆包视觉理解模型的定价——千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片。

对比claude 3.5 Sonnet的0.021元/千tokens、qwen-vl-max的0.02元/千tokens、GPT-4o的0.0175元/千tokens,豆包视觉理解模型比行业价格便宜85%。

据谭待介绍,豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。此外,该模型有着细腻的视觉描述和创作能力。

5月份,字节跳动豆包大模型正式发布。其主力模型在企业市场的定价为0.0008元/千Tokens,0.8厘能处理1500多个汉字,比行业便宜99.3%,大模型从以分计价到以厘计价。

随后,阿里云也宣布阿里云宣布其9款商业化及开源系列模型降价。百度智能云宣布文心大模型的两款主力模型ENIRE Speed、ENIRE Lite全面免费。2024云栖大会期间,阿里云宣布三款通义千问主力模型再次降价,更高降幅达90%。

谭待曾在9月份在采访中提到,“我觉得这不是价格战,而是大家要把应用做起来的时候,要把成本做到一个合理的价格,现在大家已经做到了。”

此次大会上,豆包3D生成模型首次亮相。豆包大模型多款产品也迎来重要更新:豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品;文生图模型2.1版本,更是在业界首次实现精准生成汉字和一句话P图的产品化能力,该模型已接入即梦AI和豆包App。

数据显示,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。