9.11和9.9谁大？我们实测15个大模型，超半数翻车

机器之能报道

编辑：杨文

大模型们还是搞不定简单的数学题。

这几天，一个测试大模型「脑瓜」灵不灵光的提示词火了 ——

9.11 和 9.9 哪个大？

这道连小学生都能一口答对的数学题，却难倒一片大模型界的「英雄好汉」。

事情是这样的。

Scale AI 的高级提示工程师 Riley Goodside 拿「9.11 and 9.9——which is bigger?」这个提示词来问 GPT-4o，却得到「前者更大」的回答。其他大模型也纷纷翻车。

7 月 17 日，我们拿国内 12 款大模型，外加国外的 GPT-4o、Claude 3.5 Sonnet 和谷歌的 Gemini 进行了集中评测。以下是评测结果：

接下来，我们就看一下详细的的测评过程。

-1-

GPT-4o

GPT-4o 翻车翻得相当彻底。

我们先用英文提示词问了一遍 GPT-4o，它仍然认为 9.11 大于 9.9，然后我们分别用中英文问它二者相差多少，全部回答错误。

-2-

Claude-3.5-Sonnet

我们用同样的套路问了 Claude-3.5-Sonnet，可不管如何问，它都在错误的道路上蒙眼狂奔。其中，在比较小数部分时，它明明知道 0.9 比 0.11 大，但最后仍得出错误结论。

-3-

Gemini

谷歌 Gemini 也强不到哪里去，用英文问了两遍二者谁大，之一次它给出了正确答案，但第二次就认为相同整数的情况下，小数位数越多表示数字越大。

我们用中文问了一遍，谷歌 Gemini 结合实际生活具体场景比较大小，例如，从时间角度来看，9.11 通常是指 9・11 事件，而 9.9 则通常指 9 点 9 分，因此 9.11 比 9.9 意义更大。

当问到二者相差多少时，Gemini 得出了负数。

-4-

百度文心一言

面对 9.11 和 9.9 谁大时，文心 3.5 回答正确；当我们问它二者相差多少时，它绕了一大圈，终于给了正确结论。

-5-

阿里通义千问

阿里通义千问全部答对。

-6-

字节豆包

我们问 9.11 和 9.9 谁大，豆包分析得头头是道，还能将其置于日常生活场景中。例如，跑步比赛选手用时 9.11 秒和 9.9 秒，意味着 9.11 秒速度更快；从价格的角度来看，9.9 元的商品更贵。不过，一到结论它就回答错误。

至于二者相差多少，豆包倒是回答正确。

-7-

腾讯元宝

腾讯元宝面对这道题目时则触发了搜索功能，引用了 7 篇资料作为参考，最终回答正确。

然而，9.11 和 9.9 相差多少，元宝等式列对了，就是算数竟算出小数点后 16 位。

-8-

智谱清言

智谱清言错误地认为两位小数表示的数值比一位小数要大，导致回答错误。问到二者相差多少时，它算出个负数。

它还不忘说一句「很多 AI 模型出错可能是因为在处理数字和小数点时的算法缺陷」。

-9-

月之暗面 - Kimi

Kimi 这把也歇菜了，不仅分不清谁大，还把 9.11-9.9 算出 0.21。

-10-

科大讯飞星火

讯飞星火答对了。

-11-

百川智能 - 百小应

百小应错误地认为 9.11 更大，不过算二者差值算对了。

-12-

阶跃星辰 - 跃问

跃问在一开始的分析中没问题，但后来把自己绕晕了，搞了个「反转结论」，导致最终答案错误。

当我们再次问它为什么时，它恍然大明白，纠正了错误，并正确算出二者的差值。

-13-

商汤 - 商量

两个问题回答错误。

-14-

昆仑万维 - 天工

回答正确。

-15-

零一万物 - 万知

两个问题回答错误。

大模型们为何连简单的数学常识题都搞不定呢？我们采访了通义实验室产品经理王晓明。

据王晓明介绍，大模型基于 Transformer 架构实现，本质是做 next token prediction，而非直接进行算术计算，因此在处理比大小等简单数学题目时，依赖于预测模型的成功率。

此外，在处理类似「9.11 比 9.9 大」的场景时，大模型通常会通过分词器 tokenizer 进行处理。分词器在解析这类表达时，可能会把数字辨认为日期或版本号进行比较，最终导致回答错误。这种处理方式是由分词器的特定算法和机制决定的。

在实测过程中，我们还发现，不少大模型在首次回答时可能会提供错误答案。然而，当进行第二轮提问时，这些模型往往能够给出正确答案。

针对这一问题，王晓明认为主要由三个原因造成。

一是由于预测过程具有一定的随机性，导致第二轮相较于之一轮更加准确。

二是大模型具备较强的上下文理解能力，它们能够根据之前的回答和订正信息，重新生成更准确的答案。

三是提问者的引导方式也会影响大模型的回答结果，例如使用限定词、提供清晰语境以及指导模型遵循特定指令等 *** 均有助于提高得到正确答案的概率。

他还表示，提高大模型数学能力的核心在于提供高质量的数据支持，特别是在数学计算和逻辑推理方面。例如，通义千问针对这类场景，有针对性地加入高质量数据进行训练，使得面对此类问题时保持较高准确率。

以后我们会带来更多AI大模型、AI应用的一手评测，也欢迎大家进 *** 流。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

发表评论

18人参与，4条评论

SnowFox
2024-07-29 08:04:25回复
关于大模型的评估，9.1与更高版本的表现令人失望，经过实测发现半数以上存在问题，“翻车现象出现多不胜数，‘人民不能一直为我复盘求效果评价是很严酷的教训。’务必吸取经验教训！”

Richard
2024-08-15 15:08:52回复
大模型在处理简单数学题时的表现令人惊讶，它们的错误回答揭示了其背后的机制与处理方式的局限性，采访对象通义实验室产品经理王晓明的解释很有道理：提高数学能力需高质量数据支持并针对性地训练；预测随机性、上下文理解和提问者引导方式都会影响答案准确性。#机器之能报道#

沈勇
2024-08-15 15:11:52回复
大模型在处理简单数学题时的表现令人惊讶，但这也揭示了它们在某些方面的局限性，期待通过更多高质量的数据支持和训练来提升它们的数学能力。#机器之能报道评论#

邹洋
2024-08-15 15:14:57回复
大模型在处理简单数学题时的表现令人惊讶，其回答错误的背后原因值得深入探讨，期待更多关于AI应用的评测和深度分析文章！

9.11和9.9谁大？我们实测15个大模型，超半数翻车

你可能感兴趣的

发表评论