摄影:匡达

文科考上一本理科不及格,大模型“高考”为啥偏科?

界面新闻记者 | 肖芳

界面新闻编辑 | 文姝琪

随着各地高考出分,各家大模型回答高考题的能力也有了一个更加客观的衡量标准。

根据极客公园使用高考新课标Ⅰ卷的评测,GPT-4o以562分排名文科总分之一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同,而河南高考录取分数线显示,文科本科一批录取分数线为521分,上述三款国产AI成功冲上一本线。

相比之下,大模型的理科成绩要差很多,更高分还不到480分,多数大模型的理科总分在400分以下。

从具体的科目来看,英语是大模型表现更优异的学科,九个大模型的平均分高达132分(满分 150),大部分大模型都可以做到客观题接近满分。其次是语文,但不论中外大模型语文的得分都要略差于英语,得分较高的大模型分数能够达到120分。

在数学试卷中,9款大模型产品中,仅GPT-4o、文心一言4.0和豆包获得60分以上成绩(满分150分)。重点考查实验探究能力的化学和物理试卷,各模型平均分更是只有34分和39分(满分为100和110)。

而在另一个机构司南评测体系对高考全国新课标I卷“语数外”三个科目的评测也呈现类似的趋势,7款参与评测的大模型英语和语文的成绩较高,数学成绩均不及格。

虽然不同评测机构的标准有所差异,但一个非常明显的趋势是,大模型更擅长回答文科试题,而不太擅长回答数学、物理等理科题目。

在一些人的印象中,数学一直都是计算机的强项,大模型在数学等理科试题上表现糟糕让他们有些意外。但一位大模型技术专家告诉界面新闻,这可能是普通人对大模型更大的误解,因为大模型和计算机完全是两个不同的体系。

这位大模型技术专家表示,大模型理科表现不好,本质上都来源于数学能力的欠缺。这个和大模型本身的next-token prediction(下一个词预测)有关。

据界面新闻了解,在大语言模型中,next-token prediction是非常关键的一个环节。当模型处理输入的文本序列时,它会基于已有的信息和学习到的语言知识,对下一个最可能出现的词(token)进行预测。模型通过对大量文本数据的学习,理解了不同词之间的概率分布和关联关系。在预测时,模型会计算每个可能的下一个词出现的概率,并选择概率较高的词作为预测结果。

这种逐词预测的方式使得模型能够生成连贯的文本输出。通过不断地进行下一个词预测,模型可以生成一段完整的文本内容。为了提高预测的准确性,模型的训练过程会不断调整参数,以更好地捕捉语言的模式和规律。同时,模型也会考虑上下文信息,包括前面已经生成的词以及整个输入文本的语义和语法结构,来更精准地进行下一个词预测。这有助于生成更符合逻辑和语义的文本,增强语言模型的表现和生成能力。

当大语言模型学习了海量知识数据,天然就适应考验记忆能力和语言运用的文科考试。但理科考试主要考验推理和计算,比如一道数学题包含5步推理和5步计算,假设大语言模型每一步预测准确的概率都有90%,综合下来的准确率就只有35%。

高考试题评测非常直观地显示出大模型的上述能力特点。如果是文科题目,回答是一段话,阅卷评分的时候其实主要看的还是整段话的意思是否符合要求,可能有一两次不准确,或者用了一些同义词,都不影响评分。但如果是数学题目,假设模型前面输出了32103,下一个token输出一个2还是小数点,都会对最终结果造成决定性的影响。

目前的大模型回答理科试题时只能正确推理步骤相对简单的问题。比如,在高考新课标Ⅰ卷的评测中,豆包大模型能准确运用求导公式和三角函数定理,但是面对较为复杂的推导和证明问题就很难继续得分。而在物理试题中,有一道送分题是选择位移随时间变化的正确图像,人类考生根据“时间不会倒流”可以排除所有错误选项,但大模型则几乎全军覆没。

理科语料比较稀缺也是大模型在理科答题能力上不如文科的重要原因之一。另一位大模型技术专家告诉界面新闻,理科语料稀缺的问题从普通人日常的感知中也能理解。在日常生活中,普通人接触的语料较大比例是文字语料,数学、物理等数字、符号语料较少,而用于大模型训练的语料同样是这种分布。

上述大模型技术专家表示,在普通人认知中很厉害的计算软件和大模型是完全不同的技术原理。计算软件并不是基于概率预测下一个token,而是基于提前写好的专家规则,专门用于计算某类数学问题。

看起来,要学会像人类一样思考和解决问题,大模型还有很长的路要走。在上述大模型技术专家看来,即使在文本推理上,大模型目前也只是达到了勉强能用的水平,还有非常大的提升空间。比如,在研报、技术文档分析等准确度要求更高的场景下,大模型的能力还很难达到正常使用的水平。

目前,各家大模型都在努力提升智能水平,一方面在提升文本生成能力,另一个目标就是提高推理和计算能力。

但学界对大模型的推理和计算能力还存在争议。有观点认为,next-token prediction本身就包含了推理,计算也是一种推理。只要scaling law(规模法则)生效,大模型性能持续提升,推理和计算能力就能够提升;但也有反对者认为,大语言模型缺乏真正的规划推理能力,其涌现能力实际上是上下文学习的结果,主要体现在简单任务和事先知道答案的情境中。大语言模型未来是否能够真正实现AGI?对于这个问题,目前还没有定论。