忘记AGI吧——顶尖AI模型在数学方面仍存在困难

Decrypt

2026-03-18 12:10:12

简要介绍

MATHVISTA由Sahara AI提供的超过6,000个带注释的数据点构建，用于测试AI模型在多模态数学推理方面的能力。
GPT-4V得分为49.9%，在测试的12个模型中最高，但仍比人类表现低10.4个百分点。
研究人员表示，向AGI（人工通用智能）迈进的进展可能更多依赖于更好的训练和评估数据，而非模型规模。

人工通用智能（AGI）通常被描述为能够像人类一样在多个领域执行任务的系统。本周发布的MATHVISTA基准测试结果显示，当前模型仍未达到这一目标。微软研究院、Sahara AI和埃默里大学的研究人员测试了与通用智能核心相关的能力，包括基于视觉信息（如图表、图形和示意图）的数学推理能力。在测试的12个基础模型中，包括ChatGPT、Gemini和Claude，GPT-4 Vision的得分最高，为49.9%。而人类参与者的平均得分为60.3%，凸显了当前AI系统与通常与AGI相关的更广泛推理能力之间的差距。

“我们希望机器能够完成普通、普通人日常任务中能做的事情，”微软研究院的首席研究员郝成在接受_Decrypt_采访时表示。“这基本上是每个人都在追求的AGI目标。” 通过将问题转化为图像、示意图和图表，该项目测试模型是否能够准确解读视觉信息并解决多步骤的数学和逻辑问题——这些技能超出了单纯的文本模式匹配。模型在这些任务上仍然存在困难，衡量这种限制也很具有挑战性。

当郝成的团队审查现有的评估数据集时，发现许多问题并不需要视觉推理。模型常常仅依靠文本就能得出正确答案。 “这并不理想，”郝成说。 MathVista在GitHub和Hugging Face上提供，于2023年10月推出。据微软研究院统计，自那时以来，已被下载超过275,000次，其中过去一个月内下载超过13,000次。然而，创建这个数据集不仅仅是标准的数据标注。微软研究院需要能够处理算术、代数、几何和统计等多个数学领域问题的注释员，同时区分更深层次的数学推理（如解读图表或解方程）与简单任务（如数数或读取数字）。经过试点阶段后，微软选择了Sahara AI来支持这项工作。该公司提供了训练有素的注释员、定制的工作流程和多阶段的质量检查，以生成超过6,000个多模态示例，用于基准测试。没有可靠的基准，衡量向更广泛的机器智能迈进的进展变得困难，Sahara AI的CEO兼加州大学南加州分校（USC）计算机科学副教授Ren表示。 “这里存在数据污染的细微差别，一旦我们开始用这个数据集进行测试，这些结果就会被吸收到下一版本中，”Ren告诉_Decrypt_。“所以你实际上不知道它们是在解决数据集的问题，还是具备真正的能力。” 如果基准答案出现在模型的训练数据中，高分可能只是记忆的结果，而非推理能力。这使得判断AI系统是否真正取得进步变得更加困难。

研究人员还指出训练数据的局限性。大量公开的互联网内容已经被纳入模型的数据集中。 “你肯定需要某种方式将新知识注入到这个过程，”郝成说。“我认为，这类问题必须依赖高质量的数据，才能真正突破知识的边界。” 一种提出的路径是利用模拟环境，让模型可以交互、从经验中学习，并通过反馈不断改进。 “你可以在某个沙箱中创建一个与现实世界相似的镜像，让模型在其中玩耍，完成许多人类在现实生活中会做的事情，从而打破互联网的边界，”郝成说。 Ren表示，人类在改进AI系统方面仍然扮演着重要角色。虽然模型可以快速生成内容，但人类在评估内容方面仍然更具优势。 “人类与AI之间的这种差距——他们擅长的和不擅长的部分——可以用来真正推动AI的未来发展，”他说。

查看原文

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论