2025 年的 IMO配资股票推荐,好戏不断。
7 月 19 日,全世界顶尖大模型在 2025 年的 IMO 赛场上几乎全军覆没。时隔 1 天,OpenAI、DeepMind 等顶尖实验室就在 IMO 2025 赛场斩获 5/6 题,震惊数学圈。
有意思的是,7 月 23 日——两位来自 Harvard 和 UCLA 的学生,用 Gemini 2.5 Pro+ 自研多轮验证框架,在 arXiv 扔下一篇论文,首次系统性拆解了「解题 + 验证」的 IMO 解题方法论。48 小时后,他们开源了完整代码。
来自蚂蚁的多智能体框架 AWorld 项目团队也加入了这场卷王之争:
7 月 24 日启动,仅仅 6 小时,采用 AWorld 智能体框架,复现并开源了 DeepMind 的 5/6 道解题结果,并直接给出了可一键运行的多智能体 IMO 系统。
果然,大家好奇的点还是跟传统长思维链 LangChain 等框架有什么不一样。作者给出的回复,核心就是一个词,自我进化。即,多智能体能够超越单个智能体,能够用于复杂问题协同,以及强化学习的奖励模型等,最终实现 AGI。
IMO 2025,把复杂推理模型推向了一种新的高度(尽管还处在实验室阶段,但 DeepMind 透露会对外)。
不过,能解 IMO 级别数学题的超级单智能体实属稀有。AWorld 的实验也首次用工程系统证明:多智能体协同的智力上限,有可能超越其依赖的单个模型。
单模的「不可能三角」:为什么必须上多智能体?
单个裸模型,包括 Gemini 2.5 pro,几乎无法一次推理答对 IMO 赛题:level 1 的第 1,第 4 题在小概率下一次推理能答对(背景:IMO 包括六道竞赛题目,分为两天进行,参赛者每天需完成 3 道题目,因此第一题难度相对较低),但是其余 4 题,一定需要多智能体协同才能完成,这揭露了一个残酷现实:IMO 级问题 = 单模的不可达之地。
AWorld 的实测数据更扎心:
单模尝试第 3 题:连续 10 次推理全部失败。
多智能体协同:通过「解题者 + 验证者」双角色对话,第 3 题在第 5 轮迭代就生成了完整的解答。
"多智能体协同的智力上限,有可能超越其依赖的单个模型"的本质是什么呢?
为此,AWorld 团队尝试提出了几种解释视角:
构建最优输入:从"好问题"到"完美上下文"
多智能体协同的核心优势在于它能动态地构造出一个远超初始提问的、高质量的输入信息。
基本原理 ( y = f ( x ) ) :我们可以将大模型视为一个固定的函数 f,其输出 y 的质量完全取决于输入 x 的质量。
初始输入的局限:对于如 IMO 竞赛题这类复杂任务,最初的提问 ( x_0 ) 信息稀疏,缺乏足够的引导"脚手架"。这使得模型难以在其庞大的能力空间中,仅凭一次尝试就找到通往正确答案的路径。
协同的价值:多智能体系统并非提升模型 f 本身,而是设计了一个"智能流程":通过生成和整合中间思想(如解题草稿、批判性反馈、改进建议),共同构建出一个信息极其丰富的"超级上下文"。这最终解锁了模型早已具备、但通过简单提问难以触达的深层能力。
实现"元认知" : 为系统外挂一个"反思模块"
元认知,即"关于思考的思考",是高级智能的核心标志。它包括自我监控、自我评估和自我修正的能力。单个 LLM 本身不具备真正的元认知,但可以通过角色定义(Role-Play)来执行元认知功能。
它不解决问题,而是评估解决方案的合理性、寻找逻辑漏洞、提出改进建议,从而避免了单模型容易陷入的思维定式和错误。
通过交互降低"信息熵"(Reducing Information Entropy)
一个复杂的 IMO 问题,其解空间的不确定性(信息熵)非常高。每一次有效的多智能体交互都在为系统提供新的约束,从而降低这种不确定性。
例如,审阅者指出"你的第一步假设 A 是无证据的",这个反馈极大地减少了后续需要探索的可能性,使计算资源能更集中地探索更有希望的路径,从而显著提升了求解的效率和准确性。
综上,多智能体协同的优越性源于其智能化的流程,而非个体能力的提升。该流程通过协作分解与迭代修正,能有效解锁基础模型的深层潜力,最终涌现出超越个体能力之和的系统级智能。
AWorld 的「六小时魔法」:把论文变成可运行系统
面对地狱级难度的 IMO,相比模型顶流拿下成绩秀肌肉,能够复现的解题过程可能更加有利于技术的演进,所以我们更希望看到有一些开源的工作。AWorld 的复现方式,提供了一些思路:
核心结构:采用了"做题家"和"验证者"的双智能体对话机制,两者均依赖于相同的基础模型(如 Gemini 2.5 pro)来构建。其中,做题家负责生成数学解答,验证者扮演 IMO 考官角色进行严格验证,两者通过多轮对话迭代优化解答质量。
核心要素:设计了完整的对话循环机制,包括自动检测终止条件、最终答案、记录完整对话历史,以及基于验证者反馈的解答重构策略,有效挖掘了基础模型的潜在能力。
身份设定与上下文工程:做题家采用严格的数学证明格式要求,验证者则具备详细的错误分类体系和标准化的验证流程,这种专业化的角色分工显著提升了问题解决的质量和准确性。
目前,AWorld 在著名的 GAIA Test 榜单(即通过增加工具支持、更高效的提示、接入搜索等手段获得增强能力的新一代大语言模型的基准)上达到了 77.08 分,在所有署名的智能体中排名第三,在所有开源工作中排名第一。
为多智能体协同而生
作为一个为构建生产级、可扩展多智能体系统而设计的下一代框架,AWorld 核心优势是采用事件驱动的群体智能架构,彻底超越了传统 LangChain 等框架的局限。
智能体之间通过事件总线进行异步通信与协作,而非简单的顺序调用。这使得复杂的实时交互成为可能。
强大的工具与模型生态
模型即插即用:通过统一接口,可在 30 秒内轻松切换 OpenAI、Gemini、Claude 等任意大语言模型,方便对比测试与成本优化。
MCP 协议支持:将 MCP 作为核心能力,允许智能体将其他模型或智能体作为工具调用,极大拓展了能力边界。所有工具均在安全沙箱中执行,保障企业级安全。
生产级的稳健性与可观测性
全链路可观测性:提供覆盖智能体决策、工具调用全过程的追踪、指标与日志,让复杂的系统行为清晰透明,易于调试。
精密的上下文与内存管理:支持长短期记忆和复杂编排,确保智能体在执行长周期任务时能保持状态、不"失忆"。
支持模型持续进化的学习闭环
开放训练接口:AWorld 不仅是执行框架,更是进化平台。它提供开放接口,可与主流训练框架结合,利用智能体在真实任务中产生的交互数据对底层模型进行训练。
实现智能体自我进化:通过"数据 - 训练 - 部署"的闭环,让智能体在特定领域变得越来越"聪明",构建真正的专家智能体系统。
如何体验「IMO 级多智能体」?
3 步运行(详见 README.md):
一键准备环境
进入项目目录 AWorld/examples/imo,然后直接运行脚本 ./setup_env.sh。自动创建独立的 Conda 环境并安装所有必需的依赖。
配置 API 密钥
复制模板文件 cp.env_template.env,然后编辑新生成的 .env 文件,填入你自己的大模型 API 密钥 ( LLM_API_KEY ) 、模型名称 ( LLM_MODEL_NAME ) 和接口地址 ( LLM_BASE_URL ) 。
激活环境并运行
首先激活环境,然后执行主程序来解决指定的数学问题,例如运行 python run.py — q imo4 来解决 IMO2025 第 4 题。
写在最后:IMO 只是开始
AWorld 的复现实验,抛出了一个激进结论:当前多智能体系统的数学能力,已超越 99% 人类选手(虽然测试集有限)。
当单模在 IMO 折戟时,多智能体系统已经证明:AI 的智能上限,可能不只在于模型有多大,更在于我们如何组织它们工作。
多智能体协作,可能是一条通往更高群体智能的有效路径。更震撼的是未来潜力:这套系统正在作为 reward model 训练下一代模型——用多智能体生成的「高阶推理轨迹」作为训练数据,相当于让模型从 IMO 金牌选手的草稿纸里学习。
下一站,AWorld 团队透露正在测试「多智能体 + 形式化验证」组合,目标直指 Lean4 形式化证明。
IMO 2026,可能将是人类最后一次有机会战胜 AI 的数学竞赛。
Gemini 2.5 Pro+:
论文地址:https://arxiv.org/pdf/2507.15855
AWorld:
GitHub:https://github.com/inclusionAI/AWorld
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见配资股票推荐
顶益所配资提示:文章来自网络,不代表本站观点。