美团上线首个开源并可体验的?“重思考”模型

更新时间：2026-01-16 23:18 来源：牛马见闻

高市早苗解散众议院可能是为解决中日问题,高市早苗家庭背景最新新闻

中国-阿联酋互免签证协定生效八周年两国人员往来增长迅速

白宫门外冬夜点烟面对镜头哽咽诉苦，格陵兰女外长压力山大

黄仁勋没说错！年缺口8万人，年薪140万，美国大厂正在疯抢电工,黄仁勋学历

世体：阿尔瓦塞特踢皇马营收超200万欧，其中门票收入150万欧,皇马埃瓦尔

新模型在Agentic Search�Agentic Tool Use�5-Thinking�

1月16日消息，美团LongCat官微(消息，作为LongCat-Flash-Thinking模)型的升级版，LongCat-Flash-Thinking-2601现已开源。新模型在Agentic Search（智能体搜索）、Agentic Tool Use（智能体工具调用）、TIR（工具交互推理）等核心评测基准上，均达到开源模型SOTA水平。据介绍，该模型在工具调用的泛化能力上优势尤其明显，在依赖工具调用的随机复杂任务中，性能表现超越了Claude-Opus-4.5-Thinking，可大幅度降低真实场景下新工具的适配训练成本；同时，新模型支持“重思考”模式，可同时启动8个“大脑”执行任务，确保思考周全、决策可靠。 具体来看，当遇到高难度问题时，新模型会把思考过程拆分成“并行思考”和“总结归纳”两步进行： 并行思考阶段，与人类面对难题会同时尝试多种解法相似，“重思考”模式下的模型，会在保证思路多样性的同时，独立梳理出多条推理路径寻找最优解；总结归纳阶段，则会对多条路径进行梳理、优化与合成，并将优化结果重新输入，形成闭环迭代推理，推动思考持续深化。 除此之外，LongCat团队在新模型中加入了额外的强化学习环节，针对性打磨模型的总结归纳能力，从而让LongCat-Flash-Thinking-2601实现了“想清楚再行动”的结果。经过全面严谨的评估，LongCat-Flash-Thinking-2601模型在编程、数学推理、智能体工具调用、智能体搜索等维度表现优异。 LongCat-Flash-Thinking-2601的平均性能比较（资料图） 对于新模型的技术思路，LongCat团队解释称，传统智能体往往仅在数个简单模拟环境里训练，这带来的问题就像只在靶场训练的士兵，到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术，团队为模型打造了多样化的“高强度练兵场”，构建了多套高质量训练环境，并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动，支撑起高度复杂的任务场景。实验也证明，训练环境越丰富，模型在未知场景中的泛化能力越强。 该团队还表示，现实世界的智能体环境充满不确定性，API调用失败、返回异常信息、观测数据不完整等“噪声”问题，极易导致模型决策失误。为此，团队在训练数据的过程中主动注入多类噪声，模拟API的调用失败、返回错误信息、数据缺失等场景，并用课程学习的方式循序渐进地进行模型训练，在训练过程中逐步增加噪声的类型与强度——类比教新手骑车，首先会让其在平坦路面做练习，等技能成熟后再逐步增加路面的复杂度。经过系统化的抗干扰训练，LongCat-Flash-Thinking-2601（Training w/Noise组）拥有了极强的环境适应能力，在复杂场景中，也能稳定发挥、高效完成任务。

编辑：木子美