免费发布消息

美团发布高效推理模型LongCat-Flash-Thinking,达SOTA水平

   2025-09-23 00
核心提示:9月22日,美团LongCat团队正式发布全新高效推理模型LongCat-Flash-Thinking,在逻辑、数学、代码、智能体等多领域推理任务中达到

9月22日,美团LongCat团队正式发布全新高效推理模型LongCat-Flash-Thinking,在逻辑、数学、代码、智能体等多领域推理任务中达到全球开源模型最先进水平(SOTA),成为国内首个兼具“深度思考 + 工具调用”与“非形式化 + 形式化”推理能力的大语言模型,目前该模型已在Hugging Face和Github开源,官网也可体验。


模型性能卓越,能力全面提升

官方介绍,LongCat-Flash-Thinking在保持LongCat-Flash-Chat极致速度的同时,变得更强大、更专业。综合评估显示,它在逻辑、数学、代码、智能体等多个领域的推理任务中达到SOTA水平。不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备“深度思考 + 工具调用”与“非形式化 + 形式化”推理能力相结合的大语言模型。尤其在超高复杂度的任务,如数学、代码、智能体任务处理上,具备更显著优势。


创新架构助力,实现高效推理与训练

为实现高效推理与稳定训练,团队采用了多种创新架构。在领域并行强化学习训练方法上,设计领域并行方案,将STEM、代码和智能体任务的优化过程解耦,采用多领域并行训练再融合策略,实现模型能力均衡提升,综合性能达到帕累托最优。异步弹性共卡系统(DORA)作为训练基石,通过弹性共卡调度与多版本异步流水线设计,相较于同步RL训练框架实现三倍提速,确保每条样本策略一致性,还实现高效的KV缓存复用,能支撑万卡规模集群稳定运行。在大规模异步强化学习训练阶段,FLOPs投入约为预训练阶段的20%,为模型性能提升提供算力保障。此外,创新性的“双路径推理框架”提升了模型的智能体推理能力,能自主筛选最优查询样本,将智能体推理与工具使用结合,基于AIME25实测数据,在确保90%准确率的前提下,相较于不使用工具调用节省了64.5%的Tokens,显著优化推理过程资源利用率。同时,针对形式化推理设计的基于专家迭代框架的数据合成方法,利用集成了Lean4服务器的专家迭代框架,生成严格验证的证明过程,系统性提升模型的形式化推理能力。


多项评测领先,开源助力发展

LongCat-Flash-Thinking在多项权威评测中表现出色,刷新纪录。在通用推理能力上,其在ARC-AGI基准测试中以50.3分超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型;数学能力方面,在HMMT和AIME相关基准上取得突破性成绩,超越OpenAI o3,与Qwen3-235B-A22B-Thinking等领先模型水平相当;代码能力上,在LiveCodeBench上以79.4分显著超越参与评估的开源模型,与顶级闭源模型GPT-5表现相当,在OJBench基准测试中也以40.7的得分保持极强竞争力;智能体能力上,在τ2 - Bench - Airline上以67.5分刷新开源SOTA成绩,在SWE - Bench、BFCL V3和VitaBench等基准测试中也展现出超强竞争力;ATP形式推理能力上,在MiniF2F - test基准中的pass@1获得67.6的超高分数,大幅领先其他参与评估模型,在pass@8和pass@32中同样保持领先优势。目前,该模型已在Hugging Face(https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking )、Github(https://github.com/meituan-longcat/LongCat-Flash-Thinking)全面开源,用户还可在官网体验。


以上文章由 AI 总结生成

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行