免费发布消息

阿里云推出通义千问最强模型Qwen3-Max,多项性能达业界领先

   2025-09-25 10
核心提示:9月24日,阿里云宣布推出通义千问最强模型Qwen3-Max,其总参数超1T,预训练使用36T tokens,在训练稳定性、高效性方面表现出色。

9月24日,阿里云宣布推出通义千问最强模型Qwen3-Max,其总参数超1T,预训练使用36T tokens,在训练稳定性、高效性方面表现出色。Qwen3-Max-Instruct正式版在代码能力和智能体能力上进一步提升,在多项基准测试中达到业界领先水平,推理增强版本Qwen3-Max-Thinking在高难度推理基准测试中取得满分,即日起用户可免费体验或调用API服务。


Qwen3-Max正式亮相,参数与能力双突破

9月24日,阿里云宣布推出Qwen3-Max,这是通义团队迄今为止规模最大、能力最强的模型。Qwen3-Max模型总参数超过1T,预训练使用了36T tokens。Qwen3-Max-Instruct正式版在代码能力和智能体能力方面进一步提升,在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平。


Qwen3-Max-Thinking潜力非凡

仍在训练中的Qwen3-Max-Thinking已展现出非凡潜力,预计在不久的将来向公众正式发布。据介绍,在结合工具使用并增加测试时计算资源的情况下,该“思考”版本已在AIME 25、HMMT等高难度推理基准测试中取得100%的准确率。


训练性能出色,多方面优化升级

在训练稳定性上,得益于Qwen3的MoE模型结构设计,Qwen3-Max的预训练loss稳定平滑,训练过程一气呵成,未使用训练回退、改变数据分布等调整策略。在训练高效性方面,在PAI-FlashMoE的高效多级流水并行策略优化下,Qwen3-Max-base训练效率显著提升,其MFU相比Qwen2.5-Max-base相对提升30%。在长序列训练场景中,进一步使用ChunkFlow策略获得了相比序列并行方案提升3倍的吞吐收益,支持Qwen3-Max 1M长上下文的训练。同时,通过SanityCheck、EasyCheckpoint、调度链路优化等多种手段,Qwen3-Max在超大规模集群上因硬件故障造成的时间损失下降为Qwen2.5-Max的五分之一。


基准测试成绩优异,多方面表现卓越

目前,Qwen3-Max-Instruct的预览版已在LMArena文本排行榜上稳居全球前三。正式发布版本进一步提升了其能力,尤其在代码生成与智能体表现方面表现卓越。在专注于解决现实编程挑战的基准测试SWE-Bench Verified上,Qwen3-Max-Instruct取得了高达69.6分的优异成绩,稳居全球顶尖模型之列。此外,在评估智能体工具调用能力的严苛基准Tau2-Bench上,Qwen3-Max-Instruct更是实现了突破性表现,以74.8分超越Claude Opus 4与DeepSeek-V3.1。


用户可免费体验与调用服务

即日起,用户可在通义千问QwenChat上免费体验Qwen3-Max,也可通过阿里云百炼平台调用API服务。


以上文章由 AI 总结生成

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行