免费发布消息

阿里通义团队4天连发4款产品,横扫全球开源榜单

   2025-07-27 220
核心提示:7月22 - 25日,阿里巴巴通义团队火力全开,四连发推出Qwen3-235B非思考版本、Qwen3-Coder编程模型、Qwen3-235B-A22B-Thinking-25

7月22 - 25日,阿里巴巴通义团队火力全开,四连发推出Qwen3-235B非思考版本、Qwen3-Coder编程模型、Qwen3-235B-A22B-Thinking-2507推理模型以及WebSailor AI Agent框架,在基础模型、编程模型、推理模型和智能体领域的开源榜单上大获全胜,引得全球瞩目,市场对其开源模型的认可度也在飙升。


基础模型:非思考模式的卓越表现

7月22日周二凌晨,阿里巴巴通义千问团队推出非思考模式(Non-thinking)最新模型Qwen3-235B-A22B-Instruct-2507-FP8。这款非思考模型在多项关键基准测试中成绩斐然,不仅全面超越Kimi-K2等顶级开源模型,甚至领先Claude-Opus4-Non-thinking等顶级闭源模型。同时,本次更新的Qwen3模型在Agent能力上尤其亮眼,在BFCL(Agent能力)测评中表现卓越,意味着模型在理解复杂指令、自主规划、调用工具以完成任务的能力达到新高度。权威机构Artificial Analysis更是直接评价通义千问3是全球最智能的非思考基础模型。


编程模型:引发社区轰动的力作

7月23日发布的Qwen3-Coder在全球开发者社区掀起波澜。这款基于MoE架构的编程模型拥有480B总参数,35B激活参数,原生支持256K上下文,可扩展至1M。在开发者极为关注的SWE-bench Verified基准测试中,Qwen3-Coder取得开源模型最佳表现。该模型在7.5万亿token规模上训练,其中70%为代码数据,并通过长时程强化学习和2万个虚拟环境的大规模实战训练,在真实世界的多轮交互任务中展现出色能力。阿里还推出配套命令行工具Qwen Code,提供完整编程解决方案。科技界领袖纷纷点赞,Perplexity CEO Aravind Srinivas盛赞“成果令人惊叹,开源正在获胜”,推特创始人Jack Dorsey强调Qwen3与Goose搭配使用效果很棒,即“goose配合Qwen3-Coder等于哇哦”。此外,7月24日,全球最大的AI开源社区Hugging Face更新榜单,Qwen3-Coder登顶榜首,千问编程模型系列下载量已突破2000万次,Hugging Face CEO Clement Delangue就连转带发12条推文盛赞。


AI Agent框架:打破闭源垄断的利器

同期,阿里通义实验室开源的WebSailor AI Agent框架,直接对标OpenAI的Deep Research产品。该框架在BrowseComp-en/zh测试中性能显著优于所有开源智能体,可媲美专属闭源模型。WebSailor采用复杂任务生成和强化学习模块的双重技术架构,通过构建复杂知识图谱和动态采样策略,能在海量信息中高效检索和推理。它不仅在复杂任务上表现卓越,在SimpleQA基准测试这类简单任务中,性能也超过所有其他模型产品。该项目在GitHub已获得超5000颗星,并曾拿下每日增长趋势第一名。其开源意义重大,打破了闭源系统在信息检索领域的垄断地位,为全球开发者提供了媲美Deep Research的开源解决方案。


推理模型:登顶全球开源冠军

7月25日发布的Qwen3-235B-A22B-Thinking-2507堪称本周最重磅产品。在各项测试中成绩优异,AIME25(数学)达到92.3分,LiveCodeBench v6(编程)获得74.1分,WritingBench(写作)达到88.3分,PolyMATH(多语言数学)获得60.1分。从更详细榜单表现看,相较于其他模型也毫不逊色。该模型采用MoE架构,总参数235B,激活参数22B,拥有94层结构和128个专家系统,原生支持262,144 tokens上下文长度,专为思考模式构建,默认聊天模板自动包含思考标签,为深度推理提供强大支撑。OpenRouter数据显示,阿里千问的API调用量在过去几天暴涨,已超过1000亿tokens,包揽最热门调用模型前三名,全球网友也惊叹于这款最强推理模型,有网友称其为“中国的开源o4 - mini”,AI Thinkers评论“中国刚刚发布了一款怪物级的AI模型”。


以上文章由 AI 总结生成

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行