9月17日凌晨,阿里开源旗下首个深度研究Agent模型通义DeepResearch,其在多个权威评测集上成绩超越OpenAI、DeepSeek等旗舰模型,登顶开源第一。这一成果不仅得益于独特训练链路与创新设计,也延续了阿里今年在开源领域的良好表现。
通义DeepResearch开源并登顶
9月17日凌晨,阿里开源旗下首个深度研究Agent模型————通义DeepResearch。该模型在HLE、BrowseComp-zh、GAIA等多个权威评测集上取得SOTA成绩,超越OpenAI Deep Research、DeepSeek-V3.1等Agent模型,目前,通义DeepResearch的模型、框架和方案均已全面开源,用户可在Github、Hugging Face和魔搭社区下载模型和代码。
应对研究热点挑战的创新解法
深度研究是近一年来的研究热点,然而现有方法普遍采用“单窗口、线性累加”的信息处理模式,在处理长周期任务时,Agent会面临“认知空间窒息”和“不可逆的噪声污染”的挑战,导致推理能力下降。为此,通义团队构建了一套以合成数据驱动、贯穿预训练与后训练的完整训练链路。该链路以Qwen3-30B-A3B模型为基座进行优化,为确保训练的高效性与模型的鲁棒性,团队创新性地设计了覆盖真实环境与虚拟环境的RL算法验证与真实训练模块,并结合高效异步强化学习算法及自动化数据策展流程,显著提升了模型的迭代速度和泛化能力。
推理阶段的双模式设计
在推理阶段,团队设计了ReAct和基于自研的IterResearch的Heavy两种模式。前者用于精准考察模型的基础内在能力,后者则通过test - time scaling策略,充分挖掘并展现了模型所能达到的性能上限,即使在长任务中,也能实现高质量的推理。在多个权威Agent评测集上,通义DeepResearch模型以3B激活参数,性能超越基于OpenAI o3、DeepSeek V3.1和Claude - 4 - Sonnet等旗舰模型的ReAct Agent。
阿里开源的延续与成果
今年以来,阿里已连续开源WebWalker、WebDancer和WebSailor等多款检索和推理智能体,并全部斩获开源SOTA成绩,通义DeepResearch的开源及登顶,是阿里在该领域持续发力的又一力证。
以上文章由 AI 总结生成