上海交通大学与上海人工智能实验室联合团队取得重大突破,通过“经验学习”新范式,用仅7B参数的AI智能体(ML-Agent)在9个机器学习任务上实现迭代进化,设计出超越671B Deepseek-R1驱动智能体所设计的AI模型,开创AI4AI新路径,且该智能体在性能上展现诸多优势,还与相关开源社区活动紧密相连。
传统自主机器学习的困境与AI4AI的兴起
当前AI开发严重依赖人类专家手动实验与反复调参,这种以人为中心的方式制约创新速度与通向通用人工智能(AGI)的进程。传统机器学习工程繁琐低效,研究人员常需数天至数月进行模型设计、参数调优等操作,限制AI创新发展。基于大语言模型(LLM)的智能体虽带来变革,能实现自主机器学习,但仍高度依赖人工设计的提示词,存在“等待 - 修改 - 重试”的低效循环,难以摆脱人力依赖与效率瓶颈。为突破限制,AI-for-AI(AI4AI)应运而生,旨在让AI智能体自主设计、优化和改进AI算法,减少人类干预,加速迭代开发周期。
联合团队的创新突破:从指令遵循到自我进化
上海交通大学与上海人工智能实验室联合团队为解决上述关键限制,首次探索基于学习的智能体自主机器学习范式,让智能体通过在线强化学习从机器学习任务执行轨迹中学习,主动探索策略,跨任务积累知识,逐步优化决策,从自身经验中学习并提升设计优化AI的能力。基于此,研究人员训练出由7B规模Qwen2.5大模型驱动的自主机器学习智能体ML-Agent,其在9个机器学习任务上反复学习后,不仅超越671B规模的DeepSeek-R1智能体,还展现出卓越的跨任务泛化能力,标志着AI智能体从“工具执行者”向“自主学习者”转变,带来“AI自主设计AI”新范式。
解锁AI自进化的三大核心突破
研究团队提出全新训练框架,攻克自主机器学习三大难题。其一,针对传统自主机器学习智能体创新受限问题,采用探索增强微调,通过多样化专家轨迹数据集训练智能体尝试不同策略,拓宽探索范围,增强策略生成能力;其二,针对传统RL方法在机器学习实验中采样效率低下问题,采用逐步强化学习范式,重构训练目标函数,每次只优化单步动作,提升数据收集效率,缩短训练时间;其三,针对实验反馈复杂难以统一问题,设计机器学习定制化奖励模块,将多样执行结果转换为统一反馈,为RL优化提供有效奖励信号,推动智能体持续迭代改进。
ML-Agent的卓越性能表现
研究团队对ML-Agent开展广泛实验评估其性能。与5个强大的开源/闭源LLM驱动的智能体比较,ML-Agent在见过/未见过的机器学习任务中的平均和最好性能均最高,在所有10个未见过的机器学习任务上超过671B的Deepseek-R1驱动的自主机器学习智能体,展现强大泛化能力。与专门为自主机器学习设计的LLM智能体AIDE比较,ML-Agent总体更优,凸显训练框架有效性。随着训练进行,ML-Agent不断自我探索学习,在训练过/未经训练过的机器学习任务上性能持续提升,最终超越所有基线方法。
ML-Agent与MASWorks开源社区及相关活动
ML-Agent是刚发起的大模型多智能体开源社区MASWorks的一部分。MASWorks社区致力于连接全球研究者,打造开放、协作平台推动多智能体系统领域发展。作为社区启动重磅活动,MASWorks将在ICML 2025举办聚焦大语言模型多智能体的Workshop:MAS-2025,期待全球学者参与探讨,描绘该领域未来蓝图。
以上文章由 AI 总结生成