分享好友 资讯首页 频道列表

清华、英伟达、斯坦福联合提出监督学习新方案NFT,弥合与强化学习差距

2025-06-23 16:5300

清华大学携手英伟达、斯坦福共同提出监督学习新方案NFT,通过构造“隐式负向模型”利用负向数据训练正向模型,这一创举弥合了监督学习与强化学习的差距,使两者性能相当,同时在与主流算法对比中展现优势,为机器学习领域带来新的思考与突破。


NFT方案:创新的监督学习模式

NFT(Negative-aware FineTuning)是清华大学与英伟达、斯坦福联合提出的新监督学习方案。它基于RFT(Rejection FineTuning)算法,通过构造“隐式负向模型”,利用负向数据训练正向模型,即“隐式负向策略(Implicit Negative Policy)”。这一策略弥合了监督学习和强化学习的差距,使两者性能基本持平。值得一提的是,NFT损失函数梯度和GRPO在On-Policy条件下是等价的,意味着GRPO中人为经验设置的“Group Relative Normalization”方案可通过理论推导得出。


NFT的在线强化过程

NFT定义了一个在线强化过程:首先是数据采样,语言模型自己产生大量数学问题答案,通过01奖励函数分为正确和错误两类,并统计每个问题回答准确率;其次是隐式策略建模,利用原始模型和待训练正向模型,构造隐式负向策略来建模负向数据;最后是策略优化,在正确数据上直接监督训练正向策略模型,在错误数据上通过隐式负向策略拟合建模来优化正向策略模型。


与其他算法对比优势显著

与当下性能最优的强化学习算法相比,NFT性能持平,部分场景更具优势,因其可在现有监督学习框架基础上简单实现。与主流RLHF算法对比,NFT7B性能超过GRPO、DAPO;32B性能和DAPO基本持平。同时,研究团队观察到模型越大,NFT和RFT算法性能差异越明显,暗示负向反馈在大模型中作用更重要。与其他基于Qwen - 7B zero style训练模型相比,NFT达到最高数学平均成绩。此外,NFT算法在不损失性能条件下有利于模型熵增加,鼓励模型充分探索。


研究意义与项目公开信息

NFT算法指出并弥合了强化学习和监督学习的本质差异,暗示两套机器学习理论存在深层联系,能帮助研究者重新定位、思考和放大强化训练的本质优势。目前,项目网页(https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/ )、论文链接(https://arxiv.org/pdf/2505.18116 )、项目代码(https://github.com/NVlabs/NFT )均已公开。


以上文章由 AI 总结生成

反对 0
举报 0
收藏 0
打赏 0
评论 0
美麻省理工学院研究表明:过度使用AI或致大脑功能减弱、认知能力下降
美国麻省理工学院的一项研究引发广泛关注,该研究表明,过度使用以ChatGPT为代表的AI,不仅可能导致大脑神经连接减少、脑电波参

0评论2025-06-240

网易有道开源“子曰3”数学模型,推动教育领域大模型应用
6月23日,网易有道宣布正式开源“子曰3”系列大模型的数学模型,这是国内首个专注数学教育、可在单块消费级GPU上高效运行的开源

0评论2025-06-240

斯坦福大学团队构建计算模型,助力3D打印器官快速设计血管网络
近日,美国斯坦福大学Alison Marsden及团队在《科学》发表研究成果,他们构建了一种计算模型,可基于数学规律为3D打印器官快速设

0评论2025-06-2336

雅马哈2025款T700S低调上市,10.98万元售价性价比遭质疑
雅马哈近日低调推出2025款T700S拉力车,价格仍为109,800元。尽管新款在配置上有所升级,然而在当下竞争激烈的国内摩托车市场,

0评论2025-06-2335

OpenAI创始人Sam Altman官宣:将推出开源模型,GPT-5今夏迈向多模态
OpenAI创始人Sam Altman在与YC总裁的访谈中带来重大消息,OpenAI即将推出强大的开源模型,且GPT-5预计今年夏天亮相,迈向完全多

0评论2025-06-2343

经济日报:服务中小企业,要引导广大中小企业走专精特新发展之路
前不久,工业和信息化部印发通知,以促进中小企业高质量发展为目标,聚焦企业需求,化解痛点难点,激发创新活力。中小企业联系千

0评论2025-06-2392

亚马逊创始人贝佐斯威尼斯奢华婚礼,遭反旅游人士抗议
下周,亚马逊创始人杰夫·贝佐斯与未婚妻劳伦·桑切斯将在威尼斯举办一场耗资1000万美元的奢华婚礼。然而,这场婚礼却引发了当地

0评论2025-06-22110

华为启动2025 HarmonyOS创新赛,开发者最高可获百万激励
2025年6月21日,华为正式宣布启动鸿蒙生态最大规模开发者官方赛事————2025 HarmonyOS创新赛,总奖金池近千万,单个开发者最

0评论2025-06-22106

NASA的Psyche号航天器切换至备用燃料管线,重启等离子推进器继续深入太阳系巡航
近日,NASA价值14亿美元的Psyche号航天器,在切换至备用燃料管线后,重新点燃等离子推进器,继续其前往探索同名富含金属小行星的

0评论2025-06-22105

数字化转型深水区:传统企业组织文化变革的破局之道
国际咨询机构麦肯锡最新研究显示,47.8%的传统企业数字化转型因组织文化冲突失败,而非技术缺陷。这一数据揭示了一个残酷现实:

0评论2025-06-2183