清华、英伟达、斯坦福联合提出监督学习新方案NFT，弥合与强化学习差距_新闻发布_资讯

清华大学携手英伟达、斯坦福共同提出监督学习新方案NFT，通过构造“隐式负向模型”利用负向数据训练正向模型，这一创举弥合了监督学习与强化学习的差距，使两者性能相当，同时在与主流算法对比中展现优势，为机器学习领域带来新的思考与突破。

NFT方案：创新的监督学习模式

NFT（Negative-aware FineTuning）是清华大学与英伟达、斯坦福联合提出的新监督学习方案。它基于RFT（Rejection FineTuning）算法，通过构造“隐式负向模型”，利用负向数据训练正向模型，即“隐式负向策略（Implicit Negative Policy）”。这一策略弥合了监督学习和强化学习的差距，使两者性能基本持平。值得一提的是，NFT损失函数梯度和GRPO在On-Policy条件下是等价的，意味着GRPO中人为经验设置的“Group Relative Normalization”方案可通过理论推导得出。

NFT的在线强化过程

NFT定义了一个在线强化过程：首先是数据采样，语言模型自己产生大量数学问题答案，通过01奖励函数分为正确和错误两类，并统计每个问题回答准确率；其次是隐式策略建模，利用原始模型和待训练正向模型，构造隐式负向策略来建模负向数据；最后是策略优化，在正确数据上直接监督训练正向策略模型，在错误数据上通过隐式负向策略拟合建模来优化正向策略模型。

与其他算法对比优势显著

与当下性能最优的强化学习算法相比，NFT性能持平，部分场景更具优势，因其可在现有监督学习框架基础上简单实现。与主流RLHF算法对比，NFT7B性能超过GRPO、DAPO；32B性能和DAPO基本持平。同时，研究团队观察到模型越大，NFT和RFT算法性能差异越明显，暗示负向反馈在大模型中作用更重要。与其他基于Qwen - 7B zero style训练模型相比，NFT达到最高数学平均成绩。此外，NFT算法在不损失性能条件下有利于模型熵增加，鼓励模型充分探索。

研究意义与项目公开信息

NFT算法指出并弥合了强化学习和监督学习的本质差异，暗示两套机器学习理论存在深层联系，能帮助研究者重新定位、思考和放大强化训练的本质优势。目前，项目网页（https：//research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/ ）、论文链接（https：//arxiv.org/pdf/2505.18116 ）、项目代码（https：//github.com/NVlabs/NFT ）均已公开。

以上文章由 AI 总结生成