清华大学携手英伟达、斯坦福共同提出监督学习新方案NFT,通过构造“隐式负向模型”利用负向数据训练正向模型,这一创举弥合了监督学习与强化学习的差距,使两者性能相当,同时在与主流算法对比中展现优势,为机器学习领域带来新的思考与突破。
NFT方案:创新的监督学习模式
NFT(Negative-aware FineTuning)是清华大学与英伟达、斯坦福联合提出的新监督学习方案。它基于RFT(Rejection FineTuning)算法,通过构造“隐式负向模型”,利用负向数据训练正向模型,即“隐式负向策略(Implicit Negative Policy)”。这一策略弥合了监督学习和强化学习的差距,使两者性能基本持平。值得一提的是,NFT损失函数梯度和GRPO在On-Policy条件下是等价的,意味着GRPO中人为经验设置的“Group Relative Normalization”方案可通过理论推导得出。
NFT的在线强化过程
NFT定义了一个在线强化过程:首先是数据采样,语言模型自己产生大量数学问题答案,通过01奖励函数分为正确和错误两类,并统计每个问题回答准确率;其次是隐式策略建模,利用原始模型和待训练正向模型,构造隐式负向策略来建模负向数据;最后是策略优化,在正确数据上直接监督训练正向策略模型,在错误数据上通过隐式负向策略拟合建模来优化正向策略模型。
与其他算法对比优势显著
与当下性能最优的强化学习算法相比,NFT性能持平,部分场景更具优势,因其可在现有监督学习框架基础上简单实现。与主流RLHF算法对比,NFT7B性能超过GRPO、DAPO;32B性能和DAPO基本持平。同时,研究团队观察到模型越大,NFT和RFT算法性能差异越明显,暗示负向反馈在大模型中作用更重要。与其他基于Qwen - 7B zero style训练模型相比,NFT达到最高数学平均成绩。此外,NFT算法在不损失性能条件下有利于模型熵增加,鼓励模型充分探索。
研究意义与项目公开信息
NFT算法指出并弥合了强化学习和监督学习的本质差异,暗示两套机器学习理论存在深层联系,能帮助研究者重新定位、思考和放大强化训练的本质优势。目前,项目网页(https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/ )、论文链接(https://arxiv.org/pdf/2505.18116 )、项目代码(https://github.com/NVlabs/NFT )均已公开。
以上文章由 AI 总结生成