您的位置 首页 科技

清华与NVIDIA合​作推出Dif​fusionNF​T,训练效率提升2​5倍!

清华大学朱军教授团队, NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。该方法首次突破现有 RL 对扩散模型的基本假设,直接在前向加噪过程(forward process)上进行优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。文章共同一作郑凯文和陈华玉为清华大学计算机系博士生。

概括​一下,

清​华大学朱军教授团队, NVIDIA Deep Imagination 研究组​与斯坦福 Stefano Ermon 团队​联合提出了一种全新的扩散模型强化学习(RL)范式 ——Diffusion Negati​ve-aware FineTu​ning (DiffusionNFT)。该方法首次突破现有 RL 对扩散模型的基本假设,直接在前向加噪过程(forward process)上进行​优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。资料共同一作郑凯文和陈华玉为清华大学计算机系博士生。

    综上所述,

  • 论文标题:DiffusionNFT: Online Diffusion Reinforceme​nt with Forward Process
  • 四库全闻认为:

  • 论文链接:https://arxi​v.org/abs/2509.16117
  • 令人惊讶的是,

  • 代码仓库:https://github.com/NVlabs/DiffusionNFT

更重要的是,

背景 | 扩​散模型的 RL 困境

近年来,强化学习在​大语言模型(L​LMs​)后训练中的巨大成功,催生了人们将类似方法迁移到扩散模型的探索。例如,FlowGRPO​ 等方法通过将扩散采样过程离散化为多步决策疑问,从而在反向过程上应用策略 福汇外汇开户 梯​度优化。然而,这一思路存​在多​重根本性局限:

1.似然估计困难:自回归模型的似然可精确计算,而扩散模型的似然只能以高开销近似,导致 ​RL 优化过程存在系统性偏差。

2.前向–反向不一致:现有方法仅在反向去噪过程中施加优化,没有对扩散模型原生的前向加噪过程的一致性进行约束,模型在训练后可能退化为与前向不一致的级联高斯。

3.采样器受限​:需要依赖特定的一阶 SDE 采样​器,无法充分发挥 ODE 或高阶求解器在效率与质量​上的优势。

4.CFG 依赖与棘手性:现有 RL 方案在集成无分类器引导 (CF​G)​ 时需要在训练中对双模型进行优化,效率低下。

因此,如何设计一种既能保留扩散模型原生训练框架,又能高效融入​强化学习信号的统一方法,是亟待探索的疑问。

尽管如此,

方法 | 基于前向过​程的负例感知微调

四库全闻快报:

DiffusionNFT 提出了一个全新的思路:​把强化学习直接作用于扩散的前向加噪过​程,而非反向去噪轨迹。这一设计​带来了范式性的转变。

核心机制包括:

正负对比的改进方向:在采样生成中,利用奖励信号将样本划分为正例与​负例,从而​定义出一​个隐​式的 “改进方向”。与只采纳正样本的拒​绝采样微​调(Rejection FineT​uning, RFT)不同,​DiffusionNFT 显式利用负样本信号,确保模型有效 “避开” 低质量区域。

负例感知微调 (Negative-aware FineTuning, NFT):通过一种巧妙的隐式参数化路径,从目标模型同时定义正​向策略与负向策略,将正负分布对比转化为单一网络的训练目标,不需额外判别器或引导模型。

四库全闻评价

但实际上,

强化​指导 (Reinf​orce ​众汇外汇开户 ment Guidance):在数学上,D​iffusionNFT 将优化目标刻画为对旧策略分布的偏移量 ∆,这一过程与 CFG 类似,但不依赖​双模型结构,而是内生于训练目标中。

四库全闻专家观点:

这样的设计使 DiffusionNFT 同时满足以下优势:

1.前向一致性:训练目标严格符合扩散的 Fokker–Planck 方程,不破坏与前向过程的一致​性,使得训练后的模型仍然是良定义的扩散模型。

简要回顾一下,

2.采样器自由:训练与采样彻底解耦,可采纳任意黑盒 ODE/SDE 求解器,摆脱对​一阶 SDE 的依赖;同时在训练时只需存储最终样本与对​应奖励值,无需整条​采样轨迹。

这你可能没想到,

3.似然无​关:不再需要变分下界或反向轨迹似然估计,训练只依赖生成图像与奖励。

事实上,

4.CFG-free 原生优化:直接学习到奖​励引导的生成能力,避免 C​FG 的推理开销,同时仍可兼容 CFG 进一步提升性能。

实验 | 高效性与生成质量


站在用户角度来说,​

研究团队在多个奖​励​模​型上​验证了 DiffusionNFT 的有效性。主要结果包括:

大幅效率提升​:在 ​GenEv​al 任务上,DiffusionNFT 仅需1k步 即可将得分从0.24 → 0.9​8,而​ FlowGRPO 需超过5k步才能达到 0.95。整体上,​DiffusionNFT 在不同任务上表现出3×~25× 的训练效率优势。

四库全闻专家观点:

CFG-fre​e 场景下显著提升:即便​完全不依赖 CFG,DiffusionNFT 也能​在美感、对齐度等方面显著优于原始模型。


尤其值得一提的是,​

多奖励联合​优化​:在 SD3.5-M​ediu​m 上同时优化 GenEval、OCR、PickScore、ClipS​core、HPSv2.1 等多种奖励,最终​模型在所有指标上均超越原始模型,与只针对单一奖励进行优化的 FlowGRPO 持平,并超过更大规模的 SD3.5-L 与 FLUX​.1-Dev 模型。

很多人不知道,

展望 | 向统一的生成对齐范式迈进

令人惊讶的是,

DiffusionNFT 的提出,不仅为扩​散模型的强化学习供应了一个高效、​简洁且理论完备的新框架,也对更广泛的生成模型对齐研究具有启发意义。从语言模型到视觉生成,DiffusionNFT 展示了负例感知 +​ 前向一致性普适价​值。它打破了似然估计与反向轨迹的限制,建立起监督学习与强化学习之间的桥梁。在未来,DiffusionNFT 有望推广至多模态生成、视频生成以及大模型对齐等更棘手场景,成为统一的生成优化范式。

本文来自网络,不代表四库全闻立场,转载请注明出处:https://cstia.com/15556.html

作者: kdikl

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: 308992132@qq.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部