机器之心 ·

无需引导采样，清华大学提出视觉模型训练新范式

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

清华大学TSAIL团队提出的免引导采样算法GFT，在视觉生成模型中实现高效训练，性能与CFG相当，且采样成本减半。GFT通过简单代码修改即可应用于多种视觉模型，显著提升生成质量与多样性。

🎯

🔎

GFT算法通过简单的代码修改即可应用于多种视觉模型，显著降低了采样成本。这种灵活性使得研究人员和开发者能够在不同的视觉生成任务中快速部署GFT，提升生成质量与多样性，适应性强。

虽然GFT与CFG在性能上相当，但GFT在计算开销和复杂度上具有明显优势。CFG需要进行有条件和无条件的双重推理，而GFT则避免了这一点，降低了训练成本，适合资源有限的环境。

GFT算法在训练过程中仅需增加约20%的时间，却能节约50%的采样成本。这一特性使得GFT在实际应用中更具经济性，尤其是在大规模模型训练时，能够有效降低整体开支。

❓

GFT算法在视觉生成模型中实现高效训练，性能与CFG相当，且采样成本减半。

GFT可以通过简单代码修改应用于多种视觉模型，如扩散、自回归和掩码模型。

GFT通过调节采样时的温度系数来平衡生成质量与多样性。

GFT不显式参数化有条件视觉模型，而是将其表示为采样模型和无条件模型的线性组合。

GFT训练高效，节约50%采样成本，仅需增加约20%训练时间。

实验表明GFT在多个模型上表现优异，能够无损转换CFG预训练模型，能力与CFG模型持平甚至更优。

🏷️