量子位 ·

腾讯混元升级AI绘画微调范式，在整个扩散轨迹上优化，人工评估分数提升300%

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

腾讯混元升级了AI绘画微调方法，通过Direct-Align和语义相对偏好优化（SRPO）显著提升了图像的真实感和美学评分，人工评估分数提高300%。新方法在32块H20上训练10分钟即可收敛，解决了传统模型的优化局限性，并支持在线调整奖励信号，生成图像质量显著提升。

🎯

🔎

腾讯混元的新微调方法通过Direct-Align和SRPO显著提升了图像生成的灵活性和效率。与传统方法相比，SRPO允许在线调整奖励信号，避免了离线调整的繁琐过程。这种灵活性使得开发者能够更快速地适应不同的图像生成需求，提升了工作效率。

SRPO在多个评估指标上超越了ReFL和DRaFT等现有技术，尤其在人工评估中表现突出。经过SRPO训练的模型在真实感和美学质量上都有显著提升，这表明新方法在实际应用中更具优势，能够生成更符合人类审美的图像。

随着SRPO技术的成熟，未来可能在艺术创作、游戏设计和广告等领域得到广泛应用。其能够通过简单的文本提示实现多种风格调整，意味着设计师可以更高效地探索创意，满足市场对个性化和高质量图像的需求。

❓

腾讯混元的AI绘画微调方法通过Direct-Align和语义相对偏好优化（SRPO）显著提升了图像的真实感和美学评分，人工评估分数提高300%。

Direct-Align方法通过预先注入噪声，允许模型从任意时间步恢复原图，避免了只在后期步骤优化的局限，减少了“奖励作弊”的问题。

SRPO将奖励信号转变为文本控制信号，通过添加正面和负面提示词在线调整奖励，从而实现多种风格调整，提升图像的真实感和美学质量。

新方法在32块H20上训练10分钟即可收敛，显著缩短了传统模型的训练时间。

SRPO在多个评估指标上优于传统方法，如ReFL和DRaFT，能够更灵活地适应用户需求，且生成的图像质量更高。

经过SRPO训练的FLUX模型在真实感和美学质量上显著提升，人工评估中优秀率分别从8.2%提升至38.9%，美学质量从9.8%提升至40.5%。

🏷️