腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

腾讯混元升级了AI绘画微调方法,通过Direct-Align和语义相对偏好优化(SRPO)显著提升了图像的真实感和美学评分,人工评估分数提高300%。新方法在32块H20上训练10分钟即可收敛,解决了传统模型的优化局限性,并支持在线调整奖励信号,生成图像质量显著提升。

🎯

关键要点

  • 腾讯混元升级AI绘画微调方法,人工评估分数提高300%。
  • 新方法在32块H20上训练10分钟即可收敛,解决传统模型优化局限性。
  • Direct-Align方法通过预先注入噪声,避免了只在后期步骤优化的局限。
  • 语义相对偏好优化(SRPO)将奖励变为文本控制信号,支持在线调整。
  • SRPO通过添加控制短语实现多种风格调整,提升图像真实感和美学质量。
  • 实验结果显示,SRPO在多个评估指标上优于ReFL、DRaFT等方法。
  • 经过SRPO训练的FLUX模型在真实感和美学质量上显著提升。
  • SRPO生成的图像在保持高美学质量的同时,纹理细节更加自然真实。

延伸问答

腾讯混元的AI绘画微调方法有什么创新之处?

腾讯混元的AI绘画微调方法通过Direct-Align和语义相对偏好优化(SRPO)显著提升了图像的真实感和美学评分,人工评估分数提高300%。

Direct-Align方法是如何工作的?

Direct-Align方法通过预先注入噪声,允许模型从任意时间步恢复原图,避免了只在后期步骤优化的局限,减少了“奖励作弊”的问题。

语义相对偏好优化(SRPO)如何提升图像质量?

SRPO将奖励信号转变为文本控制信号,通过添加正面和负面提示词在线调整奖励,从而实现多种风格调整,提升图像的真实感和美学质量。

腾讯混元的新方法在训练时间上有什么优势?

新方法在32块H20上训练10分钟即可收敛,显著缩短了传统模型的训练时间。

SRPO与传统方法相比有什么优势?

SRPO在多个评估指标上优于传统方法,如ReFL和DRaFT,能够更灵活地适应用户需求,且生成的图像质量更高。

经过SRPO训练的FLUX模型在评估中表现如何?

经过SRPO训练的FLUX模型在真实感和美学质量上显著提升,人工评估中优秀率分别从8.2%提升至38.9%,美学质量从9.8%提升至40.5%。

➡️

继续阅读