腾讯混元开源AI绘画新框架:24维度对齐人类意图,让AI读懂复杂指令
💡
原文中文,约5900字,阅读约需14分钟。
📝
内容提要
腾讯混元团队推出的PromptEnhancer框架,通过思维链提示重写,提升AI绘画文本-图像对齐精度,准确率提高17%。该框架无需修改模型权重,适用于多种T2I模型,助力研究人员优化提示技术,并开源高质量基准测试数据集,推动AI绘画的可控性与创作效率。
🎯
关键要点
- 腾讯混元团队推出的PromptEnhancer框架,通过思维链提示重写,提升AI绘画文本-图像对齐精度,准确率提高17%。
- 该框架无需修改模型权重,适用于多种T2I模型,助力研究人员优化提示技术。
- 腾讯混元团队开源了高质量人类偏好基准测试数据集,推动AI绘画的可控性与创作效率。
- PromptEnhancer的核心创新在于构建与生成模型解耦的提示优化框架,包含CoT-based重写器与AlignEvaluator奖励模型。
- 重写器通过思维链机制将简洁指令拆解为核心元素、潜在歧义和细节补充,提升指令的精细化描述能力。
- AlignEvaluator构建了覆盖6大类别、24个关键维度的评价体系,精准定位生成图像的错误。
- PromptEnhancer通过两阶段训练提升重写器的能力,第一阶段为SFT初始化,第二阶段为GRPO强化学习。
- 在HunyuanImage 2.1模型上的测试显示,PromptEnhancer整体准确率提升5.1%,复杂场景突破显著。
- PromptEnhancer的即插即用特性适配多种主流T2I模型,提升图文对齐的真实感与美感。
- 腾讯混元团队开源的6000条Prompt及对应多维度标注的数据集,覆盖复杂创作场景,助力研究。
- PromptEnhancer的意义在于提升生成精度、降低优化成本、增强可解释性,并为后续研究提供重要参考。
- 未来,创作者可通过简单指令让AI自动补全专业细节,实现所想即所得的创作体验。
➡️