量子位 ·

腾讯混元开源AI绘画新框架：24维度对齐人类意图，让AI读懂复杂指令

💡 原文中文，约5900字，阅读约需14分钟。

📝

内容提要

腾讯混元团队推出的PromptEnhancer框架，通过思维链提示重写，提升AI绘画文本-图像对齐精度，准确率提高17%。该框架无需修改模型权重，适用于多种T2I模型，助力研究人员优化提示技术，并开源高质量基准测试数据集，推动AI绘画的可控性与创作效率。

🎯

关键要点

腾讯混元团队推出的PromptEnhancer框架，通过思维链提示重写，提升AI绘画文本-图像对齐精度，准确率提高17%。
该框架无需修改模型权重，适用于多种T2I模型，助力研究人员优化提示技术。
腾讯混元团队开源了高质量人类偏好基准测试数据集，推动AI绘画的可控性与创作效率。
PromptEnhancer的核心创新在于构建与生成模型解耦的提示优化框架，包含CoT-based重写器与AlignEvaluator奖励模型。
重写器通过思维链机制将简洁指令拆解为核心元素、潜在歧义和细节补充，提升指令的精细化描述能力。
AlignEvaluator构建了覆盖6大类别、24个关键维度的评价体系，精准定位生成图像的错误。
PromptEnhancer通过两阶段训练提升重写器的能力，第一阶段为SFT初始化，第二阶段为GRPO强化学习。
在HunyuanImage 2.1模型上的测试显示，PromptEnhancer整体准确率提升5.1%，复杂场景突破显著。
PromptEnhancer的即插即用特性适配多种主流T2I模型，提升图文对齐的真实感与美感。
腾讯混元团队开源的6000条Prompt及对应多维度标注的数据集，覆盖复杂创作场景，助力研究。
PromptEnhancer的意义在于提升生成精度、降低优化成本、增强可解释性，并为后续研究提供重要参考。
未来，创作者可通过简单指令让AI自动补全专业细节，实现所想即所得的创作体验。

🏷️

继续阅读

如何使用GitHub安全实验室的开源AI驱动框架扫描安全漏洞
我们利用GitHub安全实验室的任务流代理，成功发现80多个开源项目中的高影响力安全漏洞，主要涉及授权绕过和信息泄露。新任务流提高了结果验证和报告发布的效...
一分钟读论文：《ICLR2026新CAGE技术破解跨文化AI安全测试难题》
CAGE技术由韩国SelectStar公司研发，旨在解决AI安全测试中的文化偏见问题。它通过“语义模具”方法自动生成适应不同文化的红队测试数据，显著提升小...
AI 时代的人类处境：科技、宗教与生命意义的重构
在AI时代，科技与宗教的关系需重新审视。科技改变人与世界的互动，但无法消解人类对意义和死亡的思考。宗教应超越消费，关注真实修行。科学与宗教的关系可视为对立...
那个让马斯克点赞的男人，为什么还是离开了阿里？ - 蝈蝈俊
林俊旸于3月4日辞职，标志着中国AI界的重大变革。他的离开反映了开源与商业之间的矛盾，以及技术理想与管理体制的冲突。作为Qwen的核心人物，他推动了该模型...
我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...
CNCF毕业Dragonfly，标志着云原生图像分发的重要里程碑
云原生计算基金会（CNCF）宣布开源图像和文件分发系统Dragonfly已达到毕业状态，标志着其生产就绪和行业广泛采用。Dragonfly利用P2P加速技...

腾讯混元开源AI绘画新框架：24维度对齐人类意图，让AI读懂复杂指令

内容提要

关键要点

标签

继续阅读