卡通幻觉检测:姿势感知上下文视觉学习

📝

内容提要

使用大规模文本到图像模型生成训练数据在各种生成领域已经成为一种常见方法;然而,特别是在卡通角色等非逼真风格中,仍然存在感知上的关键缺陷的视觉幻觉问题;我们提出了一种针对由文本到图像模型生成的卡通角色图像的新型视觉幻觉检测系统;我们的方法利用了使用 RGB 图像和姿势信息的姿势感知上下文视觉学习(PA-ICVL)和视觉语言模型(VLMs),通过引入来自微调的姿势估计的姿势指导,使得 VLMs...

➡️

继续阅读