机器之心 ·

AI画家的「滑铁卢」：为什么冰可乐不愿意住进茶杯里？

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

上海交通大学的研究人员发现，现有的AI画家模型无法准确绘制“茶杯中的冰可乐”场景，因为文本与图像之间存在不对齐问题。他们提出了一种名为MoCE的方法，通过将顺序作画的规律融入到模型的采样过程中，成功找回了消失的茶杯。实验结果显示，MoCE方法在修复概念对的准确性上表现优于其他基准模型。此外，现有的自动化评价指标也无法准确评估茶杯中的冰可乐场景。这项研究将在欧洲计算机视觉大会上发表。

🎯

关键要点

上海交通大学研究人员发现现有AI画家模型无法准确绘制'茶杯中的冰可乐'场景，存在文本与图像不对齐问题。
提出了一种名为MoCE的方法，通过将顺序作画的规律融入模型的采样过程中，成功找回了消失的茶杯。
MoCE方法在修复概念对的准确性上表现优于其他基准模型。
现有的自动化评价指标无法准确评估'茶杯中的冰可乐'场景，研究将在欧洲计算机视觉大会上发表。
文本图像不对齐问题是图像生成领域的重要方向，包含隐藏变量的不对齐问题被称为LC-Mis。
研究设计了基于大语言模型的系统，快速收集与'茶杯中的冰可乐'类似的问题概念对。
采用人工评估方式对生成的图像进行评级，发现现有自动化评价指标存在缺陷。
MoCE方法通过调整采样步数N，成功找回图像中的茶杯，并显著降低了LC-Mis概念对的占比。
MoCE的性能在一定程度上超越了需要大量数据标注的Dall・E 3。
现有评价指标对茶杯中的冰可乐评分低，表明其无法有效参与LC-Mis问题的评价。

❓

延伸问答

为什么现有的AI画家模型无法绘制'茶杯中的冰可乐'场景？

现有的AI画家模型无法绘制'茶杯中的冰可乐'场景是因为存在文本与图像之间的不对齐问题，即模型无法正确理解和生成场景中的元素。

MoCE方法是如何解决AI绘图中的问题的？

MoCE方法通过将顺序作画的规律融入模型的采样过程中，成功找回了消失的茶杯，从而提高了图像生成的准确性。

研究中提到的LC-Mis问题是什么？

LC-Mis问题指的是在图像生成中，隐藏变量未在文本提示中出现却影响生成结果的现象，例如透明玻璃杯替代茶杯。

现有的自动化评价指标在评估'茶杯中的冰可乐'时存在哪些缺陷？

现有的自动化评价指标无法有效识别'茶杯中的冰可乐'，因为它们对透明玻璃杯的评分偏高，未能准确反映茶杯的概念。

MoCE方法与Dall・E 3相比有什么优势？

MoCE方法在某些方面的性能超越了Dall・E 3，尤其是在处理需要大量数据标注的任务时，表现更为优越。

这项研究的成果将在哪个会议上发表？

这项研究的成果将发表在2024年10月的第18届欧洲计算机视觉大会（ECCV）上。

🏷️