AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

上海交通大学的研究人员发现,现有的AI画家模型无法准确绘制“茶杯中的冰可乐”场景,因为文本与图像之间存在不对齐问题。他们提出了一种名为MoCE的方法,通过将顺序作画的规律融入到模型的采样过程中,成功找回了消失的茶杯。实验结果显示,MoCE方法在修复概念对的准确性上表现优于其他基准模型。此外,现有的自动化评价指标也无法准确评估茶杯中的冰可乐场景。这项研究将在欧洲计算机视觉大会上发表。

🎯

关键要点

  • 上海交通大学研究人员发现现有AI画家模型无法准确绘制'茶杯中的冰可乐'场景,存在文本与图像不对齐问题。
  • 提出了一种名为MoCE的方法,通过将顺序作画的规律融入模型的采样过程中,成功找回了消失的茶杯。
  • MoCE方法在修复概念对的准确性上表现优于其他基准模型。
  • 现有的自动化评价指标无法准确评估'茶杯中的冰可乐'场景,研究将在欧洲计算机视觉大会上发表。
  • 文本图像不对齐问题是图像生成领域的重要方向,包含隐藏变量的不对齐问题被称为LC-Mis。
  • 研究设计了基于大语言模型的系统,快速收集与'茶杯中的冰可乐'类似的问题概念对。
  • 采用人工评估方式对生成的图像进行评级,发现现有自动化评价指标存在缺陷。
  • MoCE方法通过调整采样步数N,成功找回图像中的茶杯,并显著降低了LC-Mis概念对的占比。
  • MoCE的性能在一定程度上超越了需要大量数据标注的Dall・E 3。
  • 现有评价指标对茶杯中的冰可乐评分低,表明其无法有效参与LC-Mis问题的评价。
➡️

继续阅读