ViPer: 个体偏好学习的生成模型视觉个性化

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了将大型预训练模型视为搜索引擎的新视角,并在文本到图像生成领域应用。通过利用用户与系统的历史互动,提高用户提示的质量,解决了个性化视觉表示的挑战。实验证明了该方法的优越性,为构建真正个性化的大型预训练模型打开了令人兴奋的可能性。

🎯

关键要点

  • 将大型预训练模型视为搜索引擎的新视角。

  • 在文本到图像生成领域应用个性化查询重写技术。

  • 个性化视觉表示仍然难以与用户期望和偏好对齐。

  • 用户需要用准确的文字表达他们的愿景,这对许多用户来说很困难。

  • 通过利用用户与系统的历史互动来提高用户提示的质量。

  • 提出基于3115个用户和超过300k个提示的新大规模文本到图像数据集。

  • 重写模型增强了用户提示与预期视觉输出之间的表达和对齐。

  • 实验证明了该方法的优越性,支持了新离线评估方法和在线测试。

  • 该方法为构建真正个性化的大型预训练模型提供了新的可能性。

➡️

继续阅读