一幅图千言万语,但是否人人听得懂?关于进行图像翻译以便符合文化相关性的研究
原文中文,约300字,阅读约需1分钟。发表于: 。在这项工作中,我们建立了三个流程,使用最先进的生成模型来将图像进行跨文化翻译,并构建了一个包含概念和应用的评估数据集,通过多方位的人工评估来评估翻译后的图像的文化相关性和意义保持。我们发现,目前图像编辑模型在这一任务上失败,但通过利用 LLMs 和检索器的循环可以改进。在较容易的概念数据集中,最佳流程只能翻译一些国家图像的 5%,而在应用数据集中有些国家则无法成功翻译,凸显了这一任务的挑战性。
该工作使用生成模型进行图像跨文化翻译,并通过人工评估翻译后的图像的文化相关性和意义保持。发现图像编辑模型失败,但通过循环利用LLMs和检索器可以改进。在概念数据集中,最佳流程只能翻译5%的国家图像,在应用数据集中有些国家无法成功翻译,凸显了任务的挑战性。