小红花·文摘

该工作使用生成模型进行图像跨文化翻译，并通过人工评估翻译后的图像的文化相关性和意义保持。发现图像编辑模型失败，但通过循环利用LLMs和检索器可以改进。在概念数据集中，最佳流程只能翻译5％的国家图像，在应用数据集中有些国家无法成功翻译，凸显了任务的挑战性。