一幅图千言万语,但是否人人听得懂?关于进行图像翻译以便符合文化相关性的研究
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该工作使用生成模型进行图像跨文化翻译,并通过人工评估翻译后的图像的文化相关性和意义保持。发现图像编辑模型失败,但通过循环利用LLMs和检索器可以改进。在概念数据集中,最佳流程只能翻译5%的国家图像,在应用数据集中有些国家无法成功翻译,凸显了任务的挑战性。
🎯
关键要点
- 该工作使用生成模型进行图像跨文化翻译。
- 构建了一个包含概念和应用的评估数据集。
- 通过多方位的人工评估评估翻译后的图像的文化相关性和意义保持。
- 发现图像编辑模型在任务上失败。
- 利用LLMs和检索器的循环可以改进翻译效果。
- 在概念数据集中,最佳流程只能翻译5%的国家图像。
- 在应用数据集中,有些国家无法成功翻译,凸显任务的挑战性。
➡️