AnyTrans:用大规模模型翻译图像中的任意文本

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本文介绍了AnyTrans框架,用于Translate AnyText in the Image (TATI)任务,结合文本和视觉元素的上下文线索,采用LLMs的少样本学习能力,实现碎片化文本的翻译,同时保留风格和真实感。框架可完全使用开源模型构建,无需训练,易于获取和扩展。编制了名为MTIT6的测试数据集,包含六种语言对的多语言文本图像翻译数据。

🎯

关键要点

  • 本文介绍了AnyTrans框架,用于Translate AnyText in the Image (TATI)任务。
  • 框架结合文本和视觉元素的上下文线索,利用大规模模型的优势。
  • 采用LLMs的少样本学习能力,考虑整体上下文翻译碎片化文本。
  • 扩散模型的修复和编辑能力使翻译文本无缝融合到原始图像中,保留风格和真实感。
  • 框架可完全使用开源模型构建,无需训练,易于获取和扩展。
  • 编制了名为MTIT6的测试数据集,包含六种语言对的多语言文本图像翻译数据。
➡️

继续阅读