AnyTrans:用大规模模型翻译图像中的任意文本
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
本文介绍了AnyTrans框架,用于Translate AnyText in the Image (TATI)任务,结合文本和视觉元素的上下文线索,采用LLMs的少样本学习能力,实现碎片化文本的翻译,同时保留风格和真实感。框架可完全使用开源模型构建,无需训练,易于获取和扩展。编制了名为MTIT6的测试数据集,包含六种语言对的多语言文本图像翻译数据。
🎯
关键要点
- 本文介绍了AnyTrans框架,用于Translate AnyText in the Image (TATI)任务。
- 框架结合文本和视觉元素的上下文线索,利用大规模模型的优势。
- 采用LLMs的少样本学习能力,考虑整体上下文翻译碎片化文本。
- 扩散模型的修复和编辑能力使翻译文本无缝融合到原始图像中,保留风格和真实感。
- 框架可完全使用开源模型构建,无需训练,易于获取和扩展。
- 编制了名为MTIT6的测试数据集,包含六种语言对的多语言文本图像翻译数据。
➡️