DIMT25@ICDAR2025:HW-TSC的端到端文档图像机器翻译系统,利用大型视觉语言模型

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究提出了一种针对文档图像机器翻译复杂布局问题的技术解决方案,结合多任务学习与感知链思维,构建了高效的端到端翻译系统,显著提升了OCR和非OCR文档的翻译效果。

🎯

关键要点

  • 本研究针对文档图像机器翻译中的复杂布局问题。
  • 提出了华为翻译服务中心的技术解决方案。
  • 结合多任务学习与感知链思维的训练框架。
  • 构建了一个全面的端到端翻译系统。
  • 显著提升了OCR和非OCR文档图像翻译任务的效果。
  • 展示了高效的文档翻译方法。
➡️

继续阅读