UNIT:将图像与文本识别统一于一个视觉编码器
📝
内容提要
本研究解决了现有视觉编码器在图像与文本识别上的局限性,提出了一种名为UNIT的新训练框架,旨在将图像和文本识别整合于单一模型中。通过多尺度输入的统一表示学习和缩放交换数据的微调,UNIT显著提升了文本识别能力,同时保持了图像识别的核心性能,展示了其在文档相关任务中的优越表现。
➡️
本研究解决了现有视觉编码器在图像与文本识别上的局限性,提出了一种名为UNIT的新训练框架,旨在将图像和文本识别整合于单一模型中。通过多尺度输入的统一表示学习和缩放交换数据的微调,UNIT显著提升了文本识别能力,同时保持了图像识别的核心性能,展示了其在文档相关任务中的优越表现。