本研究提出了一种新方法TAP-VL,旨在提升视觉-语言模型处理图像中文本信息的能力。通过将光学字符识别(OCR)信息作为独立模态与模型集成,TAP-VL在多个基准测试中显著提高了性能,展示了其在图像理解中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。