小红花·文摘

本研究提出了一种新方法TAP-VL，旨在提升视觉-语言模型处理图像中文本信息的能力。通过将光学字符识别（OCR）信息作为独立模态与模型集成，TAP-VL在多个基准测试中显著提高了性能，展示了其在图像理解中的潜力。