文本字符串中的视觉感知

本研究解决了大型语言模型和多模态大型语言模型在视觉理解中的能力差距，特别是在ASCII艺术的识别任务上。通过构建评价数据集并进行模型性能基准测试，发现虽然人类准确率接近100%，但当前最先进的模型平均准确率仅约为30%。研究强调了改进多模态信息融合训练技术的必要性，以提高模型的整体表现。

研究通过结合目标检测和光学字符识别模型，提升多模态大型语言模型的图像理解能力，减少虚构现象。实验显示，该方法在视觉任务中提高性能，并在10个基准测试中有9个超越先进模型，平均得分提升12.99%。此研究推动了多模态理解领域的发展，并通过发布代码促进细粒度多模态对话能力的应用。

光学字符识别图像理解多模态字符串模型性能目标检测