小红花·文摘

通过融合目标检测和光学字符识别模型，研究改善细粒度图像理解能力。实验结果显示，改进后的多模态大型语言模型在视觉任务中表现优异，超过了先进模型。发布代码以进一步探索多模态对话能力的应用。