小红花·文摘

大语言模型在计算机视觉领域中通过不同接口机制实现图像字幕和视觉问题回答任务。实验评估发现现有机制在多个任务中表现更好，并识别出一种新的接口机制，获得接近最优结果并降低训练时间。