小红花·文摘

该论文介绍了一种新的上下文学习机制，In-Image Learning（I²L），通过将示范示例、视觉线索和指令结合到一张图像中，增强了GPT-4V的能力。实验结果表明，I²L在复杂多模态推理任务中有效，并对语言幻觉和视觉错觉有缓解作用。