小红花·文摘

上海交通大学的研究团队提出了一个多模态基准测试，用于评估大模型检测冲突指令的能力。研究人员发现当前的大模型在处理自相矛盾的指令时存在不足，缺乏自我意识和认知能力。为了提高矛盾检测能力，研究人员提出了一种插入式提示方法，可以从外部世界注入认知能力。这项研究将在欧洲计算机视觉大会上发表。

Prompt自相矛盾，大模型能发现吗？上海交通大学最新研究解密

量子位 ·

研究人员提出了一种灵活的注意力机制FlexAttention，通过使用高分辨率和低分辨率标记编码图像，并只利用低分辨率标记和一些选定的高分辨率标记来计算注意力图，从而显著减小了计算成本。实验证明，FlexAttention在多模态基准测试中提高了约9％，在TextVQA上提高了约7％，同时将计算成本显著降低约40％。

高分辨率视觉 - 语言模型的高效灵活注意力机制

BriefGPT - AI 论文速递 ·

PaLI-3是一种更小、更快、更强的视觉语言模型，具有更好的比较性能。SigLIP预训练模型的PaLI在标准图像分类基准上略有弱势，但在多模态基准测试中表现出优越的性能，特别是在定位和视觉文本理解方面。SigLIP图像编码器已扩展到20亿参数，并在多语言交叉模态检索方面取得了新的最先进水平。希望PaLI-3能够推动新一代扩展模型的发展。

PaLI-3 视觉语言模型：更小、更快、更强

BriefGPT - AI 论文速递 ·