上海交通大学的研究团队提出了一个多模态基准测试,用于评估大模型检测冲突指令的能力。研究人员发现当前的大模型在处理自相矛盾的指令时存在不足,缺乏自我意识和认知能力。为了提高矛盾检测能力,研究人员提出了一种插入式提示方法,可以从外部世界注入认知能力。这项研究将在欧洲计算机视觉大会上发表。
研究人员提出了一种灵活的注意力机制FlexAttention,通过使用高分辨率和低分辨率标记编码图像,并只利用低分辨率标记和一些选定的高分辨率标记来计算注意力图,从而显著减小了计算成本。实验证明,FlexAttention在多模态基准测试中提高了约9%,在TextVQA上提高了约7%,同时将计算成本显著降低约40%。
PaLI-3是一种更小、更快、更强的视觉语言模型,具有更好的比较性能。SigLIP预训练模型的PaLI在标准图像分类基准上略有弱势,但在多模态基准测试中表现出优越的性能,特别是在定位和视觉文本理解方面。SigLIP图像编码器已扩展到20亿参数,并在多语言交叉模态检索方面取得了新的最先进水平。希望PaLI-3能够推动新一代扩展模型的发展。
完成下面两步后,将自动完成登录并继续当前操作。