本文讨论了语言与视觉理解的挑战,提出了结合两者的联合学习解决方案。介绍了多个视觉推理模型和基准,如VisiPAM和KiloGram,强调社交共识在基准创建中的重要性,并指出当前模型在视觉推理方面的局限性及改进方向。
完成下面两步后,将自动完成登录并继续当前操作。