One-for-All:上交大提出视觉推理的符号化与逻辑推理分离的新范式 | ECCV 2024 - 晓飞的算法工程笔记
原文中文,约8100字,阅读约需20分钟。发表于: 。通过对多样化基准的严格评估,论文展示了现有特定方法在实现跨领域推理以及其偏向于数据偏差拟合方面的缺陷。从两阶段的视角重新审视视觉推理:(1)符号化和(2)基于符号或其表示的逻辑推理,发现推理阶段比符号化更擅长泛化。因此,更高效的做法是通过为不同数据领域使用分离的编码器来实现符号化,同时使用共享的推理
本论文研究了视觉推理的两个阶段:符号化和逻辑推理。实验发现,分离的编码器和共享的推理器在跨领域推理中具有更好的泛化能力。论文还探讨了符号化阶段的深度和推理器的架构。实验结果表明,仅共享推理器的性能优于其他设计,并且随着训练数据和任务的增加,推理器在跨领域任务上的表现会更好。最后,论文验证了使用多个领域数据训练推理器可以提高其泛化能力。