One-for-All:上交大提出视觉推理的符号化与逻辑推理分离的新范式 | ECCV 2024 - 晓飞的算法工程笔记
本论文研究了视觉推理的两个阶段:符号化和逻辑推理。实验发现,分离的编码器和共享的推理器在跨领域推理中具有更好的泛化能力。论文还探讨了符号化阶段的深度和推理器的架构。实验结果表明,仅共享推理器的性能优于其他设计,并且随着训练数据和任务的增加,推理器在跨领域任务上的表现会更好。最后,论文验证了使用多个领域数据训练推理器可以提高其泛化能力。
原文中文,约8100字,阅读约需20分钟。