该研究提出了一种轻量级二元分类器来检测大规模视觉语言模型中的幻觉,并在四个最先进的模型上进行了评估。研究还分析了幻觉的原因和现有的缓解方法,并提出了改进的数据集和训练范式。
本研究使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战,并在等效计算成本下实现最先进性能的潜力。通过对模型解释性的影响和与VLM扩展计算性能之间的折衷,本文为大规模视觉语言模型的扩展提供了洞见,并激发了对MoE在其他多模态机器学习应用中的研究。
研究者提出了开放词汇伪装的物体分割任务(OVCOS),并构建了大规模数据集OVCamo。通过集成类别语义知识和视觉结构线索,该方法能够有效捕捉伪装对象,并在OVCamo数据集上超过了先前的方法。希望该任务能推动开放词汇密集预测任务的研究。
本文研究了大规模视觉-语言模型的集成方法,通过选择具有高度互补性的多种模型来解决任务,实验结果表明集成模型的准确率潜在提升很大。
完成下面两步后,将自动完成登录并继续当前操作。