该研究提出了一种轻量级二元分类器来检测大规模视觉语言模型中的幻觉,并在四个最先进的模型上进行了评估。研究还分析了幻觉的原因和现有的缓解方法,并提出了改进的数据集和训练范式。
大规模视觉语言模型(VLMs)展示了强大的零样本泛化能力。研究者提出了选择性双教师知识迁移框架,解决了VLMs在下游任务中的遗忘和降低零样本分类能力的问题。实验证明该框架对于防止灾难性遗忘和零样本退化的最新持续学习方法是有利的。
大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。广义领域提示学习(GDPL)框架解决了学术界对 VLMs 研究受限的问题。通过小规模的特定领域基础模型和最少的提示样本,GDPL 实现了 VLMs 在特定领域的强大识别能力转移,无需大量数据或资源。实验证明了 GDPL 的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。
大规模视觉语言模型(LVLMs)在艺术品解释生成任务中存在困难,需要整合语言和视觉信息。研究者提出了一个新任务,并发布了相应的评估数据集和训练数据集。LVLMs 在仅从图像中获取知识方面存在限制。
大规模视觉语言模型(VLMs)展示了强大的零样本泛化能力。研究者提出了选择性双教师知识迁移框架,通过测量双教师VLMs的特征差异,缓解灾难性遗忘并保留零样本能力。实验证明该框架对于持续学习方法是有利的。
本研究使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战,并在等效计算成本下实现最先进性能的潜力。通过对模型解释性的影响和与VLM扩展计算性能之间的折衷,本文为大规模视觉语言模型的扩展提供了洞见,并激发了对MoE在其他多模态机器学习应用中的研究。
研究者提出了开放词汇伪装的物体分割任务(OVCOS),并构建了大规模数据集OVCamo。通过集成类别语义知识和视觉结构线索,该方法能够有效捕捉伪装对象,并在OVCamo数据集上超过了先前的方法。希望该任务能推动开放词汇密集预测任务的研究。
完成下面两步后,将自动完成登录并继续当前操作。