本研究针对视频语言模型ResNetVLLM中的多模态幻觉问题,提出了改进的Lynx模型和动态知识库策略。实验结果表明,ResNetVLLM-2的准确率从54.8%提升至65.3%,显著增强了模型的可靠性。
大型视觉语言模型在语言理解中表现优异,但存在多模态幻觉问题。研究发现,段落分隔符号(' ')引发语义偏差是幻觉的关键。模型倾向于认为' '后的内容与之前不同,导致幻觉增加。通过在描述中插入' '验证了这一现象。提出的方法是跳过输出中的' '以减轻幻觉。
完成下面两步后,将自动完成登录并继续当前操作。