幻觉校正能否改善视频语言对齐?

📝

内容提要

本文解决了大规模视觉语言模型中产生的幻觉内容不与视觉输入对齐的问题。通过提出自我训练框架HACA,利用幻觉校正作为训练目标,增强了模型在时空推理中视频和文本表示的对齐能力。实验结果表明,幻觉校正启发的任务显著提高了视频标题绑定和文本到视频检索的效果,展现了其在视觉与语言对齐方面的有效性。

➡️

继续阅读