MASH-VLM: Mitigating Action-Scene Hallucination in Video Large Language Models through Disentangled Spatial-Temporal Representations

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文提出MASH-VLM,旨在解决视频大语言模型中的动作场景幻觉问题。通过引入DST-attention机制和Harmonic-RoPE,研究有效解耦时空特征,优化位置嵌入,减少错误预测。实验结果表明,MASH-VLM在基准测试中表现优异,具有良好的应用潜力。

🎯

关键要点

  • MASH-VLM旨在解决视频大语言模型中的动作场景幻觉问题。
  • 引入DST-attention机制和Harmonic-RoPE,以有效解耦时空特征。
  • 优化位置嵌入,减少模型对场景的错误预测。
  • 实验结果表明,MASH-VLM在基准测试中表现优异,具有良好的应用潜力。
➡️

继续阅读