小红花·文摘

本文提出MASH-VLM，旨在解决视频大语言模型中的动作场景幻觉问题。通过引入DST-attention机制和Harmonic-RoPE，研究有效解耦时空特征，优化位置嵌入，减少错误预测。实验结果表明，MASH-VLM在基准测试中表现优异，具有良好的应用潜力。