本研究探讨了动态场景图生成中的精度-召回权衡、三元组重要性意识不足和评估协议不当等问题。通过分析视频中的大型多模态模型,发现简单解码结构能够有效解决这些问题,并在少量微调下实现最佳效果,展现出重要的研究潜力。
完成下面两步后,将自动完成登录并继续当前操作。