该研究提出了HumanVBench基准,旨在评估多模态大语言模型在视频理解中的表现。通过设计17个任务,衡量视频模型在情感、行为和语言复杂性方面的性能限制,推动该领域的发展。
完成下面两步后,将自动完成登录并继续当前操作。