小红花·文摘

该研究提出了HumanVBench基准，旨在评估多模态大语言模型在视频理解中的表现。通过设计17个任务，衡量视频模型在情感、行为和语言复杂性方面的性能限制，推动该领域的发展。