WBench是一个评测基准,专注于交互式视频世界模型,旨在提高模型在动作、反馈和场景变化中的稳定性。通过多轮交互评测,WBench帮助开发者识别模型弱点,推动AI系统的可靠性工程。开源的WBench促进团队间的比较与协作,强调在产品上线前建立评测闭环,以确保系统的稳定性和可操作性。
美团LongCat团队开源的WBench是首个针对交互式视频世界模型的多轮评测基准,能够精准定位在“被动观看”到“主动交互”过程中的瓶颈。
完成下面两步后,将自动完成登录并继续当前操作。