现场互动的测试平台:健身教练指导
原文中文,约500字,阅读约需1分钟。发表于: 。在视觉和语言交叉领域的任务中,对话型助手等视觉语言模型的能力得到了重大提升。然而,现有任务训练的模型主要局限于轮流交互,用户每一轮都必须进行提示。在现实时间内,基于正在发展的情况,AI 模型主动提供及时反馈的无限制的异步交互是一个开放性挑战。本研究提出 QEVD 基准和数据集,并在具有挑战性但又可控的真实世界环境中探索人工智能与人类的互动 ——...
在视觉和语言交叉领域的任务中,对话型助手等视觉语言模型的能力得到了重大提升。本研究提出了一个健身指导的基准和数据集,要求辅助视觉语言模型能够识别复杂人类动作、找出错误并提供适当反馈。实验揭示了现有最先进的视觉语言模型在异步情境交互中的局限性。基于这一动机,提出了一个简单的端到端流式基线,可以异步响应人类动作并给出适当的反馈。