GestureGPT: 大型语言模型代理的零 - shot 交互式手势理解与 grounding
原文中文,约500字,阅读约需2分钟。发表于: 。当前的手势识别系统主要集中在识别预定义集合中的手势,无法将这些手势与交互式 GUI 元素或系统功能连接起来。我们引入了...
GestureGPT是一个利用大型语言模型的零样本手势理解和基础框架,通过手势视频中的手部地标坐标构建手势描述,并在双代理对话系统中确定用户意图并连接到交互功能。在视频流和智能家居物联网控制两个真实世界环境中进行了测试,零样本 Top-5 基础准确率最高为80.11%(视频流)和90.78%(智能家居任务)。