利用 YOLO-World 和 GPT-4V LMMs 在无人机图像中实现零样本人员检测和动作识别

本文探讨了零样本大型多模态模型(Large Multimodal Models,LMMs)在无人机感知领域的潜力以及其在人体检测和动作识别任务中的应用。研究结果表明,YOLO-World 在检测性能上表现良好,而 GPT-4V 在准确分类动作类别上有困难,但在过滤不需要的区域提案和提供场景的总体描述方面取得了有希望的结果。该研究为利用 LMMs 进行无人机感知奠定了基础,并为进一步探索该领域提供了初始步骤。

研究发现,当LLM(GPT-4)只有对象检测和分割视觉模型的访问权限时,它可以直接预测操作技能的密集序列的末端执行器姿态。LLMs具备理解低级机器人控制的能力,并能检测到失败并重新规划轨迹。

原文中文,约400字,阅读约需1分钟。发表于:
阅读原文