Can Vision-Language Models Understand and Interpret Dynamic Gestures from Pedestrians? Preliminary Datasets and Exploration for Instructive Nonverbal Commands in Cooperative Autonomous Vehicles

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨了视觉语言模型在自动驾驶中对行人动态手势的理解能力,并创建了两个手势数据集。结果表明,现有模型在手势解读方面的准确性不足,强调了进一步研究的必要性。

🎯

关键要点

  • 本研究探讨了视觉语言模型在自动驾驶中对行人动态手势的理解能力。
  • 研究创建并公开了两个包含不同形式和非正式手势的数据集。
  • 现有模型在手势理解方面的准确性不足。
  • 研究强调了在该领域进一步研究的必要性。
➡️

继续阅读