Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新颖的视觉语言注意力蒸馏方法Vi-LAD,旨在提升机器人在动态环境中的社交意识导航能力。通过提炼社交导航知识,Vi-LAD显著提高了导航成功率,实验结果显示提升幅度达14.2%至50%。
🎯
关键要点
- Vi-LAD是一种新颖的视觉语言注意力蒸馏方法,旨在提升机器人在动态环境中的社交意识导航能力。
- 该方法通过转换模型的中间层表示来提炼社交导航知识,生成增强的注意力图。
- 实验结果显示,Vi-LAD显著提高了导航成功率,提升幅度达14.2%至50%。
- Vi-LAD将社交意识知识从大型视觉语言模型提炼到轻量级变换器模型中,以实现实时导航。
➡️