本研究提出了一种新的注意力动态 DINO 框架,有效解决智能体在不同交互上下文中对手势和语言描述的误解问题,显著提升任务性能,尤其在 IoU 阈值为 0.75 时超越人类表现。
完成下面两步后,将自动完成登录并继续当前操作。