本研究提出了一种新方法,通过语言描述控制对象中心表示学习,解决了现有模型可控性不足的问题。该方法能够在复杂场景中提取特定对象的表示,并在视觉语言任务中表现优异。
本研究提出了一种新的注意力动态 DINO 框架,有效解决智能体在不同交互上下文中对手势和语言描述的误解问题,显著提升任务性能,尤其在 IoU 阈值为 0.75 时超越人类表现。
我们提出了一种通过大型预训练文本模型的语言描述来优化3D人体姿势的方法。该方法将多模态模型生成的自然语言描述转化为损失函数,以优化3D姿势。尽管方法简单,但能有效重建人与人之间的接触姿势,捕捉社交和物理互动的语义,与复杂的先进方法相媲美,并提供统一框架解决自体和人与人接触问题。
该研究提出了一种新的任务,即通过多模态输入自动生成UI元素的语言描述。研究使用众包收集了一个大规模的数据集,包含162,859个语言短语,用于深入分析。该数据集涵盖了21,750个独特UI屏幕中的61,285个UI元素的结构表示和图像。
完成下面两步后,将自动完成登录并继续当前操作。