本研究提出了一种新颖的视觉提示方法——3DAxisPrompt,旨在提升多模态大型语言模型(MLLMs)在3D视觉理解方面的能力。研究表明,该方法能有效感知物体在真实场景中的3D位置,但单一提示方法在所有3D任务中的效果有限。
本研究探讨了灵长类动物腹侧视觉流在估计物体位置和姿势等空间潜变量中的作用,发现仅训练少量空间潜变量的模型,其神经对齐得分与训练数百类别的模型相当,表明腹侧流不仅优化物体分类。
生成对抗网络(GANs)在生成逼真图像方面表现出令人印象深刻的能力。然而,现有模型在姿势和物体位置控制方面存在不足。提出了一种新模型,称为生成对抗性What-Where网络,可以根据内容和位置描述合成图像。在Caltech-UCSD Birds数据集上展示了高质量的128 x 128图像合成,具有对鸟类边界和组件的控制。初步结果还显示了在MPII Human Pose数据集上基于文本和位置的人体动作图像合成。
通过设计深度平衡解码器,提出了一种新的基于查询的目标检测器(DEQDet),能够直接预测物体位置和类别。DEQDet相较于基准模型(AdaMixer)收敛更快,内存占用更少,并取得了更好的性能表现。在MS COCO基准测试下,DEQDet使用ResNet50骨干网络和300个查询达到了49.5 mAP和33.0 APs,训练方案为2倍(24 epochs)。
完成下面两步后,将自动完成登录并继续当前操作。