本研究提出了一种语言引导的少样本3D重建方法,解决了传统6D物体姿态估计对大数据集和高计算成本的依赖。该方法通过处理少量图像和语言查询,实现了高质量的3D网格重建,显著提高了准确性和效率。
本研究提出了一种名为语言引导视觉令牌修剪(LVPruning)的方法,旨在减少多模态大型语言模型的计算负担。该方法通过评估视觉令牌的重要性,能够将视觉令牌数量减少至多90%,仅导致约0.45%的性能损失,显示出良好的应用潜力。
本文探讨了语言引导的视觉导航(VLN)任务,提出了多种新方法和模型以提升智能体在连续环境中的导航表现。研究表明,结合大语言模型(LLMs)和持续学习机制,智能体的成功率可达80%。引入导航思维链和双循环场景回放,增强了导航策略的多样性和可解释性。
本文介绍了一种基于神经网络的视频分割方法,能够有效区分视频中的独立运动物体。研究利用多种信息源进行模型训练,并在多个数据集上取得良好表现。提出的自监督学习和语言引导的分割方法提升了视频表示质量和分割准确性。此外,开发了名为MeViS的大规模数据集,以支持运动表达引导的视频分割研究。
研究开发了一种名为语言引导的世界模型(LWMs),通过阅读语言描述来捕捉环境动态,提高了代理的通信效率。该模型使代理能够在执行前生成和讨论计划,增强了代理的可解释性和安全性,并使其在真实环境中的性能提高了三倍。
研究人员提出了一种名为Instruct2Attack(I2A)的基于语言引导的语义攻击方法,利用潜态扩散模型生成对抗性潜态编码,生成更自然和多样的对抗性样本。通过GPT-4自动化攻击过程,生成多样的图像特定文本指令。研究表明,I2A能够成功破解深度神经网络,并具有强大的迁移能力。
该研究开发了一个语言引导的导航任务,消除了以前关于环境的假设。通过模拟以前的工作并进行单模态基线测试,发现在连续环境中的性能明显较低,表明以前的“导航-图形”设定中的性能可能被过高评价。
本文介绍了一种名为LANCE的算法,用于自动化模型应力测试。该算法利用语言引导和文本编辑技术,增加了IID测试集的多样性和挑战性,而不改变模型权重。作者对多个预训练模型进行了测试,发现它们在性能上有显著且一致的下降。此外,作者还分析了不同类型编辑对模型的敏感性,并展示了其在揭示ImageNet中未知类别级别模型偏差方面的应用。
完成下面两步后,将自动完成登录并继续当前操作。