本研究提出了一种语言引导的少样本3D重建方法,解决了传统6D物体姿态估计对大数据集和高计算成本的依赖。该方法通过处理少量图像和语言查询,实现了高质量的3D网格重建,显著提高了准确性和效率。
本研究提出了一种名为语言引导视觉令牌修剪(LVPruning)的方法,旨在减少多模态大型语言模型的计算负担。该方法通过评估视觉令牌的重要性,能够将视觉令牌数量减少至多90%,仅导致约0.45%的性能损失,显示出良好的应用潜力。
本文探讨了语言引导的视觉导航(VLN)任务,提出了多种新方法和模型以提升智能体在连续环境中的导航表现。研究表明,结合大语言模型(LLMs)和持续学习机制,智能体的成功率可达80%。引入导航思维链和双循环场景回放,增强了导航策略的多样性和可解释性。
研究开发了一种名为语言引导的世界模型(LWMs),通过阅读语言描述来捕捉环境动态,提高了代理的通信效率。该模型使代理能够在执行前生成和讨论计划,增强了代理的可解释性和安全性,并提高了在真实环境中的性能。
DEF-oriCORN是一个面向语言引导的操控任务的框架,通过利用新颖的场景表示和状态估计算法,实现高效且稳健的操控规划。DEF-oriCORN在稀疏的RGB图像上表现出优越的估计和运动规划性能,并能够零样本推广到现实场景。
HazeCLIP是一种语言引导的适应框架,通过区域特定去雾技术和定制提示集,提高了预训练去雾网络在真实世界中的性能。实验证明HazeCLIP在真实世界图像去雾方面达到了最先进的性能。
该研究开发了一个语言引导的导航任务,通过执行低级动作来遵循自然语言导航方向,消除了以前关于环境的假设。研究发现,在连续环境中的性能较低,表明以前的“导航-图形”设定中的性能可能被过高评价了。
LMDrive是一种语言引导的闭环自动驾驶框架,能处理多模态传感器数据和自然语言指令,实现与人类和导航软件的交互。作者发布了包含64K个指令跟踪数据片段的数据集和测试系统,以促进基于语言的闭环自动驾驶的研究。作者进行了广泛的闭环实验以证明LMDrive的有效性。
本文介绍了PolarNet策略,使用3D点云进行语言引导的操纵任务。PolarNet通过点云输入、编码器和多模态变换器学习3D点云表示,并与语言指令集成以进行行动预测。在RLBench基准测试中,PolarNet在单任务和多任务学习中优于最先进的2D和3D方法,表现出高效和数据高效性。实际机器人上也取得了令人期待的结果。
研究开发了语言引导的世界模型(LWMs),通过阅读语言描述捕捉环境动态,提高代理的通信效率。该模型使代理能够生成和讨论计划,增强可解释性和安全性,并在真实环境中性能提高三倍。
研究开发了语言引导的世界模型(LWMs),通过阅读语言描述捕捉环境动态,提高代理的通信效率。该模型使代理能够生成和讨论计划,增强可解释性和安全性,并提高在真实环境中的性能。
研究开发了一种名为语言引导的世界模型(LWMs),通过阅读语言描述来捕捉环境动态,提高了代理的通信效率。该模型使代理能够在执行前生成和讨论计划,增强了代理的可解释性和安全性,并使其在真实环境中的性能提高了三倍。
研究人员提出了一种名为Instruct2Attack(I2A)的基于语言引导的语义攻击方法,利用潜态扩散模型生成对抗性潜态编码,生成更自然和多样的对抗性样本。通过GPT-4自动化攻击过程,生成多样的图像特定文本指令。研究表明,I2A能够成功破解深度神经网络,并具有强大的迁移能力。
该研究开发了一个语言引导的导航任务,消除了以前关于环境的假设。通过模拟以前的工作并进行单模态基线测试,发现在连续环境中的性能明显较低,表明以前的“导航-图形”设定中的性能可能被过高评价。
本文介绍了一种名为LANCE的算法,用于自动化模型应力测试。该算法利用语言引导和文本编辑技术,增加了IID测试集的多样性和挑战性,而不改变模型权重。作者对多个预训练模型进行了测试,发现它们在性能上有显著且一致的下降。此外,作者还分析了不同类型编辑对模型的敏感性,并展示了其在揭示ImageNet中未知类别级别模型偏差方面的应用。
完成下面两步后,将自动完成登录并继续当前操作。