本研究提出了一种新的任务:在实时3D场景中进行语言指导的物体放置。建立了基准和评估协议,并提供了训练数据集,首次提出了基线方法,以评估通用3D大语言模型的性能。
本研究提出了ImageScope框架,通过集体推理和语言组合特性,统一语言指导图像检索(LGIR)任务,显著提升了检索的准确性和可靠性。实验结果显示,ImageScope在六个数据集上优于现有基线。
本研究提出了一种语言指导偏好学习(LGPL)方法,旨在优化机器人在社会环境中的互动行为。该方法结合了预训练语言模型与偏好学习,仅需四个查询即可快速学习并准确执行行为,显著提高了样本效率。
该文介绍了一种多模态框架,使用语言指导回答图像问题,包括共识知识、世界知识和理解创意和概念。在多个数据集上测试,发现语言指导可以显著提高模型性能。
完成下面两步后,将自动完成登录并继续当前操作。