LIAM:用于语言指令、图像、动作和语义地图的多模态变压器
📝
内容提要
本研究解决了家用服务机器人在处理多样化任务时的灵活性问题,提出了LIAM——一个端到端模型,能够根据语言、图像、动作和地图输入预测动作记录。我们的研究表明,不同模态的嵌入空间预对齐的重要性,以及引入语义地图的有效性。
➡️
本研究解决了家用服务机器人在处理多样化任务时的灵活性问题,提出了LIAM——一个端到端模型,能够根据语言、图像、动作和地图输入预测动作记录。我们的研究表明,不同模态的嵌入空间预对齐的重要性,以及引入语义地图的有效性。