微软亚洲研究院启动“铸星计划”,邀请全球青年学者进行为期三个月的研究,聚焦空间智能与具身AI,旨在推动AI在三维环境中的应用与发展,促进学术与产业合作。
本研究提出了一种新的嵌入式均值场演员-评论家框架(EMFAC),用于优化三维环境中的周界防御策略。模拟实验表明,EMFAC在收敛速度和整体表现上优于传统方法,展示了其在复杂场景中的有效性和适应性。
本研究提出了一种新颖的神经上下文场景图方法,旨在帮助机器理解未见或嘈杂的三维环境中的场景上下文。该方法通过提取和对齐场景区域的语义和几何信息,提高了在复杂室内场景中识别类比和转移轨迹的能力,具有在机器人和增强现实/虚拟现实中的应用潜力。
本研究提出了GenEx系统,旨在解决人工智能在理解和探索三维物理世界方面的不足。该系统通过生成性想象,从单幅RGB图像生成完整的三维环境,具备高质量的世界生成和三维映射能力,为AI代理在虚拟空间内执行复杂任务提供了转型平台,具有实际应用潜力。
该研究针对多模态大语言模型在复杂三维环境中的本地化和对象消歧义问题,提出了有效技术,提升了句子相似性评价和三维空间理解能力,对协作机器人系统的整合具有重要意义。
本研究提出了一种基于多模态深度强化学习的音频视觉导航方法,利用音频和视觉数据在三维环境中进行导航。通过动态设置航点和声音记忆,揭示未映射空间的几何结构,实验表明音频在导航中至关重要。此外,研究探讨了主动声学采样和模拟到真实的转换策略,展示了在真实环境中成功导航的潜力。
本研究聚焦于机器人在复杂三维环境中的导航,提出了多种新算法和模型,包括基于图反向传播的导航算法、无类关系网络(CIRN)和OpenFMNav。这些方法利用大型语言模型提升了导航的准确性和泛化能力,实验结果表明其在虚拟和真实环境中均表现出色,推动了机器人自主导航技术的发展。
完成下面两步后,将自动完成登录并继续当前操作。