量子位 ·

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

UCLA与谷歌合作研发的3DLLM-MEM模型首次赋予AI在复杂3D环境中长时记忆能力，成功率超基线16.5%。该模型通过双记忆架构和动态更新机制，显著提升了AI的空间理解和任务执行能力。

🎯

🔎

在复杂的3D环境中，长时记忆对AI的任务执行至关重要。3DLLM-MEM模型通过双记忆架构，能够有效存储和更新信息，帮助AI在动态环境中保持对物体位置和特征的准确理解。这一能力使得AI在执行多步骤任务时，能够更好地应对变化，提升成功率。

3DMEM-BENCH基准的建立为评估AI在3D环境中的长时记忆能力提供了系统化的框架。其涵盖的多样化任务和场景，不仅填补了现有评估工具的空白，也为未来的研究提供了重要参考。研究者可以利用这一基准，进一步探索AI在复杂环境中的表现和潜力。

尽管3DLLM-MEM模型在长时记忆和空间理解上取得了显著进展，但研究团队指出其仍依赖于模拟器的高层动作预设。未来的研究需要将该模型与底层导航和控制系统结合，以实现更广泛的应用和更高的灵活性。这一方向将是推动具身智能发展的关键。

❓

3DLLM-MEM模型首次赋予AI在复杂3D环境中长时记忆能力，采用双记忆架构和动态更新机制，显著提升了空间理解和任务执行能力。

3DMEM-BENCH基准包含26,000+轨迹和1,860个具身任务，覆盖182个3D场景，旨在评估AI在3D环境中的长时记忆能力。

模型通过双记忆架构结合工作记忆和情景记忆，动态更新机制确保记忆与当前状态一致，从而解决长时记忆断层问题。

在3DMEM-BENCH实验中，3DLLM-MEM在具身任务成功率上达32.1%，比最强基线高出16.5%，时空推理能力也显著提高。

3DLLM-MEM模型通过动态融合机制，仅处理与当前任务相关的记忆片段，计算成本低且保持高推理精度。

研究团队指出，3DLLM-MEM模型目前依赖模拟器的高层动作预设，未来需与底层导航和控制结合以提升性能。

🏷️