小红花·文摘

$HoloAgent-0——具备三维空间记忆的统一具身Agent框架：Agent自主拆解、规划，且按需调用技能层中的导航、VLA操作、全身运控，以及记忆层中的空间与时间记忆$

HoloAgent-0——具备三维空间记忆的统一具身Agent框架：Agent自主拆解、规划，且按需调用技能层中的导航、VLA操作、全身运控，以及记忆层中的空间与时间记忆

结构之法算法之道 ·

BEV 杀入具身智能：跨维把机器人数据带上 Scaling 快车道

量子位 ·

浙大团队提出了一种新方法——体素对齐的前馈3D高斯泼溅，解决了二维特征在三维空间对齐及高斯密度受限的问题，提升了多视角渲染的质量与效率。该方法通过将2D特征聚合到3D体素网格中，增强了几何一致性和跨视图稳定性，适用于机器人、自动驾驶及AR/VR等领域。

前馈3D高斯泼溅新方法，浙大团队提出“体素对齐”，直接在三维空间融合多视角2D信息

量子位 ·

本研究提出了MetaSpatial，这是首个基于强化学习的框架，旨在提升视觉语言模型的三维空间推理能力，实现实时三维场景生成。通过多轮强化学习优化，MetaSpatial提高了布局的一致性和美观性，验证了其在元宇宙、AR/VR及游戏开发中的有效性。

MetaSpatial：增强元宇宙中视觉语言模型的三维空间推理

BriefGPT - AI 论文速递 ·

杜比全景声 (Dolby Atmos) 如何提升流媒体音频质量

实时互动网 ·

TinyRenderer笔记3：移动摄像机

kirito的博客 ·

李飞飞创业之后首个专访：视觉空间智能与语言一样根本

机器之心 ·

本研究介绍了Cube-LLM，这是一种多模态大语言模型，旨在提升其在三维空间中的图像定位和推理能力。通过在LV3D数据集上预训练，Cube-LLM在多项基准测试中表现优异。研究还提出了3D-LLMs的整合方法，强调其在空间理解和互动中的潜力，并探讨了如何通过更精确的空间位置信息增强模型的空间感知能力。

多模态语言模型中的粗糙对应引发三维时空理解

BriefGPT - AI 论文速递 ·

如何在 C 语言中使用浮点数计算三维空间的几何模型？

龙鲲博客 ·

本文讲述了作者在装修房子时遇到的问题和经验，选择装修公司后遇到设计师变更和案例不符合预期等困难。作者提到了选择设计师和签订合同等装修注意事项，并总结了自己的平面图规划。此外，还提到了水电施工前需要确定的事项。

在二维世界里踩三维空间的坑：我的装修平面图诞生记

少数派 ·

本研究提出了一种新型的TAP模型，能够高效跟踪视频序列中的查询点，表现优于基准方法，适用于长高分辨率视频，并具备实时跟踪速度。改进的TAP方法解决了累积误差问题，并引入了多粒度摄像机运动检测等组件，取得了优异成绩。此外，研究探讨了密集跟踪在机器人学习中的应用，提出了Context-TAP和T3VIP方法，提升了点轨迹的准确性和自主技能获取能力。

TAPVid-3D：一个用于追踪三维空间中任意点的基准测试

BriefGPT - AI 论文速递 ·

清华大学化工系与美国加州大学河滨分校合作研究了一种名为Uni-MOF的机器学习模型，用于预测纳米多孔材料的吸附性能。该模型通过预训练识别和恢复纳米多孔材料的三维结构，并考虑了操作条件。研究结果表明，Uni-MOF在预测气体吸附中表现出高精度，并具有广泛的应用潜力。

有效识别 63 万个三维空间构型，清华大学牵头发布 Uni-MOF 模型，预测 MOF 吸附能力

HyperAI超神经 ·

我们提出了一种轻量级的解决方案，用于从单个 RGB 图像估计室内灯光的空间一致性。我们引入了一个统一的、基于体素八叉树的光照估计框架，以生成 3D 空间一致的照明。此外，我们提出了一个可微的体素八叉树锥追踪渲染层，用于消除整个过程中的常规体积表示，并确保在不同频域之间保持特征。实验结果表明，与先前的方法相比，我们的方法在极小的成本下实现了高质量的一致估计。

LightOctree：轻量级三维空间一致性室内照明估计

BriefGPT - AI 论文速递 ·

通过使用一种名为 3DAxiesPrompts（3DAP）的新型视觉提示方法，我们解放了 GPT-4V 在执行 3D 空间任务方面的能力。我们的研究发现，尽管 GPT-4V 在通过现有的视觉提示技术识别 2D 实体的位置和相互关系方面表现出熟练度，但其在处理 3D 空间任务方面的能力尚待探索。我们的方法是创建一个适用于 3D 图像的 3D 坐标系统，并带有注释的比例信息。通过将注入了...

3DAxiesPrompts：释放 GPT-4V 的三维空间任务能力

BriefGPT - AI 论文速递 ·