机器之心 ·

ECCV 2024 | 引入DiT的原生3D通用框架，适用任意神经场、秒级生成

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

南洋理工大学、上海AI Lab和北京大学的研究者提出了名为LN3Diff的原生3D LDM生成框架，通过使用3D VAE和3D-DiT进行两阶段通用3D生成，解决了现有原生3D生成模型的可拓展性差、训练效率低和泛化性差等问题。LN3Diff在多个基准测试中取得了优异成绩，并具有更快的推理速度。

🎯

南洋理工大学、上海AI Lab和北京大学的研究者提出了LN3Diff的原生3D LDM生成框架。
LN3Diff通过使用3D VAE和3D-DiT进行两阶段通用3D生成，解决了现有模型的可拓展性差、训练效率低和泛化性差的问题。
LN3Diff在多个基准测试中取得了优异成绩，并具有更快的推理速度。
研究者提出将基于LDM的原生生成框架引入3D生成，通过在3D隐空间直接进行diffusion采样实现高效、高质量的3D资产生成。
3D-aware VAE模型用于高效信息压缩，兼容3D模态，使用多视图图像作为输入。
在解码器端，使用基于3D-DiT的VAE解码器，提出Self-plane attention与Cross-plane attention以提升3D-aware表达能力。
在训练完成的3D VAE空间上进行conditional的diffusion训练，支持text/image conditioned生成。
在ShapeNet和Objaverse数据集上进行实验，LN3Diff在各项指标上均取得了SoTA性能。
LN3Diff支持从文本描述和单目图片条件下生成高质量3D资产，生成过程仅需数秒。
项目所有模型和代码已开源至Github/Huggingface，支持多卡训练和加速技巧。

🏷️

使用Blender和Three.js进行3D网页开发
本文介绍了一门课程，教授如何使用Blender和Three.js从零开始构建互动3D“舒适咖啡馆”作品集。课程内容包括细分建模、纹理绘制和性能优化，强调高...
核心训练和腹肌训练是一个东西吗？
核心训练与腹肌训练不同，核心训练强调稳定性和抗阻力能力，涉及腹部、背部和臀部等肌肉，而腹肌训练主要针对腹部肌肉。核心稳定性有助于抵抗重力，减少肌肉代偿，降...
Sanas收购Tomato.ai，旨在提升电信行业的实时语音AI水平
Sanas收购Tomato.ai，进一步拓展语音技术业务，旨在将实时语音智能嵌入全球通信系统。这是Sanas在不到两年内的第三次收购，反映出语音AI在外包...
安装 Windows 11 时，终于可以跳过系统更新了
Windows 11 最新版本的 ISO 增加了跳过系统更新的功能，用户可以选择“稍后更新”，直接进入桌面，避免等待。此外，还有一个未上线的更新日历功能。
Attention Engineering: Why Users Ignore Even the Most Important Elements
Part 5 of the “User Psychology Series.” Over the last four chapters of the “U...
PipeWire 1.6.4 改进了 ALSA 序列器端口名称，并修复了多处错误
PipeWire 1.6.4于2026年4月22日发布，主要改进了ALSA音序器端口名称识别，增加了对LADSPA插件的支持，并修复了多个错误，包括设备移...