昆仑万维推出的Matrix-3D模型能够从单张图片生成360°全景和可漫游的3D场景,具备高质量、几何一致性和快速生成的优势,提升了用户交互体验,推动了空间智能技术的发展。
苹果研究人员在CVPR 2025会议上展示了多项计算机视觉新研究,包括高效视觉语言模型FastVLM、全能三维摄影测量模型Matrix3D和多模态自回归预训练视觉编码器AIMv2。同时,苹果还支持ML社区中的弱势群体,参与相关活动。
Matrix3D是一种统一模型,能够同时进行姿态估计、深度预测和新视图合成。它通过多模态扩散变换器整合图像、相机参数和深度图,采用掩码学习策略进行大规模多模态训练,显著提升训练数据的可用性。Matrix3D在姿态估计和新视图合成方面表现优异,并通过多轮交互提供精细控制,是3D内容创作的创新工具。
完成下面两步后,将自动完成登录并继续当前操作。