该研究提出了一种新的增强对比学习方法,结合多视角图像和纵向数据,解决胸部X光报告生成中的诊断准确性不足问题。实验结果表明,该方法在多个数据集上超越现有技术,显著提升报告生成的准确性。
本研究提出了一种新方法Plane-DUSt3R,旨在解决多视角图像中的房间布局估计问题。该方法利用3D模型DUSt3R进行高效估计,效果优于现有技术。
AIxiv专栏促进学术交流,报道超过2000篇文章。北航、VAST和上海交大团队推出MV-Adapter,解决多视角图像生成问题,支持768分辨率,提升生成质量和一致性,适用于多种应用。
本研究提出了一种新颖的基于图的框架,能够从未校准的多视角图像中自动提取语义对象并生成二维地图,解决了手动标注效率低和准确性差的问题。在强视角变化下,该方法仍能保持4米以内的平均精度。
本文提出了一种名为NoPoSplat的前馈模型,旨在从稀疏无姿态的多视角图像中重建3D场景。该模型通过光度损失进行训练,实现实时的3D高斯重建,显著提高了重建质量和精度,尤其在图像重叠有限的情况下表现突出。
本研究提出了一种3D适配器模块,解决了多视角图像扩散模型在3D几何一致性方面的不足,显著提高了几何质量,支持多种任务,展现出广泛的应用潜力。
本文提出了解决实时渲染人头头像复杂运动问题的新方法,通过多视角图像生成动态可变形的头头像,核心是层次化的头部模型表示。该方法在多个数据集上表现优越,具有跨身份面部表演转移的潜在应用。
这篇论文介绍了一项新任务:将结构3D模型的多视角图像翻译成机器人臂的组装指令序列。论文提出了一种名为神经组装者的模型,通过学习图形对象图来识别组件并通过边指定3D模型的拓扑结构,得出组装计划。实证评估证明了神经组装者的优越性。
完成下面两步后,将自动完成登录并继续当前操作。