本研究提出了视觉词典(ViLex),通过自监督学习将丰富的图像信息编码为文本代币,解决了传统方法无法同时捕捉高层语义和细致视觉细节的问题。该方法在零-shot条件下展示了多项任务能力,显著提升了视觉-语言模型性能,为高保真图像生成和视觉场景理解提供新途径。
本文介绍了多种基于神经辐射场(NeRF)的3D建模和分割方法,如ObSuRF、Instance NeRF和Open-NeRF。这些方法在无监督条件下实现了高质量的3D物体分割和重建,支持多视角场景处理,并在开放词汇查询中表现出色,强调了NeRF在视觉场景理解中的重要性。
本综述研究了语义感知的神经辐射场(NeRFs)在视觉场景理解中的应用,分析了250多篇论文。NeRFs能够推断三维表示、生成新视点和进行场景分割。研究介绍了HG3-NeRF、Gen-NeRF和GP-NeRF等多种改进方法,提升了几何和语义一致性,促进了三维场景理解。实验结果表明,这些方法在合成新视角和语义分割任务中优于现有技术。
该论文研究了图神经网络在视觉场景理解和手术技能评估方面的应用。通过分析手术过程的复杂视觉数据,图神经网络可以提取特征并预测手术技能。SurGNN 提出了两种并行的方法,有监督和自监督。该方法在 EndoVis19 和自定义数据集上取得了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。