本文提出了DreamSea模型,旨在解决水下3D地形生成的挑战。该模型结合水下机器人调查数据和视觉基础模型,能够生成逼真的水下场景,具有广泛的应用潜力,影响影视、游戏和机器人仿真等领域。
本研究探讨了视觉基础模型的安全性,提出了一种通用框架,通过干扰特征表示生成对抗样本,揭示了基础模型在多种应用中的安全隐患。
本研究提出了一种新型视觉基础模型,旨在提升数字病理领域的模型性能。该模型在120万张组织病理图像上进行训练,并在21个基准数据集上取得优异表现,展现出显著的应用潜力。
本文提出了Feat2GS方法,旨在解决视觉基础模型在3D理解上的局限性。该方法通过从未姿态图像中提取3D高斯属性,有效探测几何和纹理意识,无需依赖3D数据。研究结果表明,Feat2GS在多个数据集上表现优异,为视觉基础模型的3D意识研究奠定了基础。
本研究探讨了“随心所欲”模型(SAM)在处理密集树状结构和低对比度物体时的局限性,并提出量化指标分析树状特性和纹理可分离性。实验结果表明,SAM的性能与这些因素密切相关,为理解其不足提供了量化框架,推动视觉基础模型的改进。
本研究提出了一种新框架,通过重用预调优的LoRA,解决视觉基础模型在有限数据下的无调优少样本适应性问题。实验结果表明,该框架在少样本分类任务中表现优异,并显著加速了元训练过程。
本研究通过PHI标准化技术解决了视觉基础模型在无标签情况下进行异质多教师知识蒸馏时的分布不均问题,提升了学生模型的质量。结果表明,该方法在多种模型中表现最佳,具有重要应用潜力。
本研究提出了SimMAT框架,旨在解决传感器在多领域中难以收集自然图像数据的问题。该框架通过模态无关的转移层,提升视觉基础模型在不同图像模态上的转移能力,实验结果显示其在分割性能上有显著提升,展现了重要的跨模态转移学习潜力。
本文介绍了多种遥感图像变化检测方法,包括单时相监督学习(STAR)、无监督变化检测(PUCD、SCM)和基于视觉基础模型(VFMs)的技术。这些方法在提高检测精度和处理高分辨率图像方面表现出色,实验结果显示模型在多个数据集上取得了先进性能,为未来研究提供了重要参考。
本文提出了一系列无监督领域自适应方法,利用视觉基础模型和视觉语言模型,增强跨模态性能。通过动态加权一致性损失和类别级别特征分布规则化,提升了图像语义分割的泛化能力,实验结果表明这些方法在多个基准上优于现有技术。
该论文提出了Bridge3D方法,通过预训练基础模型的特征和语义掩码,提升3D场景表示学习。该方法在3D对象检测和语义分割任务中表现优异,超越了现有技术,展示了视觉基础模型在三维感知中的潜力。
本文比较了四种视觉基础模型,发现DINO V2在语义分割任务中表现优越,强调了稳健特征提取器的重要性,并探讨了知识迁移和隐私保护方法在医学影像分析中的应用潜力。
本文介绍了一种名为4M的多模态训练方案,结合文本、图像、几何和语义模态,展示了其在训练视觉基础模型中的潜力。同时,提出了Unified-IO 2模型,能够理解和生成多种模态,表现出强大的性能。通过多任务训练,模型在多个任务上取得了显著提升,推动了全模态智能的发展。
本文研究了不同视觉基础模型在分割任务中的性能,发现DINO V2在多个数据集上表现优越。强调了稳健特征提取器的重要性,并提出了一种基于自监督预训练的轻量级模块,有效生成语义分割数据集的注释。此外,提出的知识迁移方法显著提升了小型任务模型的性能。
通过自我监督学习和大规模无标签数据集,成功训练了视觉基础模型,并在临床病理数据集上进行了预训练和下游性能评估。结果显示,病理数据的预训练对下游性能有益,DINO算法在所有测试任务中表现更好。这标志着计算病理学研究的一个阶段性变化,为更高性能模型的大规模、并行预训练开辟了新时代。
该研究评估了视觉基础模型在域泛化语义分割中的应用,并引入了一种名为Rein的强大微调方法,提高了模型的泛化能力。实验证明,Rein在各种设置下明显优于现有方法,并在Cityscapes数据集上获得了68.1%的mIoU,仅使用了额外1%的可训练参数。
该研究提出了“Pretrain+Prompting”范例,通过视觉基础模型解读农田场景,并设计了自动提示(APT)方法。实验证明,该方法在遥感领域的两个亚米级农田数据集中优于传统的监督学习和微调方法。
完成下面两步后,将自动完成登录并继续当前操作。