本研究提出了一种名为“One Normal Image Prompt”(OneNIP)的方法,通过一张正常图像进行异常重构,有效解决了多类异常检测中的失败问题,显著提高了检测性能和像素级分割精度。该方法在多个基准测试中优于现有技术。
本研究提出了HyperSeg,这是首个基于视觉大型语言模型的像素级分割模型,旨在解决图像和视频理解中的通用分割问题。该模型结合了混合实体识别和细粒度视觉感知模块,实验结果表明其在分割任务中表现优异。
SAM4MLLM是一种创新方法,结合多模态大型语言模型(MLLM)与Segment Anything Model(SAM),实现像素级引用表达分割。该方法通过主动询问生成提示点,提升分割精度,无需改变模型架构或引入新标记。实验验证了其在复杂任务中的有效性,展示了MLLM在像素感知任务中的潜力。
本文介绍了一种名为特征金字塔变换器(FPT)的新方法,能够有效捕捉不同尺度物体的上下文特征。FPT在实例级和像素级分割任务中表现优异,超越了现有方法。此外,文中提到的多种基于特征金字塔的网络架构,如FPN和CD-CTFM,在目标检测和图像分割中也取得了显著性能提升。
本文提出了一种新型的像素级全景分割方法,适用于卫星图像时间序列,利用时序注意力机制提取多尺度特征。同时,开发了公开的卫星图像数据集PASTIS,并展示了该方法在语义分割任务中的优越表现。
本文介绍了一种新的全景场景图生成(PVSG)任务,创建了高质量数据集以进行基准测试,并探讨了传统方法与基于Transformer的改进。PVSG要求更精确的像素级分割,以提升场景理解。研究展示了在4D全景分割和视频问答等任务中的优异性能。
该研究提出了全景场景图生成(PVSG)问题,旨在通过建立真实世界视觉感知系统来促进整体场景理解。PVSG要求使用像素级分割掩码实体识别来提高场景图的准确性。研究者还提供了PVSG数据集和基准方法。
完成下面两步后,将自动完成登录并继续当前操作。