本研究提出了一种名为“One Normal Image Prompt”(OneNIP)的方法,通过一张正常图像进行异常重构,有效解决了多类异常检测中的失败问题,显著提高了检测性能和像素级分割精度。该方法在多个基准测试中优于现有技术。
本研究提出了HyperSeg,这是首个基于视觉大型语言模型的像素级分割模型,结合混合实体识别和细粒度视觉感知模块,显著提升了图像和视频的分割效果。
SAM4MLLM是一种创新方法,结合多模态大型语言模型(MLLM)与Segment Anything Model(SAM),实现像素级引用表达分割。该方法通过主动询问生成提示点,提升分割精度,无需改变模型架构或引入新标记。实验验证了其在复杂任务中的有效性,展示了MLLM在像素感知任务中的潜力。
该研究提出了全景场景图生成(PVSG)问题,旨在通过建立真实世界视觉感知系统来促进整体场景理解。PVSG要求使用像素级分割掩码实体识别来提高场景图的准确性。研究者还提供了PVSG数据集和基准方法。
完成下面两步后,将自动完成登录并继续当前操作。