本研究提出了HyperSeg,这是首个基于视觉大型语言模型的像素级分割模型,旨在解决图像和视频理解中的通用分割问题。该模型结合了混合实体识别和细粒度视觉感知模块,实验结果表明其在分割任务中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。