小红花·文摘

本研究提出了HyperSeg，这是首个基于视觉大型语言模型的像素级分割模型，旨在解决图像和视频理解中的通用分割问题。该模型结合了混合实体识别和细粒度视觉感知模块，实验结果表明其在分割任务中表现优异。