小红花·文摘

本研究提出了GLEE，一个用于图像和视频中对象定位与识别的基础模型。GLEE通过统一框架实现检测、分割和跟踪等功能，具备强大的零样本迁移能力，适用于多模态任务。研究还探讨了基于语义部件分割的神经框架和细粒度few-shot识别方法，展示了其在目标解析和3D部分识别中的优越性能。