本研究提出了GLEE,一个用于图像和视频中对象定位与识别的基础模型。GLEE通过统一框架实现检测、分割和跟踪等功能,具备强大的零样本迁移能力,适用于多模态任务。研究还探讨了基于语义部件分割的神经框架和细粒度few-shot识别方法,展示了其在目标解析和3D部分识别中的优越性能。
完成下面两步后,将自动完成登录并继续当前操作。