北京大学提出多模态提示学习方法,利用提示词教大模型理解人物交互关系,通过视觉空间线索和条件提示提高泛化能力。研究团队还提出零样本人物交互检测新框架,实验证明在未见类别上取得最佳性能,具有潜力。
本研究介绍了MPerceiver,一种多模态提示学习方法,通过稳定扩散先验增强了全方位图像修复的适应性、普适性和保真性。MPerceiver使用文本和视觉提示进行修复,并通过插件细节优化模块提高修复保真性。实验证明,MPerceiver在多任务预训练和低级视觉方面表现出色。在多个实验和基准测试中,MPerceiver展现了适应性、普适性和保真性的优越性。
完成下面两步后,将自动完成登录并继续当前操作。