小红花·文摘

本文提出了一种面向视频中长期动作预测的物体中心表示，利用视觉-语言预训练模型提取特定表示。通过双重注意力网络识别人-物交互，并在多个基准测试中验证了其有效性。该模型实现了动作的同时识别和弱空间时间定位，展现了良好的性能。

BriefGPT - AI 论文速递 ·

本文探讨了物体中心表示学习及其在多目标数据集上的应用，评估了无监督模型在分割和属性预测中的表现。研究表明，物体中心表示对下游任务有效，且对分布变化具有韧性。提出了基于语义的跨领域泛化基准，改进了领域泛化算法，提升了性能。同时，介绍了弱监督学习方法和动态物体中心感知网络，增强了模型的泛化能力。

BriefGPT - AI 论文速递 ·