BriefGPT - AI 论文速递 ·

自我训练在开放词汇时间行为定位中的可扩展性探索

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

OVFormer是一种新型开放词汇框架，结合大型语言模型和交叉注意机制，提升视频动作分类和定位效果。通过两阶段训练策略，能够推广到新类别。此外，研究提出了自适应递增学习模型和OpenTAL框架，以解决未知动作问题，实验结果验证了其有效性。

🎯

关键要点

OVFormer 是一种新型开放词汇框架，结合大型语言模型和交叉注意机制，提升视频动作分类和定位效果。
采用两阶段训练策略，能够推广到新类别，并在 THUMOS14 和 ActivityNet-1.3 基准测试中验证了有效性。
提出自适应递增学习模型，通过改进聚类置信度和增量实例学习策略，提高无监督时间动作定位效果。
引入 T3AL 方法进行测试时间自适应，显著优于基于视觉语言模型的零样本方法。
OpenTAL 框架基于证据深度学习，解决开放场景下的未知动作问题，实验结果证明其有效性。
提出少样本学习设置，使用未剪裁视频动态适应新类别，显著优于现有方法。
自监督预训练的假动作定位任务（PAL）提高时间动作定位任务性能，具有更好的适应性和性能。
基于弱监督的时序动作定位框架 AutoLoc，通过自动发现分段级别监督训练模型，显著提高定位精度。
提出 IntraC 和 InterC 正则化项，优化时间行为定位框架，实验结果优于基线方法。

❓

延伸问答

OVFormer的主要功能是什么？

OVFormer是一种新型开放词汇框架，结合大型语言模型和交叉注意机制，提升视频动作分类和定位效果。

OVFormer是如何推广到新类别的？

OVFormer采用两阶段训练策略，包括与更大词汇数据集的训练和对下游数据的微调，从而推广到新类别。

自适应递增学习模型的作用是什么？

自适应递增学习模型通过改进聚类置信度和增量实例学习策略，提高无监督时间动作定位效果。

OpenTAL框架解决了什么问题？

OpenTAL框架基于证据深度学习，解决开放场景下的未知动作问题。

T3AL方法的优势是什么？

T3AL方法在测试时间自适应方面显著优于基于视觉语言模型的零样本方法，提升了动作区域定位的效果。

AutoLoc框架如何提高定位精度？

AutoLoc框架通过自动发现分段级别监督训练模型，显著提高了定位精度。

🏷️

标签

OVFormer OpenTAL框架交叉注意机制自适应递增学习视频动作分类

➡️

继续阅读

法院批准A社与作者和出版社的15亿美元和解协议初步解决A社使用盗版图书训练模型问题
#人工智能法院批准 A 社与作者和出版社的 15 亿美元和解协议，初步解决 A 社使用盗版书籍训练模型的集体诉讼案件。法庭文件显示，A 社建立拥有 70...
RoboTTT——面向机器人策略的上下文扩展：将TTT集成至VLA中以推理时建立记忆信息，从而将视觉-运动上下文扩展到 8K 个时间步
摘要：本文提出RoboTTT方法，通过将测试时训练（TTT）机制整合到机器人基础模型中，实现了8K时间步的长视觉-运动上下文建模。该方法采用快速权重机制，...
Amazon Bedrock AgentCore Gateway 内置 Web 搜索工具实战
通过 MCP 将 Web Search Tool 集成到 AgentCore Gateway，为 AI Agents 提供实时网络搜索能力。
远程控制安卓工具 Scrcpy 4.1 发布，新增 VP8 / VP9 视频编码支持，让更多安卓设备可以投屏
著名的开源电脑控制安卓工具 Scrcpy 4.1 已经发布，新增支持 VP8 / VP9 视频编码，可以让不支持 H.264、H.265 或 AV1 编码...
GKE Security Blueprint Joins Growing List of Cloud AI Frameworks
Google Cloud has published a new blueprint setting out how organisations shou...
嫌 Listary 很久不更新，搞了个开源替代品：SwiftList
如果你跟我一样，曾经是 Listary 的忠实用户，但苦于其近年来闭源、更新慢，或者希望有一款能自己随意定制插件、完全掌控的高性能搜索工具，那么 Swif...