量子位 ·

突破不可解释性！视频异常新检测框架精度90.67%拿下SOTA｜华科&百度&密歇根大学

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

华科、百度和密歇根大学的研究团队提出了Holmes-VAD视频异常检测框架，能够准确定位和分析视频中的异常情况。他们构建了VAD-Instruct50k数据集，用于多模态VAD指令微调。Holmes-VAD利用时序监督和多模态指令实现准确的异常定位和全面的解释，表现优于之前的方法。该框架在监控视频安全分析和视频生成内容检验等领域有广泛应用前景。

🎯

关键要点

华中科技大学、百度和密歇根大学的研究团队提出了Holmes-VAD视频异常检测框架。
Holmes-VAD能够精确定位视频中的异常并提供解释和分析。
该框架在监控视频安全分析和视频生成内容检验等领域具有广泛应用前景。
研究团队构建了VAD-Instruct50k数据集，用于多模态VAD指令微调。
Holmes-VAD在定量和定性实验中表现优于之前的最先进方法，AP达到90.67%。
Holmes-VAD采用时序监督和多模态指令实现准确的异常定位和全面的解释。
研究团队设计了可解释的视频异常检测框架，包含视觉编码器、时序采样器和LLM。
通过用户研究，投影器+LoRA微调策略提供了最详细的响应和最高的判断准确率。
Holmes-VAD能够纠正时间采样器的错误响应，展现出强大的分析能力。

🏷️

继续阅读

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
保护每一次 AI 调用的隐私安全 — 面向企业和个人的大模型安全接入网关
智链 AI 网关在统一代理转发大模型 API 的基础上，内置**数据脱敏、隐私保护、全链路审计**三大安全能力，确保敏感信息不泄露、每次调用可追溯。支持 ...
108_Pingu_企鹅家族_BQB
本文介绍了名为“108_Pingu_企鹅家族”的表情包库，并提供了永久更新的链接。
中国汽车的问题，除了新车太像，还有新车太多
38 万平方米的展馆面积、181 台首发新车、71 台首发概念车、212 场发布会。相较于两年前，这些数据都有了大幅增长。2026 年的北京车展，已经成为...
AI科研工具深度解析：Paperclip如何用arXiv重构论文检索分析方式
Paperclip通过整合arXiv等数据库，重构了AI论文检索方式，允许AI快速检索和分析论文，提升科研效率。AI能够直接处理全文，支持批量操作和跨领域...
开源Sandcastle项目实战：AI独自写889次代码更新全流程揭秘
Sandcastle项目展示了AI独立完成889次代码更新的能力，采用严格的流程设计，包括AI编写、检查和审核代码，人类仅负责最终确认。项目通过明确的任务...

突破不可解释性！视频异常新检测框架精度90.67%拿下SOTA｜华科&百度&密歇根大学

内容提要

关键要点

标签

继续阅读