BriefGPT - AI 论文速递 ·

通过大型视觉-语言模型的置信度实现零-shot动作定位

📝

内容提要

本研究解决了在无字幕视频中精确动作定位的难题，尤其是在缺乏大型视频标注数据集的情况下。文章提出了一种名为ZEAL的零-shot动作定位方法，利用大型语言模型内建的动作知识生成精准的动作描述，并通过视觉-语言模型生成帧级置信度评分，取得了显著的定位效果，推动了视频理解领域的发展。

🏷️

继续阅读

浩亭深耕中国市场三十余年，随产业变革调整自身定位
浩亭在中国市场深耕三十余年，积极调整定位以适应产业变革，管理团队本地化，设立研发和创新中心，拥有160多项专利，专注于数据中心和轨道交通等领域。公司从元器...
刚刚，首个空间原生的具身视觉基模开源！机器人更会看我们的世界了
蚂蚁灵波推出的LingBot-Vision和LingBot-Depth 2.0显著提升了机器人对透明和复杂物体的视觉识别能力，增强了物体边界和空间关系的识...
机器人视觉迎来新突破！蚂蚁灵波空间感知模型LingBot-Depth 2.0正式发布
蚂蚁集团旗下的灵波科技发布了空间感知模型LingBot-Depth 2.0，该模型基于1.5亿数据训练，显著提升了深度估计和物体识别能力，尤其在透明和反光...
LensVLM：用于文本压缩视觉表示的选择性上下文扩展
LensVLM是一种推理框架，旨在提升视觉语言模型（VLM）在压缩图像上的表现。该方法通过选择性扩展相关图像，保持高达4.3倍的有效压缩精度，超越传统的文...
Weblica：可扩展和可重复的视觉网络代理训练环境
Weblica（网络复制）是一个构建可重复和可扩展网络环境的框架，旨在解决视觉网络代理训练数据的规模化问题。该框架通过HTTP级缓存捕捉稳定的视觉状态，并...
语言模型中的全局工作空间：Anthropic最新可解释性发现
Anthropic的研究揭示了Claude语言模型中的“J空间”，这是一个激活少量概念以进行推理的小型工作区。研究发现Claude能够在心中记住概念而不影...

内容提要

标签

继续阅读