小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
TrajTok:学习轨迹标记以提升视频理解

TrajTok是一种视频标记模块,通过动态调整标记粒度,解决视频模型中的标记冗余问题。它集成了统一的分割器,能够高效生成对象轨迹,提升视频理解性能。在分类和检索基准测试中表现优异,可作为预训练视觉特征的探测头或视觉-语言模型的连接器。

TrajTok:学习轨迹标记以提升视频理解

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-17T00:00:00Z
飞桨星河社区月度报告(2026年1月)

文心大模型5.0正式上线,参数达到2.4万亿,提升了智能体与工具调用能力。PaddleOCR-VL-1.5发布,解决了曲面文档解析问题,并新增67个数据集,支持多模态推理与视频理解。社区活动包括文心Moment大会与AICA架构师培养计划,促进AI技术应用与开发者交流。

飞桨星河社区月度报告(2026年1月)

百度大脑
百度大脑 · 2026-02-10T10:55:58Z
自托管在线文件转换器,千种格式轻松转换 | 开源日报 No.852

ConvertX 是一款自托管的在线文件转换器,支持多种格式和批量处理。Yuxi-Know 是智能体开发平台,结合知识库与图数据库,支持多模态分析。flowsurface 是加密货币市场的桌面图表分析工具,提供多种图表类型和实时数据。Kiro 是智能集成开发环境,支持软件全流程构建。VideoRAG 实现视频内容的深度理解与交互。

自托管在线文件转换器,千种格式轻松转换 | 开源日报 No.852

开源服务指南
开源服务指南 · 2026-01-19T23:35:54Z
TwelveLabs 在 Amazon Bedrock 上推出 Marengo 3.0 视频理解模型

TwelveLabs于2025年12月1日发布了Marengo 3.0视频基础模型,具备视频理解、物体追踪和时空推理功能,存储成本降低50%,索引速度提升2倍。该模型支持多模态查询,适用于体育、媒体和公共安全等领域,现可通过Amazon Bedrock访问。

TwelveLabs 在 Amazon Bedrock 上推出 Marengo 3.0 视频理解模型

实时互动网
实时互动网 · 2025-12-02T03:30:00Z
Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

Uni-MoE-2.0-Omni是哈尔滨工业大学深圳分校研发的全模态大型模型,支持文本、图像、音频和视频的理解与生成。基于Qwen2.5-7B模型,采用动态容量路由和渐进式监督学习,显著提升了跨模态推理能力,尤其在视频理解和长语音处理方面表现优异。

Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

实时互动网
实时互动网 · 2025-11-19T02:32:18Z
在vLLM上运行NVIDIA Nemotron的多模态推理代理

NVIDIA推出Nemotron Nano 2 VL模型,支持视频理解和文档智能,采用混合Transformer-Mamba架构,具备高效视频采样技术,提升处理效率和准确性,适用于多模态应用。

在vLLM上运行NVIDIA Nemotron的多模态推理代理

vLLM Blog
vLLM Blog · 2025-10-31T00:00:00Z
剖析视频大语言模型基准:知识、空间感知还是真实的时间理解?

本文探讨了视频理解基准的局限性,指出现有评估方法未能有效区分模型的时间推理能力。提出了VBenchComp,一个自动化流程,将问题分类为可回答、语义和时间问题,以便更细致地评估视频大语言模型的能力。分析表明传统评分掩盖了模型的弱点,并为未来基准设计提供了建议。

剖析视频大语言模型基准:知识、空间感知还是真实的时间理解?

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-27T00:00:00Z
ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享

计算机视觉国际大会(ICCV)是顶级会议之一,专注于视频理解和多模态推理,涵盖时间表示、实时对话生成和视觉大语言模型等研究,推动了计算机视觉领域的发展。

ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享

美团技术团队
美团技术团队 · 2025-10-27T00:00:00Z

快手开源了多模态推理模型Keye-VL 1.5,具备128k上下文、0.1秒视频定位和跨模态推理能力。该模型在视频理解和推理方面表现优异,能够准确判断物品出现的时间并详细描述场景,在多个基准测试中取得领先成绩。

视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理

量子位
量子位 · 2025-09-05T13:39:24Z
SlowFast-LLaVA-1.5:一种高效的长视频理解视频大语言模型家族

本文介绍了SlowFast-LLaVA-1.5(SF-LLaVA-1.5),一种高效的视频大语言模型,专注于长视频理解。该模型结合了SlowFast机制和联合视频-图像训练,在1B和3B规模下表现出色,满足移动友好模型的需求。实验结果显示,SF-LLaVA-1.5在多个视频任务上表现优异,尤其在长视频理解方面达到了最先进水平。

SlowFast-LLaVA-1.5:一种高效的长视频理解视频大语言模型家族

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-22T00:00:00Z

文心ERNIE-4.5-VL视觉语言模型实现了多模态交互,具备强大的图文和视频理解能力,支持100多种语言。其轻量级版本在多个基准测试中表现优异,适应多种场景,能够快速响应基础任务并深度解决复杂问题。

ERNIE-4.5-VL:技术解密+应用实战,解锁多模态新场景!

百度大脑
百度大脑 · 2025-08-19T13:45:55Z

南洋理工大学研究团队提出了Video Thinking Test(Video-TT)来评估AI的视频理解能力。研究显示,GPT-4o的准确率仅为36%,远低于人类的84.3%。AI在模糊内容、场景区分和世界知识理解方面存在显著弱点,表明视频理解领域仍需提升。

大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准

量子位
量子位 · 2025-08-01T10:23:28Z
TwelveLabs 视频理解模型现已在 Amazon Bedrock 中推出

TwelveLabs 视频理解模型已在 Amazon Bedrock 上线,支持视频搜索、分类和总结。用户可通过自然语言查找视频特定时刻并生成描述性文本,提升视频分析能力,适用于各行业的视频工作流。

TwelveLabs 视频理解模型现已在 Amazon Bedrock 中推出

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-07-18T03:44:57Z

视觉语言模型(VLMs)正在推动多模态理解与推理的发展。智谱AI与清华大学推出的GLM-4.1V-Thinking模型在STEM问题和视频理解等任务中表现出色,尤其在长文档理解和STEM推理方面与GPT-4o相当或更优,展现了强大的多功能性,推动了智能系统的进步。

AI 论文周报 | Chai-2刷新抗体设计效率,命中率提高100倍;多篇ICML入围论文一键速览

HyperAI超神经
HyperAI超神经 · 2025-07-10T09:30:19Z

Gemini负责人Ani Baddepudi在访谈中强调了视觉在构建通用人工智能中的重要性,介绍了Gemini多模态技术的设计理念与应用。Gemini模型从一开始就支持文本、图像和视频等多种信息处理。Gemini 2.5在视频理解方面表现优异,解决了鲁棒性问题,并整合了多项视觉能力。未来,团队将专注于提升模型的自然交互性和用户体验。

Gemini负责人爆料!多模态统一token表示,视觉至关重要

量子位
量子位 · 2025-07-03T07:06:44Z
Meta 发布 J-VEPA 2 AI 模型,可通过视频了解世界

Meta Platforms Inc. 发布了新人工智能模型 J-VEPA 2,该模型通过视频理解物理世界,帮助机器人和AI代理进行规划与预测,构建世界模型,减少现实世界中的试验次数,提高安全性和效率。

Meta 发布 J-VEPA 2 AI 模型,可通过视频了解世界

实时互动网
实时互动网 · 2025-06-12T06:14:50Z

智源研究院与上海交通大学联合推出开源视频理解模型Video-XL-2,该模型支持单卡处理万帧视频,编码2048帧仅需12秒。在长视频理解任务中表现优异,超越现有轻量级模型,具有广泛应用潜力,如影视分析和异常行为监测。

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

量子位
量子位 · 2025-06-04T06:11:00Z
探索大型多模态模型在视频理解中的幻觉:基准、分析与缓解

香港城市大学的Gao等人研究了视频理解中的幻觉,分为三类:与先前知识冲突、上下文冲突和能力不足。提出了一种有效的微调数据集方法,通过思维链生成视频对和答案。

探索大型多模态模型在视频理解中的幻觉:基准、分析与缓解

DEV Community
DEV Community · 2025-05-25T00:57:49Z

本研究提出了一种名为ViaRL的新框架,通过基于规则的强化学习优化视频理解中的帧选择,解决了缺乏有效训练信号的问题。ViaRL采用迭代放大策略进行循环训练,无需昂贵标注,显著提升了时间定位性能,特别是在Needle QA任务上提升近15%。

ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种神经符号方法,旨在提升视频理解系统在事件推理和决策方面的能力。该方法通过将视频查询分解为基本事件并结构化为连贯序列,增强了系统的可解释性和推理能力,推动智能视频代理的发展。

Challenges in Building Neuro-Symbolic Video Agents

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码