小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
宣布新模型及扩展可用性

Voyage AI推出Voyage 4系列模型,提供共享嵌入空间,支持跨模型兼容性,提升检索准确性并降低成本。新模型包括voyage-4-nano和voyage-multimodal-3.5,后者新增视频检索功能,现已在MongoDB Atlas和GCP上可用。

宣布新模型及扩展可用性

Voyage AI
Voyage AI · 2026-01-15T15:00:00Z

香港科技大学与阿里巴巴合作开发了通用视频检索(GVE)模型,利用155万条多模态训练数据,突破了传统视频检索的瓶颈,展现出优越的泛化能力,推动视频检索从“专用”向“通用”转型。

用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能

量子位
量子位 · 2025-11-14T07:50:17Z
MIT 新 AI 模型实现音画同步学习:无需标注即可准确对齐视频与音频

麻省理工学院研究人员开发了一种新方法,提升人工智能模型在视觉和听觉学习方面的能力。该方法能够自动检索视频和音频数据,改善机器人对真实环境的理解。研究团队创建了无需人工标注的模型,能更精确地对齐音视频数据,提高视频检索和场景分类的准确性。未来,他们希望将此技术应用于日常工具中。

MIT 新 AI 模型实现音画同步学习:无需标注即可准确对齐视频与音频

实时互动网
实时互动网 · 2025-05-30T06:18:21Z
人工智能无需人类干预即可学习视觉与声音的关联

麻省理工学院的研究人员开发了一种新型机器学习模型,能够同时处理音频和视觉数据,提升机器人与现实世界的互动能力。该模型通过优化视频帧与音频的对应关系,提高了视频检索和音视频场景分类的准确性,未来有望应用于新闻和电影制作等领域。

人工智能无需人类干预即可学习视觉与声音的关联

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2025-05-22T04:00:00Z

本研究提出了一种PRVR框架,通过将视频中的多样上下文编码为原型,显著提升了视频检索的准确性与效率。

Prototypes as Balancing Units for Efficient and Effective Partial Relevance Video Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z
构建一个用于视频内容搜索和分析的RAG系统

本文介绍了如何利用Amazon Bedrock和AWS服务,将视频和音频内容转化为可搜索的向量表示。通过提取视频帧、生成多模态嵌入和语音转文本等步骤,构建了一个支持自然语言查询的应用,实现高效检索视频中的特定时刻。

构建一个用于视频内容搜索和分析的RAG系统

DEV Community
DEV Community · 2025-04-16T17:09:34Z
TRACE:因果事件建模助力视频理解大模型的时间定位能力

香港中文大学(深圳)研究团队提出TRACE技术,通过因果事件建模提升视频理解能力,解决了传统视频检索效率低的问题。TRACE将视频结构化为时间戳、显著性分数和文本描述,显著提高了时序理解与定位精度,效果优于其他模型。

TRACE:因果事件建模助力视频理解大模型的时间定位能力

机器之心
机器之心 · 2025-03-15T15:58:44Z

本研究提出了一种自动字幕增强方法,旨在解决视频文本检索中的描述不足问题。通过自我学习提升表达质量,设计了专家化字幕选择机制,实现视频与文本的匹配,增强自主适应性,并在基准测试中取得了优异成绩。

视频-文本检索的专家化字幕自动增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

本研究提出了一种名为Segment-Proposal-Ranking (SPR)的视频时刻搜索框架,旨在提高检索效率和准确性。该框架将搜索过程分为三个独立阶段,适用于任何长度的视频。实验结果表明,SPR在降低计算成本和处理时间的同时,保持了高性能,适合大规模应用。

A Flexible and Scalable Framework for Video Moment Search

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究提出了一种新的视频上下文关键词注意力模块,旨在提升视频时刻检索和高亮检测的上下文捕捉能力。实验结果表明,该方法在细粒度对齐方面显著优于现有技术。

Watch Video, Capture Keywords: Context-Aware Keyword Attention for Moment Retrieval and Highlight Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z

本研究探讨了多模态模型在对齐方面的局限性,提出了一种新颖的Gramian表征对齐度量(GRAM),并证明其在高维空间中有效对齐多个模态,显著提升了视频-音频-文本检索和音频-视频分类等任务的表现。

Gramian Multimodal Representation Learning and Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究提出了一种视频检索增强生成(Video-RAG)的方法,旨在解决大型视频语言模型在长视频理解中的局限性。通过视觉对齐的辅助文本,Video-RAG显著提升了跨模态对齐效果,减少了对高质量数据和GPU资源的依赖,并在多个基准测试中表现优异。

Video Retrieval-Augmented Generation: Visually-Aligned Long Video Comprehension

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

AI视频卫士是一个多功能的实时监控系统,支持多设备接入,具备实时预警、视频检索和算法训练等功能,适合个人和商用。该项目开源,提供多种免费模型,操作简便。

NAS部署AI视频卫士,压榨NAS的最后一滴性能,NAS性能检测镜像

熊猫不是猫QAQ
熊猫不是猫QAQ · 2024-11-04T09:49:57Z

本研究提出了ContextIQ系统,旨在解决视频检索中对复杂内容理解的局限性。该系统通过多模态专家生成语义视频表示,提高检索准确性,改善品牌安全与内容过滤,并增强上下文广告效果。

ContextIQ:一种基于专家的多模态视频检索系统,用于上下文广告

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本研究推出了MultiVENT 2.0数据集,包含超过21.8万个新闻视频和3906个事件查询,旨在解决现有视频检索数据集的局限。研究表明,需要更强大的多模态检索系统来提升视频检索的效果。

MultiVENT 2.0: A Large-Scale Multilingual Benchmark for Event-Based Video Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本研究介绍了电视节目检索(TVR)数据集,包含109K个查询及其相关性标签,结合视频和字幕文本。提出了跨模态时刻定位网络(XML)和多模式字幕数据集(TVC),并探讨了多种视频检索方法,提升了检索效率和准确性,展示了在多个基准测试中的优越性能。

将1对N关系分解为N个1对1关系的文本视频检索研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文介绍了多个视频时刻检索和精彩片段检测的模型及其进展,包括QVHIGHLIGHTS数据集、UMT框架、TSQNet、Query-Dependent DETR、MH-DETR、BM-DETR和TR-DETR等。这些模型通过新机制和优化方法提升了视频分析的准确性和鲁棒性,并在多个数据集上表现优越。

基于显著性引导的DETR用于时刻检索和亮点检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本文介绍了一种交叉模态检索系统,利用图像和文本编码实现高效检索,避免了使用不同网络的缺点。该系统在多个数据集上评估,展示了在视频和图像检索中的优越性能,并在电子商务平台Shopee中显著提升了用户点击和订单量。

智能多模态搜索:Adobe Express中上下文稀疏与密集嵌入的结合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-26T00:00:00Z

本文介绍了一种基于树增强跨模态编码的方法,以提高视频检索性能。通过双编码器和跨注意力变压器,结合视觉与文本特征,提升了检索的准确性和可扩展性。此外,研究提出了全局-局部对齐方法和HiSE模型,优化了文本到视频的检索任务,实验结果在多个基准测试中表现优越。

T2VIndexer:一种高效文本-视频检索的生成视频索引器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本文介绍了多种视频时刻检索模型的进展,包括Moment Alignment Network、交叉模态交互网络和跨模态相关性匹配模型。这些模型通过结合语言查询和视频内容,提高了检索准确性和定位精度。此外,研究还提出了去偏置网络和背景感知模型,进一步增强了视频与文本的对齐效果。

解耦与去噪:解决视频时刻检索中的上下文不对齐问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码