小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
宣布新模型及扩展可用性

Voyage AI推出Voyage 4系列模型,提供共享嵌入空间,支持跨模型兼容性,提升检索准确性并降低成本。新模型包括voyage-4-nano和voyage-multimodal-3.5,后者新增视频检索功能,现已在MongoDB Atlas和GCP上可用。

宣布新模型及扩展可用性

Voyage AI
Voyage AI · 2026-01-15T15:00:00Z

香港科技大学与阿里巴巴合作开发了通用视频检索(GVE)模型,利用155万条多模态训练数据,突破了传统视频检索的瓶颈,展现出优越的泛化能力,推动视频检索从“专用”向“通用”转型。

用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能

量子位
量子位 · 2025-11-14T07:50:17Z
MIT 新 AI 模型实现音画同步学习:无需标注即可准确对齐视频与音频

麻省理工学院研究人员开发了一种新方法,提升人工智能模型在视觉和听觉学习方面的能力。该方法能够自动检索视频和音频数据,改善机器人对真实环境的理解。研究团队创建了无需人工标注的模型,能更精确地对齐音视频数据,提高视频检索和场景分类的准确性。未来,他们希望将此技术应用于日常工具中。

MIT 新 AI 模型实现音画同步学习:无需标注即可准确对齐视频与音频

实时互动网
实时互动网 · 2025-05-30T06:18:21Z
人工智能无需人类干预即可学习视觉与声音的关联

麻省理工学院的研究人员开发了一种新型机器学习模型,能够同时处理音频和视觉数据,提升机器人与现实世界的互动能力。该模型通过优化视频帧与音频的对应关系,提高了视频检索和音视频场景分类的准确性,未来有望应用于新闻和电影制作等领域。

人工智能无需人类干预即可学习视觉与声音的关联

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2025-05-22T04:00:00Z

本研究提出了一种PRVR框架,通过将视频中的多样上下文编码为原型,显著提升了视频检索的准确性与效率。

Prototypes as Balancing Units for Efficient and Effective Partial Relevance Video Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z
构建一个用于视频内容搜索和分析的RAG系统

本文介绍了如何利用Amazon Bedrock和AWS服务,将视频和音频内容转化为可搜索的向量表示。通过提取视频帧、生成多模态嵌入和语音转文本等步骤,构建了一个支持自然语言查询的应用,实现高效检索视频中的特定时刻。

构建一个用于视频内容搜索和分析的RAG系统

DEV Community
DEV Community · 2025-04-16T17:09:34Z
TRACE:因果事件建模助力视频理解大模型的时间定位能力

香港中文大学(深圳)研究团队提出TRACE技术,通过因果事件建模提升视频理解能力,解决了传统视频检索效率低的问题。TRACE将视频结构化为时间戳、显著性分数和文本描述,显著提高了时序理解与定位精度,效果优于其他模型。

TRACE:因果事件建模助力视频理解大模型的时间定位能力

机器之心
机器之心 · 2025-03-15T15:58:44Z

本研究提出了一种自动字幕增强方法,旨在解决视频文本检索中的描述不足问题。通过自我学习提升表达质量,设计了专家化字幕选择机制,实现视频与文本的匹配,增强自主适应性,并在基准测试中取得了优异成绩。

视频-文本检索的专家化字幕自动增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

本研究提出了一种名为Segment-Proposal-Ranking (SPR)的视频时刻搜索框架,旨在提高检索效率和准确性。该框架将搜索过程分为三个独立阶段,适用于任何长度的视频。实验结果表明,SPR在降低计算成本和处理时间的同时,保持了高性能,适合大规模应用。

A Flexible and Scalable Framework for Video Moment Search

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究提出了一种新的视频上下文关键词注意力模块,旨在提升视频时刻检索和高亮检测的上下文捕捉能力。实验结果表明,该方法在细粒度对齐方面显著优于现有技术。

Watch Video, Capture Keywords: Context-Aware Keyword Attention for Moment Retrieval and Highlight Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z

本研究探讨了多模态模型在对齐方面的局限性,提出了一种新颖的Gramian表征对齐度量(GRAM),并证明其在高维空间中有效对齐多个模态,显著提升了视频-音频-文本检索和音频-视频分类等任务的表现。

Gramian Multimodal Representation Learning and Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究提出了一种视频检索增强生成(Video-RAG)的方法,旨在解决大型视频语言模型在长视频理解中的局限性。通过视觉对齐的辅助文本,Video-RAG显著提升了跨模态对齐效果,减少了对高质量数据和GPU资源的依赖,并在多个基准测试中表现优异。

Video Retrieval-Augmented Generation: Visually-Aligned Long Video Comprehension

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

AI视频卫士是一个多功能的实时监控系统,支持多设备接入,具备实时预警、视频检索和算法训练等功能,适合个人和商用。该项目开源,提供多种免费模型,操作简便。

NAS部署AI视频卫士,压榨NAS的最后一滴性能,NAS性能检测镜像

熊猫不是猫QAQ
熊猫不是猫QAQ · 2024-11-04T09:49:57Z

本研究提出了ContextIQ系统,旨在解决视频检索中对复杂内容理解的局限性。该系统通过多模态专家生成语义视频表示,提高检索准确性,改善品牌安全与内容过滤,并增强上下文广告效果。

ContextIQ:一种基于专家的多模态视频检索系统,用于上下文广告

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本研究推出了MultiVENT 2.0数据集,包含超过21.8万个新闻视频和3906个事件查询,旨在解决现有视频检索数据集的局限。研究表明,需要更强大的多模态检索系统来提升视频检索的效果。

MultiVENT 2.0: A Large-Scale Multilingual Benchmark for Event-Based Video Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本研究介绍了电视节目检索(TVR)数据集,包含109K个查询及其相关性标签,结合视频和字幕文本。提出了跨模态时刻定位网络(XML)和多模式字幕数据集(TVC),并探讨了多种视频检索方法,提升了检索效率和准确性,展示了在多个基准测试中的优越性能。

将1对N关系分解为N个1对1关系的文本视频检索研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文介绍了多个视频时刻检索和精彩片段检测的模型及其进展,包括QVHIGHLIGHTS数据集、UMT框架、TSQNet、Query-Dependent DETR、MH-DETR、BM-DETR和TR-DETR等。这些模型通过新机制和优化方法提升了视频分析的准确性和鲁棒性,并在多个数据集上表现优越。

基于显著性引导的DETR用于时刻检索和亮点检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本文介绍了一种交叉模态检索系统,利用图像和文本编码实现高效检索,避免了使用不同网络的缺点。该系统在多个数据集上评估,展示了在视频和图像检索中的优越性能,并在电子商务平台Shopee中显著提升了用户点击和订单量。

智能多模态搜索:Adobe Express中上下文稀疏与密集嵌入的结合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-26T00:00:00Z

本文介绍了一种基于树增强跨模态编码的方法,以提高视频检索性能。通过双编码器和跨注意力变压器,结合视觉与文本特征,提升了检索的准确性和可扩展性。此外,研究提出了全局-局部对齐方法和HiSE模型,优化了文本到视频的检索任务,实验结果在多个基准测试中表现优越。

T2VIndexer:一种高效文本-视频检索的生成视频索引器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本文介绍了多种视频时刻检索模型的进展,包括Moment Alignment Network、交叉模态交互网络和跨模态相关性匹配模型。这些模型通过结合语言查询和视频内容,提高了检索准确性和定位精度。此外,研究还提出了去偏置网络和背景感知模型,进一步增强了视频与文本的对齐效果。

解耦与去噪:解决视频时刻检索中的上下文不对齐问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码