小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
从多模态大语言模型中引导音频嵌入

谷歌发布了Gemini Embedding 2,这是首个原生多模态嵌入模型,能够将文本、图像、视频和音频映射到3072维向量空间。音频嵌入以固定长度的向量表示,捕捉声音的语义内容,实现跨模态检索。研究显示,模块组合方法在小模型中表现优异,音频嵌入在智能系统、实时监控和多模态工作流中有广泛应用。

从多模态大语言模型中引导音频嵌入

Jina AI
Jina AI · 2026-03-11T07:33:27Z
Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

Meta推出了感知编码器视听模型(PE-AV),该模型通过对1亿个带字幕的音视频对进行训练,实现音频、视频和文本的对齐表示。PE-AV在多个基准测试中表现优异,支持跨模态检索和理解,并结合两阶段数据引擎生成合成字幕,提高了多模态监督的效率。

Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

实时互动网
实时互动网 · 2025-12-23T02:52:47Z
Amazon Nova Multimodal Embeddings:最先进的代理 RAG 和语义搜索嵌入模型

亚马逊推出Nova多模态嵌入模型,支持文本、图像、视频和音频的统一嵌入,提升跨模态检索准确性,适用于语义搜索和生成增强检索,具备高效上下文处理能力和灵活输出维度选项。

Amazon Nova Multimodal Embeddings:最先进的代理 RAG 和语义搜索嵌入模型

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-11-27T07:55:28Z
Amazon Nova 多模态嵌入模型实战指南

亚马逊云科技推出了Amazon Nova多模态嵌入模型,支持文本、图像、视频和音频的统一嵌入,提升跨模态检索精度,适用于视频检索、图像分类和文档检索等场景,具备高效的语义理解能力,帮助用户从非结构化数据中提取洞见。

Amazon Nova 多模态嵌入模型实战指南

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-10-31T09:19:59Z
通过偏好对齐指导跨模态表示的多模态大语言模型先验

本文介绍了一种新框架MAPLE(基于偏好的模态对齐学习),通过多模态大语言模型(MLLM)指导跨模态表示学习。MAPLE利用MLLM的细粒度对齐先验,采用强化学习方法构建自动偏好数据,并引入相对偏好对齐损失(RPA),显著提升了跨模态检索效果,尤其在处理细微语义差异方面表现突出。

通过偏好对齐指导跨模态表示的多模态大语言模型先验

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z

本研究提出了Sat2Sound,一个用于声景映射的多模态表示学习框架。该框架通过视觉-语言模型生成声景描述,并利用对比学习实现卫星图像与音频的跨模态检索,展示了新的声景合成应用,提供沉浸式声学体验。

Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了一种新的生成式跨模态检索框架SemCORE,解决了现有方法在语义信息方面的不足。通过结构化自然语言标识符和生成语义验证策略,SemCORE提升了语义理解能力,并在多个数据集上显著提高了检索性能。

SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出了新型视觉语言基础模型LRSCLIP及数据集LRS2M,解决了遥感视觉语言模型在长文本处理和短文本信息不足方面的“幻觉”问题,显著提升了跨模态检索的精度。

LRSCLIP:一种对齐遥感图像与长文本的视觉语言基础模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z
ICLR 2025 | 四川大学提出Test-time Adaptation新范式,突破查询偏移挑战

在 NeurIPS 2024 大会上,OpenAI 的 Ilya Sutskever 提出了 Test-time Adaptation(TTA)以解决推理阶段的查询偏移问题。四川大学的 XLearning 团队将 TTA 应用于跨模态检索,提升了模型的鲁棒性。该研究已被 ICLR 2025 接收,推动了基础模型的推理自适应发展。

ICLR 2025 | 四川大学提出Test-time Adaptation新范式,突破查询偏移挑战

机器之心
机器之心 · 2025-03-17T09:43:20Z
跨模态检索:它为何对多模态人工智能至关重要

多模态人工智能近年来受到关注,主要涉及文本、图像和音频等多种数据的处理。跨模态检索旨在提取不同数据中的相关信息,但由于数据结构差异面临挑战。通过表示学习,机器能够将多模态数据简化为可理解的模式,从而提高检索效率。解决跨模态检索中的问题将有助于提升搜索结果的准确性和相关性。

跨模态检索:它为何对多模态人工智能至关重要

The New Stack
The New Stack · 2025-03-03T14:30:08Z

本研究提出CS-Aligner框架,解决多模态对齐中的分布差异问题。通过结合柯西-施瓦茨散度与互信息,实现更精确的视觉语言分布对齐,实验结果表明其在文本到图像生成及跨模态检索中表现优异。

Distributional Visual-Language Alignment Based on Cauchy-Schwarz Divergence

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

该研究提出了一种新的动态适配器(DASD),有效解决了资源匮乏语言中的跨模态检索问题。实验结果表明,DASD在图像-文本和视频-文本数据集上表现优异,显著提升了跨语言跨模态检索性能。

动态适配器与语义解耦用于跨语言跨模态检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

该研究提出FLEX-CLIP方法,解决传统少样本跨模态检索中的特征退化和数据不平衡问题。通过生成伪样本和融合CLIP特征,实验结果显示在四个基准数据集上的性能提高了7%至15%。

FLEX-CLIP: Feature-Level Generation Network Enhanced CLIP for X-shot Cross-Modal Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z

本研究提出了一种名为最近邻规范化(NNN)的方法,旨在提升大规模预训练模型在图像描述、视觉问答和跨模态检索中的性能,无需额外训练即可纠正模型的错误。

最近邻规范化改善多模态检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

本文研究了计算病理学中的视觉表征学习,利用大规模图像-文本对和病理知识树。研究构建了一个包含50,470个属性的知识树,涵盖32种组织和4,718种疾病。开发了一种知识增强的视觉-语言预训练方法,通过语言模型引导视觉学习。实验表明,该方法在跨模态检索和零样本分类任务中表现出色。代码和模型将公开。

释放视觉-语言预训练在3D零样本病变分割中的潜力通过掩膜-属性对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

通过大规模、同步的数据进行深度判别式表示学习,实验结果表明该表示对跨模态检索和模态间转移分类器非常有用。网络能够在文本和声音之间进行转移学习,可视化揭示了许多隐藏的单元,自动检测概念,独立于模态。

OneEncoder:一种轻量级的逐步对齐多模态框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

研究了跨模态检索在解决实体与其描述之间语义差距方面的作用,发现其可以与单模态检索互补,提供更简单和廉价的解决方案。同时,研究了三种不同的模型微调策略:单模态、跨模态或联合训练。

跨模态协调:在多元输入模态中的协同

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-29T00:00:00Z

该文介绍了一个跨模态对齐任务,以促进音频和视觉模态之间的交互学习,实现了声源定位和跨模态检索的高性能和语义理解。

声源定位是关于跨模态对齐的全部内容

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-19T00:00:00Z
Chinese CLIP: 中文图文对比学习预训练

CLIP1是一个多模态表示学习模型,促进了视觉与语言的结合,特别是在中文领域。研究表明,中文CLIP在跨模态检索任务中优于原始CLIP,尤其在中文数据集上。通过两阶段预训练方法,中文CLIP有效建模中文图像数据,提升了训练效率和效果。

Chinese CLIP: 中文图文对比学习预训练

Blog on Qwen
Blog on Qwen · 2022-12-24T06:54:19Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码