小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
从多模态大语言模型中引导音频嵌入

谷歌发布了Gemini Embedding 2,这是首个原生多模态嵌入模型,能够将文本、图像、视频和音频映射到3072维向量空间。音频嵌入以固定长度的向量表示,捕捉声音的语义内容,实现跨模态检索。研究显示,模块组合方法在小模型中表现优异,音频嵌入在智能系统、实时监控和多模态工作流中有广泛应用。

从多模态大语言模型中引导音频嵌入

Jina AI
Jina AI · 2026-03-11T07:33:27Z
Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

Meta推出了感知编码器视听模型(PE-AV),该模型通过对1亿个带字幕的音视频对进行训练,实现音频、视频和文本的对齐表示。PE-AV在多个基准测试中表现优异,支持跨模态检索和理解,并结合两阶段数据引擎生成合成字幕,提高了多模态监督的效率。

Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器

实时互动网
实时互动网 · 2025-12-23T02:52:47Z
Amazon Nova Multimodal Embeddings:最先进的代理 RAG 和语义搜索嵌入模型

亚马逊推出Nova多模态嵌入模型,支持文本、图像、视频和音频的统一嵌入,提升跨模态检索准确性,适用于语义搜索和生成增强检索,具备高效上下文处理能力和灵活输出维度选项。

Amazon Nova Multimodal Embeddings:最先进的代理 RAG 和语义搜索嵌入模型

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-11-27T07:55:28Z
Amazon Nova 多模态嵌入模型实战指南

亚马逊云科技推出了Amazon Nova多模态嵌入模型,支持文本、图像、视频和音频的统一嵌入,提升跨模态检索精度,适用于视频检索、图像分类和文档检索等场景,具备高效的语义理解能力,帮助用户从非结构化数据中提取洞见。

Amazon Nova 多模态嵌入模型实战指南

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-10-31T09:19:59Z
通过偏好对齐指导跨模态表示的多模态大语言模型先验

本文介绍了一种新框架MAPLE(基于偏好的模态对齐学习),通过多模态大语言模型(MLLM)指导跨模态表示学习。MAPLE利用MLLM的细粒度对齐先验,采用强化学习方法构建自动偏好数据,并引入相对偏好对齐损失(RPA),显著提升了跨模态检索效果,尤其在处理细微语义差异方面表现突出。

通过偏好对齐指导跨模态表示的多模态大语言模型先验

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z

本研究提出了Sat2Sound,一个用于声景映射的多模态表示学习框架。该框架通过视觉-语言模型生成声景描述,并利用对比学习实现卫星图像与音频的跨模态检索,展示了新的声景合成应用,提供沉浸式声学体验。

Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了一种新的生成式跨模态检索框架SemCORE,解决了现有方法在语义信息方面的不足。通过结构化自然语言标识符和生成语义验证策略,SemCORE提升了语义理解能力,并在多个数据集上显著提高了检索性能。

SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出了新型视觉语言基础模型LRSCLIP及数据集LRS2M,解决了遥感视觉语言模型在长文本处理和短文本信息不足方面的“幻觉”问题,显著提升了跨模态检索的精度。

LRSCLIP:一种对齐遥感图像与长文本的视觉语言基础模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z
ICLR 2025 | 四川大学提出Test-time Adaptation新范式,突破查询偏移挑战

在 NeurIPS 2024 大会上,OpenAI 的 Ilya Sutskever 提出了 Test-time Adaptation(TTA)以解决推理阶段的查询偏移问题。四川大学的 XLearning 团队将 TTA 应用于跨模态检索,提升了模型的鲁棒性。该研究已被 ICLR 2025 接收,推动了基础模型的推理自适应发展。

ICLR 2025 | 四川大学提出Test-time Adaptation新范式,突破查询偏移挑战

机器之心
机器之心 · 2025-03-17T09:43:20Z
跨模态检索:它为何对多模态人工智能至关重要

多模态人工智能近年来受到关注,主要涉及文本、图像和音频等多种数据的处理。跨模态检索旨在提取不同数据中的相关信息,但由于数据结构差异面临挑战。通过表示学习,机器能够将多模态数据简化为可理解的模式,从而提高检索效率。解决跨模态检索中的问题将有助于提升搜索结果的准确性和相关性。

跨模态检索:它为何对多模态人工智能至关重要

The New Stack
The New Stack · 2025-03-03T14:30:08Z

本研究提出CS-Aligner框架,解决多模态对齐中的分布差异问题。通过结合柯西-施瓦茨散度与互信息,实现更精确的视觉语言分布对齐,实验结果表明其在文本到图像生成及跨模态检索中表现优异。

Distributional Visual-Language Alignment Based on Cauchy-Schwarz Divergence

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

该研究提出了一种新的动态适配器(DASD),有效解决了资源匮乏语言中的跨模态检索问题。实验结果表明,DASD在图像-文本和视频-文本数据集上表现优异,显著提升了跨语言跨模态检索性能。

动态适配器与语义解耦用于跨语言跨模态检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

该研究提出FLEX-CLIP方法,解决传统少样本跨模态检索中的特征退化和数据不平衡问题。通过生成伪样本和融合CLIP特征,实验结果显示在四个基准数据集上的性能提高了7%至15%。

FLEX-CLIP: Feature-Level Generation Network Enhanced CLIP for X-shot Cross-Modal Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z

本研究提出了一种名为最近邻规范化(NNN)的方法,旨在提升大规模预训练模型在图像描述、视觉问答和跨模态检索中的性能。该方法无需额外训练,显著改善了文本与图像检索的效果,具有广泛的应用潜力。

Nearest Neighbor Normalization Improves Multimodal Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

本文介绍了一种结合视觉和文本数据的跨模态检索模型,针对餐品及食谱进行建模,并在Recipe1M数据集上验证了其优越性能。此外,研究提出了逆向烹饪系统和多模态API等新方法,以提升食谱生成和个性化,展示了食品计算领域的广泛应用潜力。

ChefFusion:集成食谱和食品图像生成的多模态基础模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-18T00:00:00Z

该论文提出了一种新的声学嵌入方案sound-word2vec,应用于文本检索和电影制作等任务。研究探讨了无监督神经网络模型在语音与图像的语义关联,提出了基于双流网络的算法用于声源定位,并通过自监督学习提升性能。此外,介绍了Spatial LibriSpeech数据集用于训练模型,展示了在声音景观映射和跨模态检索中的优越表现。

学习空间感知的语言和音频嵌入

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

本研究探讨了多种知识蒸馏策略在CLIP模型中的应用,提升了学生模型在零样本分类和跨模态检索中的性能。提出的CLIP-benchmark和CSKD方法有效整合无标签数据,显著提高了视觉-语言任务的表现。RWKV-CLIP和LP-CLIP技术进一步增强了模型的鲁棒性和性能。

ComKD-CLIP: 针对对比性语言-图像预训练模型的全面知识蒸馏

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

本文探讨了多模态知识检索和视觉问答(VQA)模型的改进,提出了ReViz和SKURG等新方法,显著提升了检索精度和性能。研究表明,跨模态检索有助于弥合语义差距,并在多个数据集上取得了最佳成绩。

多模态的知识密集型视觉问答重新排序

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-17T00:00:00Z

本文探讨了计算病理学中的视觉表征学习,构建了包含50,470个属性的病理知识树,并开发了基于知识增强的视觉-语言预训练方法。研究表明,该方法在跨模态检索和零样本分类等任务中显著提升了性能。此外,提出的无监督技术CPLIP在图像和文本对齐方面表现优异,推动了病理学研究的进展。

基于文本的定量和可解释的组织病理图像分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-10T00:00:00Z

本文探讨了零样本学习在草图图像检索中的应用,提出了一种新框架,通过对比文本间接对齐素描与照片,避免了成对样本的需求。研究表明,该方法在多个数据集上表现优越,有效实现了跨模态内容检索。

用辅助文本描述的跨模态注意力对齐网络用于零样本基于素描的图像检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码