小红花·文摘

谷歌扩展了Gemini API的文件搜索功能，增强了多模态检索能力。新功能支持图像与文本混合检索、自定义元数据过滤和页面级引用，提高了AI在企业知识库和文档问答中的准确性。开发者可直接使用Gemini API，无需复杂的向量数据库，适合构建企业级知识助手和客服机器人。

谷歌宣布扩展Gemini API中的文件搜索功能为开发者带来更完整的多模态RAG能力

蓝点网 ·

JoyCastle 素材资产智能化之路：基于 Amazon Nova Multimodal Embeddings 的广告素材管理实践

亚马逊AWS官方博客 ·

AMES：近似多模态企业搜索通过晚期交互检索

Apple Machine Learning Research ·

京东云JoyAgent持续开源！多模态RAG能力正式开源

京东科技开发者 ·

AAAI 2026｜MARS：基于多模态检索和选择增强的对话LLM语音识别

实时互动网 ·

快手与东北大学联合推出UNITE框架，旨在解决多模态检索中的跨模态干扰问题。该框架能够处理文本、图像和视频等多种输入，采用模态感知对比学习机制，显著提升检索性能。在多个评测中，UNITE表现优异，超越现有模型，展现出良好的通用性和综合性能。

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

量子位 ·

LlamaIndex通讯 2025年5月13日

Blog on LlamaIndex ·

本研究提出CAFe框架，首次在大型视觉语言模型中同时提升表征学习与生成能力，推动多模态检索与生成基准的发展。

CAFe: Unifying Representation and Generation through Contrastive Autoregressive Fine-tuning

BriefGPT - AI 论文速递 ·

智源发布的BGE-VL模型在多模态检索中表现优异，仅需1/70的数据量即可实现更好的效果。该模型通过MegaPairs合成数据，训练出2600万条样本，显著提升了检索性能，并在多个基准测试中超越传统方法，展现出高效性和可扩展性。

仅1/70的数据量，多模态检索效果却更优! 智源发布BGE-VL，合成数据立大功

量子位 ·

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

机器之心 ·

本研究提出了一种基于图表的多模态检索增强生成（MRAG）任务，针对现有基准在简单图像-文本互动方面的局限性，引入新的评估框架CHARGE，通过结构化关键点提取和跨模态验证，建立全面的图表基础MRAG评估基准。

通过基于图表的文档问答生成框架对多模态RAG进行基准测试

BriefGPT - AI 论文速递 ·

使用 Sentrev 寻找合适的嵌入模型

Qdrant - Vector Database ·

本研究提出了一种名为MegaPairs的新型数据合成方法，旨在解决多模态检索中的训练数据不足问题。该方法通过视觉语言模型生成大规模合成数据集，显著提升了检索器的性能，超越了基线模型，并具备良好的扩展性。

MegaPairs: Large-Scale Data Synthesis for General Multimodal Retrieval

BriefGPT - AI 论文速递 ·

本研究提出了一种名为Ret-XKnow的端到端多模态检索系统，通过动态模态交互解决了图像理解模型分离的问题，显著提升了零样本检索性能和微调场景的表现。

Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval

BriefGPT - AI 论文速递 ·

本研究构建了Dyn-VQA数据集，解决了现有多模态检索增强生成方法的非适应性和过载问题。提出的自适应规划代理OmniSearch在动态问题中表现优越，为mRAG的发展提供了新方向。

Benchmarking Multimodal Retrieval-Augmented Generation with Dynamic Visual Question Answering Dataset and Self-Adaptive Planning Agent

BriefGPT - AI 论文速递 ·

该研究介绍了多模态检索系统“时尚聚焦”，用于视频与购物匹配，结合图像和文本特征。提出K3M方法以解决电商数据中的噪声问题，利用M5Product数据集和SCALE框架实现特征融合。CommerceMM模型在多任务中表现优越，MIEM提高了图像搜索准确性，ARMMT方法提升了商品推荐精准性，优化了搜索相关性，显著改善用户体验。

谷歌宣布扩展Gemini API中的文件搜索功能为开发者带来更完整的多模态RAG能力