小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

谷歌扩展了Gemini API的文件搜索功能,增强了多模态检索能力。新功能支持图像与文本混合检索、自定义元数据过滤和页面级引用,提高了AI在企业知识库和文档问答中的准确性。开发者可直接使用Gemini API,无需复杂的向量数据库,适合构建企业级知识助手和客服机器人。

谷歌宣布扩展Gemini API中的文件搜索功能 为开发者带来更完整的多模态RAG能力

蓝点网
蓝点网 · 2026-05-11T01:56:38Z
JoyCastle 素材资产智能化之路:基于 Amazon Nova Multimodal Embeddings 的广告素材管理实践

JoyCastle与亚马逊云科技合作,利用Amazon Nova Multimodal Embeddings构建了智能广告素材管理系统,实现了从人工标签到AI语义搜索的转变,解决了传统素材管理的高成本和低效率问题,提升了创意团队的生产力,并为广告创意的智能化提供了可能。

JoyCastle 素材资产智能化之路:基于 Amazon Nova Multimodal Embeddings 的广告素材管理实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-09T05:56:25Z
AMES:近似多模态企业搜索通过晚期交互检索

AMES(近似多模态企业搜索)是一种支持文本、图像和视频跨模态检索的统一架构。它采用两阶段管道,结合并行搜索和优化重排序,展示了高效的检索性能,尤其在可扩展的Solr系统中表现出色。

AMES:近似多模态企业搜索通过晚期交互检索

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-17T00:00:00Z
京东云JoyAgent持续开源!多模态RAG能力正式开源

京东的JoyAgent平台今年开源了多模态RAG能力,旨在提升智能体技术,解决传统RAG在处理多种数据格式时的局限性,支持动态知识管理和多模态检索,提升企业知识利用效率。未来将继续融合多种能力,推动智能系统发展。

京东云JoyAgent持续开源!多模态RAG能力正式开源

京东科技开发者
京东科技开发者 · 2025-12-01T08:49:50Z
AAAI 2026|MARS:基于多模态检索和选择增强的对话LLM语音识别

西北工业大学与南洋理工大学合作提出MARS方法,通过多模态检索和选择历史上下文,提升对话语音识别(ASR)性能。该方法在MLC-SLM数据集上表现优异,展示了有效利用历史上下文的潜力。

AAAI 2026|MARS:基于多模态检索和选择增强的对话LLM语音识别

实时互动网
实时互动网 · 2025-12-01T03:21:49Z

快手与东北大学联合推出UNITE框架,旨在解决多模态检索中的跨模态干扰问题。该框架能够处理文本、图像和视频等多种输入,采用模态感知对比学习机制,显著提升检索性能。在多个评测中,UNITE表现优异,超越现有模型,展现出良好的通用性和综合性能。

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

量子位
量子位 · 2025-06-09T09:47:33Z
LlamaIndex通讯 2025年5月13日

本周LlamaIndex通讯介绍了深度研究代理工作坊、新的LlamaParse功能和多模态检索技术。纽约将举办金融领域的独家活动,学习构建多代理系统和使用Voyage AI的多模态嵌入。LlamaParse的新特性提升了AI应用的引用和推理能力。

LlamaIndex通讯 2025年5月13日

Blog on LlamaIndex
Blog on LlamaIndex · 2025-05-13T00:00:00Z

本研究提出CAFe框架,首次在大型视觉语言模型中同时提升表征学习与生成能力,推动多模态检索与生成基准的发展。

CAFe: Unifying Representation and Generation through Contrastive Autoregressive Fine-tuning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

智源发布的BGE-VL模型在多模态检索中表现优异,仅需1/70的数据量即可实现更好的效果。该模型通过MegaPairs合成数据,训练出2600万条样本,显著提升了检索性能,并在多个基准测试中超越传统方法,展现出高效性和可扩展性。

仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

量子位
量子位 · 2025-03-07T06:58:33Z
北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

北京大学彭宇新教授团队研究了多轮组合图像检索,提出FashionMT数据集和MAI模型,解决了历史上下文缺失和数据规模限制的问题。实验结果显示,MAI在FashionMT基准上的召回率提升了8%,有效优化了多模态检索性能。

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

机器之心
机器之心 · 2025-03-04T05:19:23Z

本研究提出了一种基于图表的多模态检索增强生成(MRAG)任务,针对现有基准在简单图像-文本互动方面的局限性,引入新的评估框架CHARGE,通过结构化关键点提取和跨模态验证,建立全面的图表基础MRAG评估基准。

通过基于图表的文档问答生成框架对多模态RAG进行基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
使用 Sentrev 寻找合适的嵌入模型

Sentrev是一个Python库,旨在简化嵌入模型的评估,帮助用户选择适合文本数据的最佳模型。它支持多种文档格式,提供检索准确性指标和性能分析,并与Qdrant和FastEmbed集成,未来计划扩展到多模态检索。选择合适的嵌入模型对提高检索效率至关重要。

使用 Sentrev 寻找合适的嵌入模型

Qdrant - Vector Database
Qdrant - Vector Database · 2025-01-31T03:40:24Z

本研究提出了一种名为MegaPairs的新型数据合成方法,旨在解决多模态检索中的训练数据不足问题。该方法通过视觉语言模型生成大规模合成数据集,显著提升了检索器的性能,超越了基线模型,并具备良好的扩展性。

MegaPairs: Large-Scale Data Synthesis for General Multimodal Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

本研究提出了一种名为Ret-XKnow的端到端多模态检索系统,通过动态模态交互解决了图像理解模型分离的问题,显著提升了零样本检索性能和微调场景的表现。

Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z

本研究构建了Dyn-VQA数据集,解决了现有多模态检索增强生成方法的非适应性和过载问题。提出的自适应规划代理OmniSearch在动态问题中表现优越,为mRAG的发展提供了新方向。

Benchmarking Multimodal Retrieval-Augmented Generation with Dynamic Visual Question Answering Dataset and Self-Adaptive Planning Agent

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

该研究介绍了多模态检索系统“时尚聚焦”,用于视频与购物匹配,结合图像和文本特征。提出K3M方法以解决电商数据中的噪声问题,利用M5Product数据集和SCALE框架实现特征融合。CommerceMM模型在多任务中表现优越,MIEM提高了图像搜索准确性,ARMMT方法提升了商品推荐精准性,优化了搜索相关性,显著改善用户体验。

MRSE:一种高效的多模态检索系统用于大规模电子商务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文介绍了多个视频处理相关的数据集和模型,如 Moments-OVRE、Countix 和 TVR,重点在于视频中重复动作的识别与计数。研究表明,结合音频信息和新型网络结构可以显著提高模型性能,尤其在复杂视觉条件下。此外,提出的多模态检索任务和数据集为视频分析提供了新的方法和基准。

OVR:一份用于视频中开放词汇时态重复计数的数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-24T00:00:00Z

大型语言模型(LLMs)在应用中面临幻觉和知识更新慢等挑战。检索增强生成(RAG)通过外部知识库改善回答质量。论文总结了三种RAG范式及其组成部分,讨论了评估方法和未来研究方向。研究表明,结合多模态检索和增强技术可显著提高问答系统的效率和准确性,为RAG领域的发展提供了新思路。

提升检索和管理检索:用于 RAG 系统质量和效率的四模块协同

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本文探讨了如何通过大型语言模型提升多模态双编码检索系统在多语言和跨语言任务中的性能。研究表明,改进语义表示和检索模型能够有效提高语音与文本的匹配率,增强跨语言检索能力。

矿工:多语言语言模型作为语义检索器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

本文探讨了实时搜索中的信息检索挑战,提出了Uni-Retriever框架,通过知识蒸馏和对比学习实现高效检索。同时,介绍了基于嵌入式检索的电子商务搜索技术,提出了多模态检索系统Que2Eng,显著提升了搜索体验和相关性预测性能。实验结果表明,这些方法在多个平台上有效提高了检索效果。

实时搜索中的事件增强检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码