小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
JoyCastle 素材资产智能化之路:基于 Amazon Nova Multimodal Embeddings 的广告素材管理实践

JoyCastle与亚马逊云科技合作,利用Amazon Nova Multimodal Embeddings构建了智能广告素材管理系统,实现了从人工标签到AI语义搜索的转变,解决了传统素材管理的高成本和低效率问题,提升了创意团队的生产力,并为广告创意的智能化提供了可能。

JoyCastle 素材资产智能化之路:基于 Amazon Nova Multimodal Embeddings 的广告素材管理实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-09T05:56:25Z
AMES:近似多模态企业搜索通过晚期交互检索

AMES(近似多模态企业搜索)是一种支持文本、图像和视频跨模态检索的统一架构。它采用两阶段管道,结合并行搜索和优化重排序,展示了高效的检索性能,尤其在可扩展的Solr系统中表现出色。

AMES:近似多模态企业搜索通过晚期交互检索

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-17T00:00:00Z
京东云JoyAgent持续开源!多模态RAG能力正式开源

京东的JoyAgent平台今年开源了多模态RAG能力,旨在提升智能体技术,解决传统RAG在处理多种数据格式时的局限性,支持动态知识管理和多模态检索,提升企业知识利用效率。未来将继续融合多种能力,推动智能系统发展。

京东云JoyAgent持续开源!多模态RAG能力正式开源

京东科技开发者
京东科技开发者 · 2025-12-01T08:49:50Z
AAAI 2026|MARS:基于多模态检索和选择增强的对话LLM语音识别

西北工业大学与南洋理工大学合作提出MARS方法,通过多模态检索和选择历史上下文,提升对话语音识别(ASR)性能。该方法在MLC-SLM数据集上表现优异,展示了有效利用历史上下文的潜力。

AAAI 2026|MARS:基于多模态检索和选择增强的对话LLM语音识别

实时互动网
实时互动网 · 2025-12-01T03:21:49Z

快手与东北大学联合推出UNITE框架,旨在解决多模态检索中的跨模态干扰问题。该框架能够处理文本、图像和视频等多种输入,采用模态感知对比学习机制,显著提升检索性能。在多个评测中,UNITE表现优异,超越现有模型,展现出良好的通用性和综合性能。

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

量子位
量子位 · 2025-06-09T09:47:33Z
LlamaIndex通讯 2025年5月13日

本周LlamaIndex通讯介绍了深度研究代理工作坊、新的LlamaParse功能和多模态检索技术。纽约将举办金融领域的独家活动,学习构建多代理系统和使用Voyage AI的多模态嵌入。LlamaParse的新特性提升了AI应用的引用和推理能力。

LlamaIndex通讯 2025年5月13日

Blog on LlamaIndex
Blog on LlamaIndex · 2025-05-13T00:00:00Z

本研究提出CAFe框架,首次在大型视觉语言模型中同时提升表征学习与生成能力,推动多模态检索与生成基准的发展。

CAFe: Unifying Representation and Generation through Contrastive Autoregressive Fine-tuning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

智源发布的BGE-VL模型在多模态检索中表现优异,仅需1/70的数据量即可实现更好的效果。该模型通过MegaPairs合成数据,训练出2600万条样本,显著提升了检索性能,并在多个基准测试中超越传统方法,展现出高效性和可扩展性。

仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

量子位
量子位 · 2025-03-07T06:58:33Z
北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

北京大学彭宇新教授团队研究了多轮组合图像检索,提出FashionMT数据集和MAI模型,解决了历史上下文缺失和数据规模限制的问题。实验结果显示,MAI在FashionMT基准上的召回率提升了8%,有效优化了多模态检索性能。

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

机器之心
机器之心 · 2025-03-04T05:19:23Z

本研究提出了一种基于图表的多模态检索增强生成(MRAG)任务,针对现有基准在简单图像-文本互动方面的局限性,引入新的评估框架CHARGE,通过结构化关键点提取和跨模态验证,建立全面的图表基础MRAG评估基准。

通过基于图表的文档问答生成框架对多模态RAG进行基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
使用 Sentrev 寻找合适的嵌入模型

Sentrev是一个Python库,旨在简化嵌入模型的评估,帮助用户选择适合文本数据的最佳模型。它支持多种文档格式,提供检索准确性指标和性能分析,并与Qdrant和FastEmbed集成,未来计划扩展到多模态检索。选择合适的嵌入模型对提高检索效率至关重要。

使用 Sentrev 寻找合适的嵌入模型

Qdrant - Vector Database
Qdrant - Vector Database · 2025-01-31T03:40:24Z

本研究提出了一种名为MegaPairs的新型数据合成方法,旨在解决多模态检索中的训练数据不足问题。该方法通过视觉语言模型生成大规模合成数据集,显著提升了检索器的性能,超越了基线模型,并具备良好的扩展性。

MegaPairs: Large-Scale Data Synthesis for General Multimodal Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

本研究提出了Ret-XKnow端到端检索系统,解决了多模态检索中图像理解模型分离的问题,显著提升了零样本检索性能。

通过视觉对话增强多模态查询表示以实现端到端的知识检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z

本研究针对现有多模态检索生成方法的非适应性和过载问题,构建了Dyn-VQA数据集,并提出了自适应规划代理OmniSearch,实验结果表明其在复杂检索中表现优越。

动态视觉问答数据集与自适应规划代理的多模态检索增强生成基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

LLaMP框架是一个多模态检索增强生成框架,整合材料科学概念的多模态信息,并实时获取相关数据。它能纠正GPT-3.5的错误,为材料信息学提供直观的方法,为未来的自主实验室奠定基础。

从大型语言模型衍生的嵌入表示中抽样潜在材料属性信息

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-18T00:00:00Z

LLaMP是一个多模态检索增强生成框架,整合材料科学概念的多模态信息,实时获取相关数据,并对固态合成过程进行总结。它能够纠正GPT-3.5的错误,为材料信息学提供直观且无幻觉的方法。该框架为知识蒸馏和其他语言模型的精细调整奠定了基础。

利用大型语言模型进行材料和分子属性预测的回归研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

LLaMP框架是一个多模态检索增强生成框架,整合材料科学概念的多模态信息,并实时获取相关数据。它能纠正GPT-3.5的错误,为材料信息学提供直观方法,为知识蒸馏和语言模型调整奠定基础。

利用化学基础模型促进在多智能体工作流中针对结构的检索增强生成,以支持催化剂和材料设计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本文介绍了通过设计AlignCLIP来减少模态间隙的方法,并通过实验证明了其在跨模态对齐方面的显著改进。在多个下游评估中,AlignCLIP在零样本图像分类、零样本多模态检索和零样本语义文本相似性等方面保持了良好的性能。

缓解差距:研究提升 CLIP 中跨模态对齐的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-25T00:00:00Z

LLaMP框架是一个多模态检索增强生成框架,整合材料科学概念的多模态信息,并纠正GPT-3.5的错误。它为材料信息学提供了直观且无幻觉的方法,为知识蒸馏和语言模型的调整奠定了基础。

LLaMP: 用于高保真材料知识检索和蒸馏的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-30T00:00:00Z

该文章介绍了一个包含60亿个图像-文本配对的双语数据集BM-6B,并提出了一种新的分组聚合方法来处理此规模的数据集。通过预训练双语图像-文本基础模型,取得了在多模态检索和分类任务方面的成果,并在零样本分类设置下,在ImageNet上的top-1准确率超过了以前报道的SoTA方法。

M^2-Encoder: 大规模高效预训练推动双语图像 - 文本理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码