小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
MixAtlas:面向多模态大模型中期训练的基于不确定性的数 据混合优化

MixAtlas是一种用于多模态大模型中期训练的数据混合优化框架,通过领域分解和小型代理模型提高样本效率和下游泛化能力。它在图像概念和任务监督两个方面分解训练数据,显著提升训练效率,实现3倍的收敛速度和2-5%的性能提升,尤其在文本丰富的基准测试中表现突出。

MixAtlas:面向多模态大模型中期训练的基于不确定性的数 据混合优化

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-16T00:00:00Z
让大模型多模态检索全面超越SOTA!ReCALL框架化解生成式与判别式的范式冲突|CVPR’26

ReCALL框架通过“诊断-生成-校准”闭环解决了多模态大模型在检索中的范式冲突,提升了细粒度推理能力,显著提高了组合图像检索的性能,标志着大模型向下游任务迁移的新阶段。

让大模型多模态检索全面超越SOTA!ReCALL框架化解生成式与判别式的范式冲突|CVPR’26

量子位
量子位 · 2026-04-06T15:30:59Z
浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

浙江大学与阿里巴巴等团队研究发现,多模态大模型在视觉推理中存在“盲目自信”现象,即在图像质量下降时仍保持高置信度。为解决此问题,提出CA-TTS框架,通过置信度校准和资源分配优化推理效果。实验表明,该方法在多个视觉推理基准上显著提升准确率,强调了先感知后推理的重要性。

浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

量子位
量子位 · 2026-03-22T07:17:19Z
产业级多模态模型训练工具:PaddleFormers微调打造定制化视觉定位能力

近年来,多模态大模型的发展使AI从“看懂图像”转向“理解现实”。视觉定位任务要求模型根据自然语言描述在图像中找到目标。PaddleFormers v1.0为开发者提供高效的训练与微调工具,支持多模态任务,通过领域数据微调提升模型在特定任务中的表现,满足行业需求。未来,PaddleFormers将进一步降低多模态模型的训练门槛,推动其在实际业务中的应用。

产业级多模态模型训练工具:PaddleFormers微调打造定制化视觉定位能力

百度大脑
百度大脑 · 2026-03-12T13:10:54Z

本文探讨了利用多模态大模型进行发票数据结构化提取的实践经验,旨在实现模型稳定输出可用的JSON格式数据。传统OCR方法在复杂版式下效果不佳,而多模态模型如Gemini和GPT-4o能够有效理解图像和指令。文章介绍了微调和少样本提示的方法,强调数据格式和模型输出准确性的重要性,建议在训练中加入模糊样本,并在系统提示中强调格式要求,以提高模型的可靠性。

多模态数据提取:微调与少样本提示

路边的阿不
路边的阿不 · 2026-01-14T09:16:20Z
工业质检新王者 - 多模态大模型零样本缺陷检测

多模态大模型(MLLM)能够同时处理文本和图像等多种信息,推动AI向更通用的方向发展。在工业缺陷检测中,MLLM显著减少样本依赖,实现零样本检测,预计到2026年将迎来应用爆发。

工业质检新王者 - 多模态大模型零样本缺陷检测

gloomyfish
gloomyfish · 2025-12-23T09:25:33Z

智谱AI在港交所申请IPO,年营收达3亿,增速130%。成立6年融资超过83亿,专注于AGI研发,推出多模态大模型,已服务12000家企业。

火线解析智谱AI招股书:年营收3亿增速130%,率先冲刺全球大模型第一股

量子位
量子位 · 2025-12-19T14:36:32Z

研究表明,在多模态大模型训练中,样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法,在视觉推理和感知任务中超越传统的SFT+RL范式,提出了PISM和CMAB两种难度量化策略,显著提升了模型性能,验证了难度感知采样的有效性。

精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优

量子位
量子位 · 2025-11-28T04:16:50Z

IWR-Bench是一个新基准,用于评估多模态大模型在动态网页重建中的能力。研究表明,GPT-5的得分仅为36.35,显示出其在生成交互逻辑方面的不足。该基准要求模型理解并复现用户操作视频中的网页动态行为,标志着AI在静态网页理解向动态交互理解的重要进展。

模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布

量子位
量子位 · 2025-10-19T07:06:17Z
亚马逊云科技 AD Insight Hub,全链路解决方案解决辅助驾驶开发过程中的数据挑战

智能驾驶正加速向智能化转型,数据处理成为关键。辅助驾驶技术面临效率和场景覆盖挑战。亚马逊云科技通过AD Insight Hub提供解决方案,利用多模态大模型提升标注效率和场景搜索,助力辅助驾驶研发,推动行业向更安全智能的未来发展。

亚马逊云科技 AD Insight Hub,全链路解决方案解决辅助驾驶开发过程中的数据挑战

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-09-29T01:25:49Z

商汤与铁一院合作,运用多模态大模型技术整合铁路勘察设计知识,以提升知识传承与应用效率,解决传统模式下的知识流失问题,推动铁路工程智能化转型。

商汤多模态大模型赋能铁路勘察设计,让70年经验“活”起来

量子位
量子位 · 2025-08-13T13:50:38Z

随着多模态大模型的发展,传统API调用已无法满足复杂交互需求。为此,Model Context Protocol(MCP)应运而生,旨在规范AI模型与客户端应用的交互,提高上下文理解和任务执行效率。微软的卢建晖将于7月23日举办MCP工作坊,帮助初学者掌握MCP的核心概念与搭建技巧。

回顾|Let‘s Learn MCP:Python & C#

dotNET跨平台
dotNET跨平台 · 2025-08-03T00:01:43Z

清华大学团队提出了EscapeCraft,一个用于评估多模态大模型推理能力的3D密室逃脱环境。研究发现,顶级模型如GPT-4o在复杂任务中的逃脱成功率不足50%,凸显了推理过程的重要性。

密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25

量子位
量子位 · 2025-07-14T06:05:43Z
ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军

音频编码器在多模态大模型中至关重要。ICME 2025音频编码器挑战赛吸引了多家知名企业参与,火山引擎凭借其技术团队在多个任务中获胜,展示了强大的音频特征提取能力,推动了音频表征的进步。

ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军

实时互动网
实时互动网 · 2025-07-07T06:11:14Z

随着多模态大模型的发展,传统API调用已无法满足复杂交互需求,因此出现了模型上下文协议(MCP),旨在规范AI模型与客户端的交互。微软将于2025年7月23日举办MCP工作坊,帮助初学者掌握MCP的核心概念与搭建技巧。

活动预告|Let‘s Learn MCP:Python & C#

dotNET跨平台
dotNET跨平台 · 2025-07-05T00:01:39Z
云知声与商汤科技达成战略合作 推动多模态智能交互协同进化

云知声与商汤科技签署战略合作协议,双方将在多模态大模型和行业应用领域深入合作,推动智能技术落地与行业升级。云知声的“山海大模型”与商汤的日日新V6将实现语音与视觉的协同创新,提升用户交互体验。

云知声与商汤科技达成战略合作 推动多模态智能交互协同进化

实时互动网
实时互动网 · 2025-06-20T03:04:16Z
黑芝麻智能以技术创新推动辅助驾驶智能化

黑芝麻智能通过高性能芯片和软件架构推动辅助驾驶技术进步,利用多模态大模型和世界模型提升系统感知与安全性,致力于技术创新和开放生态,推动汽车智能化转型。

黑芝麻智能以技术创新推动辅助驾驶智能化

全球TMT-美通国际
全球TMT-美通国际 · 2025-05-15T02:53:26Z
微创软件助力车企数字化转型,提升竞争力

2025上海国际车展上,生成式人工智能和多模态大模型成为汽车产业创新的焦点。DeepSeek的多模态认知引擎推动车企智能化升级,L2级智能辅助驾驶新车渗透率上升。微创软件推出全生命周期数字化解决方案,优化销售和供应链管理,助力车企全面升级,推动汽车产业向移动智能生态发展。

微创软件助力车企数字化转型,提升竞争力

全球TMT-美通国际
全球TMT-美通国际 · 2025-05-12T04:53:43Z

上海AI实验室推出LEGO-Puzzles基准,评估多模态大模型的多步空间推理能力。研究表明,闭源模型如GPT-4o优于开源模型,但仍远不及人类。复杂空间任务中,模型的推理能力显著下降,尤其在多步推理方面。

GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑

量子位
量子位 · 2025-04-23T03:42:24Z
CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛冠军

在CVPR 2025 NTIRE国际竞赛中,火山引擎多媒体实验室的“SharpMind”小组在短视频质量评估赛道中获胜,利用多模态大模型构建了高效的画质评价模型,实现了精度与计算效率的最佳平衡,推动了UGC视频质量评估技术的发展。

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛冠军

实时互动网
实时互动网 · 2025-04-14T10:05:30Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码