小红花·文摘 - 小红花技术领袖俱乐部

ICML 2026 Spotlight｜快手联合中科院软件所提出业界首个隐喻视频理解基准与方法

ICML 2026 Spotlight｜快手联合中科院软件所提出业界首个隐喻视频理解基准与方法

实时互动网 ·

中之杰智能基于智能体的OBF智能工厂解决方案获工信部认证

中之杰智能基于智能体的OBF智能工厂解决方案获工信部认证

全球TMT-美通国际 ·

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

量子位 ·

Qwen3.7-Plus上线！多模态智能体新基座，一键复刻桌面端专业软件

量子位 ·

将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式

量子位 ·

上交x创智x瑞金联合发布CX-Mind：胸片诊断进入“可验证推理”时代

上交x创智x瑞金联合发布CX-Mind：胸片诊断进入“可验证推理”时代

量子位 ·

MixAtlas：面向多模态大模型中期训练的基于不确定性的数据混合优化

MixAtlas：面向多模态大模型中期训练的基于不确定性的数据混合优化

Apple Machine Learning Research ·

让大模型多模态检索全面超越SOTA！ReCALL框架化解生成式与判别式的范式冲突｜CVPR’26

让大模型多模态检索全面超越SOTA！ReCALL框架化解生成式与判别式的范式冲突｜CVPR’26

量子位 ·

浙大团队破解多模态模型「盲目自信」：先校准置信度，再分配算力丨CVPR’26

量子位 ·

产业级多模态模型训练工具：PaddleFormers微调打造定制化视觉定位能力

产业级多模态模型训练工具：PaddleFormers微调打造定制化视觉定位能力

百度大脑 ·

本文探讨了利用多模态大模型进行发票数据结构化提取的实践经验，旨在实现模型稳定输出可用的JSON格式数据。传统OCR方法在复杂版式下效果不佳，而多模态模型如Gemini和GPT-4o能够有效理解图像和指令。文章介绍了微调和少样本提示的方法，强调数据格式和模型输出准确性的重要性，建议在训练中加入模糊样本，并在系统提示中强调格式要求，以提高模型的可靠性。

多模态数据提取：微调与少样本提示

路边的阿不 ·

工业质检新王者 - 多模态大模型零样本缺陷检测

工业质检新王者 - 多模态大模型零样本缺陷检测

gloomyfish ·

智谱AI在港交所申请IPO，年营收达3亿，增速130%。成立6年融资超过83亿，专注于AGI研发，推出多模态大模型，已服务12000家企业。

火线解析智谱AI招股书：年营收3亿增速130%，率先冲刺全球大模型第一股

量子位 ·

研究表明，在多模态大模型训练中，样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法，在视觉推理和感知任务中超越传统的SFT+RL范式，提出了PISM和CMAB两种难度量化策略，显著提升了模型性能，验证了难度感知采样的有效性。

精准锁定「硬骨头」：难样本筛选破局SFT依赖，GRPO-only斩获感知推理双最优

量子位 ·

IWR-Bench是一个新基准，用于评估多模态大模型在动态网页重建中的能力。研究表明，GPT-5的得分仅为36.35，显示出其在生成交互逻辑方面的不足。该基准要求模型理解并复现用户操作视频中的网页动态行为，标志着AI在静态网页理解向动态交互理解的重要进展。

模型“看视频写网页”，GPT-5仅36.35分！首个video2code基准发布

量子位 ·

亚马逊云科技 AD Insight Hub，全链路解决方案解决辅助驾驶开发过程中的数据挑战

亚马逊云科技 AD Insight Hub，全链路解决方案解决辅助驾驶开发过程中的数据挑战

亚马逊AWS官方博客 ·

商汤与铁一院合作，运用多模态大模型技术整合铁路勘察设计知识，以提升知识传承与应用效率，解决传统模式下的知识流失问题，推动铁路工程智能化转型。

商汤多模态大模型赋能铁路勘察设计，让70年经验“活”起来

量子位 ·

随着多模态大模型的发展，传统API调用已无法满足复杂交互需求。为此，Model Context Protocol（MCP）应运而生，旨在规范AI模型与客户端应用的交互，提高上下文理解和任务执行效率。微软的卢建晖将于7月23日举办MCP工作坊，帮助初学者掌握MCP的核心概念与搭建技巧。

回顾｜Let‘s Learn MCP：Python & C#

dotNET跨平台 ·

清华大学团队提出了EscapeCraft，一个用于评估多模态大模型推理能力的3D密室逃脱环境。研究发现，顶级模型如GPT-4o在复杂任务中的逃脱成功率不足50%，凸显了推理过程的重要性。

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

量子位 ·

ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军

ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军

实时互动网 ·