小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
字节开源统一框架Bernini:给DiT配个“大模型军师”,AI视频编辑先理解再动手

字节推出了开源视频生成与编辑框架Bernini,强调“先理解再生成”。该框架利用多模态大模型进行语义理解,并通过扩散模型实现高质量渲染,解决视频编辑中的一致性和自然性问题。Bernini支持多种编辑选项,如天气、风格和焦点,能够处理复杂视觉效果,提高创作的可控性和稳定性。

字节开源统一框架Bernini:给DiT配个“大模型军师”,AI视频编辑先理解再动手

量子位
量子位 · 2026-06-02T09:28:00Z
Qwen3.7-Plus上线!多模态智能体新基座,一键复刻桌面端专业软件

阿里巴巴发布了Qwen3.7-Plus多模态大模型,具备强大的文本和视觉能力,能够理解图片和视频,进行深度推理和自我编程,支持复杂任务的自动化。该模型已通过阿里云百炼提供API服务。

Qwen3.7-Plus上线!多模态智能体新基座,一键复刻桌面端专业软件

量子位
量子位 · 2026-06-02T03:15:52Z
将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

快手发布了多模态大模型Keye-VL-2.0-30B-A3B,具备深度视频理解能力,采用DSA机制处理超长视频上下文,提升推理效率和准确性。该模型能够精准识别视频细节,提供高情商建议,并在复杂任务中展现强大的逻辑推理能力,标志着快手在多模态理解和自动化调度方面的重大进展,推动内容生产智能化。

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

量子位
量子位 · 2026-05-26T10:17:39Z
上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代

CX-Mind是首个将胸片诊断转化为可验证推理链的多模态大模型,提升了医学影像AI的推理能力,解决了传统AI模型的黑箱问题。该模型在多个评测中表现优异,尤其在真实世界测试中获得医生高度认可,标志着医学AI从视觉模型向推理模型的转变。

上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代

量子位
量子位 · 2026-05-18T06:57:10Z
MixAtlas:面向多模态大模型中期训练的基于不确定性的数 据混合优化

MixAtlas是一种用于多模态大模型中期训练的数据混合优化框架,通过领域分解和小型代理模型提高样本效率和下游泛化能力。它在图像概念和任务监督两个方面分解训练数据,显著提升训练效率,实现3倍的收敛速度和2-5%的性能提升,尤其在文本丰富的基准测试中表现突出。

MixAtlas:面向多模态大模型中期训练的基于不确定性的数 据混合优化

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-16T00:00:00Z
让大模型多模态检索全面超越SOTA!ReCALL框架化解生成式与判别式的范式冲突|CVPR’26

ReCALL框架通过“诊断-生成-校准”闭环解决了多模态大模型在检索中的范式冲突,提升了细粒度推理能力,显著提高了组合图像检索的性能,标志着大模型向下游任务迁移的新阶段。

让大模型多模态检索全面超越SOTA!ReCALL框架化解生成式与判别式的范式冲突|CVPR’26

量子位
量子位 · 2026-04-06T15:30:59Z
浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

浙江大学与阿里巴巴等团队研究发现,多模态大模型在视觉推理中存在“盲目自信”现象,即在图像质量下降时仍保持高置信度。为解决此问题,提出CA-TTS框架,通过置信度校准和资源分配优化推理效果。实验表明,该方法在多个视觉推理基准上显著提升准确率,强调了先感知后推理的重要性。

浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

量子位
量子位 · 2026-03-22T07:17:19Z
产业级多模态模型训练工具:PaddleFormers微调打造定制化视觉定位能力

近年来,多模态大模型的发展使AI从“看懂图像”转向“理解现实”。视觉定位任务要求模型根据自然语言描述在图像中找到目标。PaddleFormers v1.0为开发者提供高效的训练与微调工具,支持多模态任务,通过领域数据微调提升模型在特定任务中的表现,满足行业需求。未来,PaddleFormers将进一步降低多模态模型的训练门槛,推动其在实际业务中的应用。

产业级多模态模型训练工具:PaddleFormers微调打造定制化视觉定位能力

百度大脑
百度大脑 · 2026-03-12T13:10:54Z

本文探讨了利用多模态大模型进行发票数据结构化提取的实践经验,旨在实现模型稳定输出可用的JSON格式数据。传统OCR方法在复杂版式下效果不佳,而多模态模型如Gemini和GPT-4o能够有效理解图像和指令。文章介绍了微调和少样本提示的方法,强调数据格式和模型输出准确性的重要性,建议在训练中加入模糊样本,并在系统提示中强调格式要求,以提高模型的可靠性。

多模态数据提取:微调与少样本提示

路边的阿不
路边的阿不 · 2026-01-14T09:16:20Z
工业质检新王者 - 多模态大模型零样本缺陷检测

多模态大模型(MLLM)能够同时处理文本和图像等多种信息,推动AI向更通用的方向发展。在工业缺陷检测中,MLLM显著减少样本依赖,实现零样本检测,预计到2026年将迎来应用爆发。

工业质检新王者 - 多模态大模型零样本缺陷检测

gloomyfish
gloomyfish · 2025-12-23T09:25:33Z

智谱AI在港交所申请IPO,年营收达3亿,增速130%。成立6年融资超过83亿,专注于AGI研发,推出多模态大模型,已服务12000家企业。

火线解析智谱AI招股书:年营收3亿增速130%,率先冲刺全球大模型第一股

量子位
量子位 · 2025-12-19T14:36:32Z

研究表明,在多模态大模型训练中,样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法,在视觉推理和感知任务中超越传统的SFT+RL范式,提出了PISM和CMAB两种难度量化策略,显著提升了模型性能,验证了难度感知采样的有效性。

精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优

量子位
量子位 · 2025-11-28T04:16:50Z

IWR-Bench是一个新基准,用于评估多模态大模型在动态网页重建中的能力。研究表明,GPT-5的得分仅为36.35,显示出其在生成交互逻辑方面的不足。该基准要求模型理解并复现用户操作视频中的网页动态行为,标志着AI在静态网页理解向动态交互理解的重要进展。

模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布

量子位
量子位 · 2025-10-19T07:06:17Z
亚马逊云科技 AD Insight Hub,全链路解决方案解决辅助驾驶开发过程中的数据挑战

智能驾驶正加速向智能化转型,数据处理成为关键。辅助驾驶技术面临效率和场景覆盖挑战。亚马逊云科技通过AD Insight Hub提供解决方案,利用多模态大模型提升标注效率和场景搜索,助力辅助驾驶研发,推动行业向更安全智能的未来发展。

亚马逊云科技 AD Insight Hub,全链路解决方案解决辅助驾驶开发过程中的数据挑战

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-09-29T01:25:49Z

商汤与铁一院合作,运用多模态大模型技术整合铁路勘察设计知识,以提升知识传承与应用效率,解决传统模式下的知识流失问题,推动铁路工程智能化转型。

商汤多模态大模型赋能铁路勘察设计,让70年经验“活”起来

量子位
量子位 · 2025-08-13T13:50:38Z

随着多模态大模型的发展,传统API调用已无法满足复杂交互需求。为此,Model Context Protocol(MCP)应运而生,旨在规范AI模型与客户端应用的交互,提高上下文理解和任务执行效率。微软的卢建晖将于7月23日举办MCP工作坊,帮助初学者掌握MCP的核心概念与搭建技巧。

回顾|Let‘s Learn MCP:Python & C#

dotNET跨平台
dotNET跨平台 · 2025-08-03T00:01:43Z

清华大学团队提出了EscapeCraft,一个用于评估多模态大模型推理能力的3D密室逃脱环境。研究发现,顶级模型如GPT-4o在复杂任务中的逃脱成功率不足50%,凸显了推理过程的重要性。

密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25

量子位
量子位 · 2025-07-14T06:05:43Z
ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军

音频编码器在多模态大模型中至关重要。ICME 2025音频编码器挑战赛吸引了多家知名企业参与,火山引擎凭借其技术团队在多个任务中获胜,展示了强大的音频特征提取能力,推动了音频表征的进步。

ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军

实时互动网
实时互动网 · 2025-07-07T06:11:14Z

随着多模态大模型的发展,传统API调用已无法满足复杂交互需求,因此出现了模型上下文协议(MCP),旨在规范AI模型与客户端的交互。微软将于2025年7月23日举办MCP工作坊,帮助初学者掌握MCP的核心概念与搭建技巧。

活动预告|Let‘s Learn MCP:Python & C#

dotNET跨平台
dotNET跨平台 · 2025-07-05T00:01:39Z
云知声与商汤科技达成战略合作 推动多模态智能交互协同进化

云知声与商汤科技签署战略合作协议,双方将在多模态大模型和行业应用领域深入合作,推动智能技术落地与行业升级。云知声的“山海大模型”与商汤的日日新V6将实现语音与视觉的协同创新,提升用户交互体验。

云知声与商汤科技达成战略合作 推动多模态智能交互协同进化

实时互动网
实时互动网 · 2025-06-20T03:04:16Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码