量子位 ·

用两个简单模块实现分割理解双重SOTA！华科大白翔团队等推出多模态新框架

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

华中科技大学与金山办公团队提出的多模态大模型LIRA，通过语义增强特征提取器和交错局部视觉耦合模块，提升了图像分割和理解的精度，解决了现有模型的不足。LIRA在多个基准测试中表现优异，已被ICCV 2025录用。

🎯

关键要点

华中科技大学与金山办公团队提出了多模态大模型LIRA，提升了图像分割和理解的精度。
LIRA通过语义增强特征提取器（SEFE）和交错局部视觉耦合（ILVC）模块解决了现有模型的不足。
LIRA在多个基准测试中表现优异，已被ICCV 2025录用。
现有模型在物体属性理解和细粒度感知能力上存在局限，导致分割结果不够精确。
LIRA在图像分割任务上平均提升8.5%，在MMBench上提升33.2%。
SEFE模块融合语义特征与像素特征，提升物体属性推理能力。
ILVC模块通过显式绑定局部图像区域与文本描述，提供细粒度监督，减少理解幻觉。
实验结果显示，LIRA在理解和分割任务上均取得了优异性能，验证了SEFE和ILVC的有效性。
未来研究将深入探索文本与视觉token之间的关联，以提升多模态大模型的能力。

❓

延伸问答

LIRA模型的主要创新点是什么？

LIRA模型通过语义增强特征提取器（SEFE）和交错局部视觉耦合（ILVC）模块，提升了图像分割和理解的精度，解决了现有模型的不足。

LIRA在图像分割任务上表现如何？

LIRA在图像分割任务上平均提升8.5%，在MMBench上提升33.2%。

SEFE模块的作用是什么？

SEFE模块融合语义特征与像素特征，提升物体属性推理能力，从而获得更精确的分割结果。

ILVC模块如何减少理解幻觉？

ILVC模块通过显式绑定局部图像区域与文本描述，提供细粒度监督，从而有效减少理解幻觉。

LIRA模型的实验结果如何？

实验结果显示，LIRA在理解和分割任务上均取得了优异性能，验证了SEFE和ILVC的有效性。

未来的研究方向是什么？

未来研究将深入探索文本与视觉token之间的关联，以提升多模态大模型的能力。

🏷️

继续阅读

AC/DC框架如何帮助团队管理AI编码代理
文章讨论了AI辅助开发中的“代理中心开发周期”（AC/DC）框架，强调在代码生成过程中指导、验证和解决问题的重要性。随着AI生成代码速度的加快，传统验证方...
认识 AWS 客户事件响应团队（AWS CIRT）
AWS客户事件响应团队（CIRT）为客户提供安全事件的专业支持，包括事件分类、根本原因分析和恢复建议，帮助客户应对云环境中的安全挑战，并提供开源安全工具和...
四个团队如何停止推迟他们知道需要的重构
四个团队通过优化重构决策，成功解决了重构推迟的问题。他们利用JetBrains的IDE工具，能够在提交更改前预见重构影响，并在出现问题时轻松撤回。这降低了...
读：一个坏苹果真的能毁掉团队吗
Kate Murphy 在新书《Why We Click》中讨论了一项经典实验：一个戏剧系学生被安插进 60 个团队扮演"坏苹果"，结果各...
有源铜缆正在吃掉光模块的短距市场：单柜功率突破100千瓦
有源铜缆满足了AI数据中心高功率机架间的连接需求。随着单柜功率超过100千瓦，传统铜线无法支持3米连接距离，而光模块和带DSP的铜缆耗电过高。有源铜缆通过...
电影感，不再需要大团队：Veo 视频生成 API，把镜头语言交给 AI（含超多示例与图例）
Veo 视频生成 API 利用文生视频和图生视频技术，简化视频制作流程，降低成本。用户可通过简单提示生成高质量视频，支持1080p升级，适用于品牌广告和媒体创作等场景。