小红花·文摘

Qwen 3.7 Plus现已在AI Gateway上线

Vercel News ·

本研究提出了BiPVL-Seg框架，解决医学图像分割中忽视文本信息的问题。该框架通过视觉与语言的融合与对齐，显著提高了复杂多类别分割任务的精度，优于现有方法。

BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion and Global-Local Alignment for Medical Image Segmentation

BriefGPT - AI 论文速递 ·

本文提出了一种新型多模态大语言模型AKI，解决了视觉与语言不对齐的问题。通过将因果注意力转化为模态互注意力，AKI显著提升了模型在理解基准上的表现，推动了多模态研究的发展。

Seeing is Understanding: Unlocking Causal Attention Mechanisms for Modality-Mutual Attention in Multimodal LLMs

BriefGPT - AI 论文速递 ·

How to Efficiently Bridge Vision and Language: ByteDance & Sun Yat-sen University Introduce the New Multimodal Large Model Connector ParGo

机器之心 ·

本文介绍了多个新数据集和模型在视觉与语言任务中的应用与评估，包括Conceptual 12M、IIITD-20K和OmniCorpus。研究表明，增加预训练数据规模和优化图像字幕生成方法能显著提升模型性能。同时，提出了新的评估指标和框架，以提高文本到图像合成的质量和对齐度，为未来多模态模型研究奠定基础。

公共领域12M：具有新型治理机制的高美感图像-文本数据集

BriefGPT - AI 论文速递 ·

本文介绍了多模态大型语言模型（MLLM）在视觉与语言任务中的应用，重点讨论了MG-LLaVA和LLM-Seg框架，这些框架提升了目标识别和推理分割能力。同时，研究提出了新的数据集和方法，增强了模型的可解释性和感知能力，推动了相关领域的发展。

OMG-LLaVA：图像层、对象层、像素层推理和理解的桥梁

BriefGPT - AI 论文速递 ·

本文介绍了多个与3D场景理解相关的研究，重点在于构建大型数据集和提出新模型，如3DMIT、Cube-LLM和Grounded 3D-LLM。这些研究旨在提升3D视觉与语言模型的结合能力，并在多项3D任务中取得领先性能。

MMScan：多模态 3D 场景数据集与分层语义标注

BriefGPT - AI 论文速递 ·