小红花·文摘

本研究探讨了多模态大语言模型在视听理解中的感知能力不足，提出了具有解耦感知设计的ChatRex模型，并构建了Rexverse-2M数据集，实现感知与理解的联合训练，从而显著提升了感知能力。