本研究探讨了多模态大语言模型在视听理解中的感知能力不足,提出了具有解耦感知设计的ChatRex模型,并构建了Rexverse-2M数据集,实现感知与理解的联合训练,从而显著提升了感知能力。
完成下面两步后,将自动完成登录并继续当前操作。