本研究提出了一种新方法——视觉指令瓶颈调优(Vittle),旨在解决多模态大型语言模型(MLLMs)在分布转移时的性能下降问题。Vittle通过信息瓶颈原理,显著提升了模型在开放式与封闭式问答及物体幻觉检测任务中的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。