小红花·文摘

本研究提出了一种新方法——携带视觉条件（TVC），旨在解决多模态任务中视觉信息关注度下降的问题。TVC策略优化了推理过程中的视觉输入使用，提升了多模态推理系统的表现，平均性能提高了3.4%。