小红花·文摘

本文探讨了多模态视觉-语言模型（VLM）的能力，提出了用于形式验证的逻辑规范语言Con_spec，并通过实验验证了模型在概念理解方面的不足。研究发现交叉注意力可以提升理解能力，并提出了新的微调技术。此外，介绍了数据扩充方法和幻觉检测模型，以改善VLM在特定领域的表现和常识推理能力。