小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新方法HIST，通过引入句法损失来增强视觉语言模型（VLM）的训练，解决图像与文本配对的粗糙对齐问题。HIST显著提升了VLM在视觉基础和图像-文本检索等任务中的性能，强调了结构化学习的重要性。

Barking Up The Syntactic Tree: Enhancing Visual Language Model Training with Syntactic Losses

BriefGPT - AI 论文速递 ·

该研究提出了逆思维链(R-CoT)生成管道，解决了大型多模态模型在几何推理中缺乏高质量图像文本配对数据的问题，显著提升了模型在MathVista和GeoQA数据集上的表现。

R-CoT: Inverse Chain of Thought Problem Generation for Geometric Reasoning in Large Multimodal Models

BriefGPT - AI 论文速递 ·

该研究构建了中文图像文本配对数据集，并提出了多种视觉-语言预训练模型（如CLIP和CLL-CLIP），在多语言图像-文本检索中表现优异。通过改进的训练方法和高效的微调框架，显著减少了语言差异，提升了低资源场景下的性能。实验结果表明，这些模型在视觉常识推理和视觉问答等任务中取得了先进效果。

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

BriefGPT - AI 论文速递 ·