小红花·文摘

本研究提出了VCR-Bench，这是一个评估视觉语言模型在视频推理能力的新基准，包含859个视频和1034对问答，揭示了模型在复杂推理中的局限性。

BriefGPT - AI 论文速递 ·

本研究针对解码器 Transformers 在复杂推理任务中的表现问题，提出了顺序方差-协方差正则化（Seq-VCR），显著提升了算术推理性能，$5 imes 5$ 整数相乘任务的准确率达到了 $99.5\\%$。

BriefGPT - AI 论文速递 ·

DEV Community ·

本文介绍了Visual Caption Restoration（VCR）任务，要求模型恢复被遮挡的文本。作者生成了合成图像并构建了VCR-Wiki数据集。结果显示，当前的视觉语言模型在VCR任务中落后于人类表现，微调并没有显著改进。作者提供了VCR-Wiki数据集和数据构建代码以促进未来研究。

BriefGPT - AI 论文速递 ·

The Verge ·

研究人员提出了一种递归视觉解释算法（ReVisE），用于有限注释的视觉推理任务。该算法通过逐步计算视觉特征、答案和解释来提高解释质量。在VCR和VQA-X数据集上，该方法仅利用人类注释的5%的数据，却在几项指标上超过以往方法，BLEU-1得分分别提高了4.2和1.3。

BriefGPT - AI 论文速递 ·