黑天鹅:在不可预测事件中进行引导性和可反驳的视频推理

📝

内容提要

该研究关注视觉语言模型(VLMs)在不可预测事件中的推理能力,填补了对引导性和可反驳推理理解不足的空白。通过引入BlackSwanSuite基准,评估模型在处理意外事件时的推理能力,研究发现当模型只能获得有限的视觉信息时,当前的VLMs与人类之间存在高达32%的性能差距,这突显了VLMs在架构和训练策略上的改进需求。

➡️

继续阅读