小红花·文摘

该研究探索了预训练语言与视觉模型在基本语言构造方面的处理程度，并提出了 BLA 评估基准。研究发现，各种类型的基于 Transformer 的系统在零样本设置下难以处理 BLA，但生成型的 BLIP2 在上下文学习环境中显示出有希望的趋势。