该研究介绍了AQA-Bench,一个评估大规模语言模型在算法环境中顺序推理能力的新基准。研究发现闭源模型表现较好,简单交互示例可能损害少样本性能,少样本性能可通过遵循最优策略的前继步骤数量提升,性能和模型大小之间的缩放相关性不总是显著。希望推动对LLM顺序推理能力的研究。
该文介绍了一种名为MMICL的模型,用于解决图像与文本交叉多模态提示的问题。该模型能够适应用户真实应用中复杂的提示,在广泛的视觉-语言任务中取得了新的最先进的零样本和少样本性能。
完成下面两步后,将自动完成登录并继续当前操作。