本文评估了大型语言模型(LLMs)在复杂任务数字助手中的潜力,提出了ASPERA框架,结合助手库模拟和人类辅助的LLM数据生成引擎,以生成高质量的复杂任务。同时发布了Asper-Bench评估数据集,包含250个挑战性任务,展示了基于自定义助手库的程序生成对LLMs的挑战。
本研究探讨了混合智能协作中理解社交对话的挑战,提出了一种新方法,通过五种模型从对话中提取三元组,并发布了训练和评估数据集。结果显示提取准确性高,但跨轮次提取仍存在困难。
本研究提供了一个英语-约鲁巴语的评估数据集,旨在弥补高资源语言与低资源语言之间的评估差距。结果表明,约鲁巴语在自动评估中明显落后于英语,尤其在长文本理解方面,反映出英语大型语言模型在约鲁巴语阅读理解上的局限性。
传统固定测试集无法全面评估基础模型的开放性能力。为此,我们提出了ONEBench,整合多个评估数据集,支持自定义基准,以提高模型评估的准确性。
大规模视觉语言模型(LVLMs)在艺术品解释生成任务中存在困难,需要整合语言和视觉信息。研究者提出了一个新任务,并发布了相应的评估数据集和训练数据集。LVLMs 在仅从图像中获取知识方面存在限制。
本文介绍了使用协同位置推理网络(CPRN)进行图像分割的方法,通过结合RoCo和Holi模块,CPRN能够更准确地分割图像。该方法在三个评估数据集上的结果优于现有的最先进方法。
完成下面两步后,将自动完成登录并继续当前操作。