FACTS基准套件发布,旨在系统评估大型语言模型的事实准确性。该套件由FACTS团队与Kaggle合作开发,扩展了事实基础评估,新增参数、搜索和多模态三个基准,共包含3513个示例,评估模型在不同场景下的准确性。Gemini 3 Pro模型得分最高,但整体准确率未超过70%。该基准旨在支持研究,提供共享的事实可靠性参考。
BALROG是一个开源基准套件,用于评估大语言模型(LLM)和视觉语言模型(VLM)在游戏任务中的推理与决策能力。它通过设计游戏任务和评测指标,帮助研究者比较不同模型的表现,支持模型选择与微调。该套件基于Python实现,采用模块化架构,关注决策过程的可测量性,并支持跨模态推理能力的评估。
本研究提出了CO-Bench基准套件,包含36个实际组合优化问题,旨在评估大规模语言模型(LLM)在组合优化中的应用。通过与传统算法的对比,揭示了现行方法的优缺点,并指出了未来的研究方向。
本文提出了一个新的基准套件Chop & Learn,用于识别和生成物体状态组合的挑战性任务。该套件适应多个视角学习物体和不同切割风格的需求,并通过生成新的物体状态图像将学习到的切割风格转移到不同的物体上。同时,使用视频进行组合动作识别,并展示了该数据集在多个视频任务中的应用。
该文介绍了针对强化学习中的离线策略评估(OPE)的实验基准和实证研究,提供了一个完整的基准套件以研究不同属性对方法性能的相互作用,并将结果总结为实践指南。
完成下面两步后,将自动完成登录并继续当前操作。