小红花·文摘 - 小红花技术领袖俱乐部

发布FACTS基准套件以评估大型语言模型的事实准确性

发布FACTS基准套件以评估大型语言模型的事实准确性

InfoQ ·

BALROG - A benchmark suite for evaluating agentic large language models and …

BALROG - A benchmark suite for evaluating agentic large language models and …

云原生 ·

本研究提出了CO-Bench基准套件，包含36个实际组合优化问题，旨在评估大规模语言模型（LLM）在组合优化中的应用。通过与传统算法的对比，揭示了现行方法的优缺点，并指出了未来的研究方向。

CO-Bench: Benchmarking Language Model Agents in Algorithm Search

BriefGPT - AI 论文速递 ·

本文提出了一个针对离线强化学习的基准套件，包含数据集和算法实现，旨在解决离线学习中的挑战。研究评估了多种算法，强调数据多样性和高回报的重要性，并探讨了离线学习在真实机器人任务中的应用。

AD4RL：用基于价值的数据集进行离线强化学习的自动驾驶基准

BriefGPT - AI 论文速递 ·

该文介绍了针对强化学习中的离线策略评估（OPE）的实验基准和实证研究，提供了一个完整的基准套件以研究不同属性对方法性能的相互作用，并将结果总结为实践指南。

人类反馈的非策略评估

BriefGPT - AI 论文速递 ·