小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
发布FACTS基准套件以评估大型语言模型的事实准确性

FACTS基准套件发布,旨在系统评估大型语言模型的事实准确性。该套件由FACTS团队与Kaggle合作开发,扩展了事实基础评估,新增参数、搜索和多模态三个基准,共包含3513个示例,评估模型在不同场景下的准确性。Gemini 3 Pro模型得分最高,但整体准确率未超过70%。该基准旨在支持研究,提供共享的事实可靠性参考。

发布FACTS基准套件以评估大型语言模型的事实准确性

InfoQ
InfoQ · 2026-01-12T07:55:00Z
BALROG - A benchmark suite for evaluating agentic large language models and …

BALROG是一个开源基准套件,用于评估大语言模型(LLM)和视觉语言模型(VLM)在游戏任务中的推理与决策能力。它通过设计游戏任务和评测指标,帮助研究者比较不同模型的表现,支持模型选择与微调。该套件基于Python实现,采用模块化架构,关注决策过程的可测量性,并支持跨模态推理能力的评估。

BALROG - A benchmark suite for evaluating agentic large language models and …

云原生
云原生 · 2025-12-08T13:29:00Z

本研究提出了CO-Bench基准套件,包含36个实际组合优化问题,旨在评估大规模语言模型(LLM)在组合优化中的应用。通过与传统算法的对比,揭示了现行方法的优缺点,并指出了未来的研究方向。

CO-Bench: Benchmarking Language Model Agents in Algorithm Search

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z

本文提出了一个新的基准套件Chop & Learn,用于识别和生成物体状态组合的挑战性任务。该套件适应多个视角学习物体和不同切割风格的需求,并通过生成新的物体状态图像将学习到的切割风格转移到不同的物体上。同时,使用视频进行组合动作识别,并展示了该数据集在多个视频任务中的应用。

粗细选取:无需标签识别动作终止状态

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

该文介绍了针对强化学习中的离线策略评估(OPE)的实验基准和实证研究,提供了一个完整的基准套件以研究不同属性对方法性能的相互作用,并将结果总结为实践指南。

人类反馈的非策略评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码