小红花·文摘 - 小红花技术领袖俱乐部

本研究提出HA-VLN基准，旨在解决传统视觉与语言导航系统在动态多人体互动环境中的局限性。研究强调人类意识的整合，提出平衡离散与连续导航的标准化任务，并指出社会背景对提高导航成功率和减少碰撞的重要性。

HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard

BriefGPT - AI 论文速递 ·

本研究推出了FACTS Grounding，一个在线领导者榜单，旨在评估语言模型在长文本输入下生成的响应的事实准确性。该方法通过依赖提供的文档，有效评判模型的响应准确性及满足用户请求的能力。

FACTS Grounding Leaderboard: Evaluating the Response Accuracy of Large Language Models to Long-Form Input

BriefGPT - AI 论文速递 ·

本研究提出Libra-Leaderboard框架，旨在通过平衡性能与安全性来评估大型语言模型（LLM）。该框架结合动态排行榜与互动竞技场，促进能力与安全的共同优化，强调模型在多个维度的平衡。

Libra-Leaderboard: Achieving Responsible AI through a Balanced Leaderboard of Safety and Capability

BriefGPT - AI 论文速递 ·

本文探讨了开放的Ko-LLM排行榜在评估韩国大型语言模型中的局限性，特别是学术与实际表现之间的差距。通过引入新任务和本土化基准，提升了对韩语模型的评估质量，推动了韩国大型语言模型的发展。

Open Ko-LLM Leaderboard 2: Bridging the Gap Between Foundational and Practical Evaluation

BriefGPT - AI 论文速递 ·

Hugging Face升级Open LLM Leaderboard v2以增强AI模型比较

Hugging Face升级Open LLM Leaderboard v2以增强AI模型比较

InfoQ ·

通过完全开放式问题的方法，本研究解决了多项选择题中选择偏好和随机猜测的问题，并建立了新的语言模型评估基准。

Open-LLM-Leaderboard：LLM 模型评估、基准和竞赛中由多项选择题到开放式问题的转换

BriefGPT - AI 论文速递 ·

该文介绍了基于GPT的翻译质量评估指标GEMBA，可用于有参照和无参照情况。研究了四个提示变体，并比较了两种方式下的性能表现，发现只能应用于GPT 3.5及以上的模型。在WMT22的Leaderboard中，GEMBA在三种语言对中表现出先进的性能。

Prometheus: 语言模型细粒度评估能力的引入

BriefGPT - AI 论文速递 ·