本研究提出HA-VLN基准,旨在解决传统视觉与语言导航系统在动态多人体互动环境中的局限性。研究强调人类意识的整合,提出平衡离散与连续导航的标准化任务,并指出社会背景对提高导航成功率和减少碰撞的重要性。
本研究推出了FACTS Grounding,一个在线领导者榜单,旨在评估语言模型在长文本输入下生成的响应的事实准确性。该方法通过依赖提供的文档,有效评判模型的响应准确性及满足用户请求的能力。
本研究提出Libra-Leaderboard框架,旨在通过平衡性能与安全性来评估大型语言模型(LLM)。该框架结合动态排行榜与互动竞技场,促进能力与安全的共同优化,强调模型在多个维度的平衡。
本文探讨了开放的Ko-LLM排行榜在评估韩国大型语言模型中的局限性,特别是学术与实际表现之间的差距。通过引入新任务和本土化基准,提升了对韩语模型的评估质量,推动了韩国大型语言模型的发展。
Hugging Face发布了Open LLM Leaderboard v2,这是一个升级的平台,用于评估大型语言模型。它为AI社区提供标准化评估,促进开源模型的进步和团队间的比较。新版采用归一化评分方法,使排名更公平。尽管数据污染检测仍在研究中,平台正探索新技术。长上下文任务的趋势在增长,但模型开发需平衡效率和多任务性能。
通过完全开放式问题的方法,本研究解决了多项选择题中选择偏好和随机猜测的问题,并建立了新的语言模型评估基准。
该文介绍了基于GPT的翻译质量评估指标GEMBA,可用于有参照和无参照情况。研究了四个提示变体,并比较了两种方式下的性能表现,发现只能应用于GPT 3.5及以上的模型。在WMT22的Leaderboard中,GEMBA在三种语言对中表现出先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。