小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出HA-VLN基准,旨在解决传统视觉与语言导航系统在动态多人体互动环境中的局限性。研究强调人类意识的整合,提出平衡离散与连续导航的标准化任务,并指出社会背景对提高导航成功率和减少碰撞的重要性。

HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究推出了FACTS Grounding,一个在线领导者榜单,旨在评估语言模型在长文本输入下生成的响应的事实准确性。该方法通过依赖提供的文档,有效评判模型的响应准确性及满足用户请求的能力。

FACTS Grounding Leaderboard: Evaluating the Response Accuracy of Large Language Models to Long-Form Input

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-06T00:00:00Z

本研究提出Libra-Leaderboard框架,旨在通过平衡性能与安全性来评估大型语言模型(LLM)。该框架结合动态排行榜与互动竞技场,促进能力与安全的共同优化,强调模型在多个维度的平衡。

Libra-Leaderboard: Achieving Responsible AI through a Balanced Leaderboard of Safety and Capability

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z

本文探讨了开放的Ko-LLM排行榜在评估韩国大型语言模型中的局限性,特别是学术与实际表现之间的差距。通过引入新任务和本土化基准,提升了对韩语模型的评估质量,推动了韩国大型语言模型的发展。

Open Ko-LLM Leaderboard 2: Bridging the Gap Between Foundational and Practical Evaluation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z
Hugging Face升级Open LLM Leaderboard v2以增强AI模型比较

Hugging Face发布了Open LLM Leaderboard v2,这是一个升级的平台,用于评估大型语言模型。它为AI社区提供标准化评估,促进开源模型的进步和团队间的比较。新版采用归一化评分方法,使排名更公平。尽管数据污染检测仍在研究中,平台正探索新技术。长上下文任务的趋势在增长,但模型开发需平衡效率和多任务性能。

Hugging Face升级Open LLM Leaderboard v2以增强AI模型比较

InfoQ
InfoQ · 2024-10-10T09:45:00Z

通过完全开放式问题的方法,本研究解决了多项选择题中选择偏好和随机猜测的问题,并建立了新的语言模型评估基准。

Open-LLM-Leaderboard:LLM 模型评估、基准和竞赛中由多项选择题到开放式问题的转换

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

该文介绍了基于GPT的翻译质量评估指标GEMBA,可用于有参照和无参照情况。研究了四个提示变体,并比较了两种方式下的性能表现,发现只能应用于GPT 3.5及以上的模型。在WMT22的Leaderboard中,GEMBA在三种语言对中表现出先进的性能。

Prometheus: 语言模型细粒度评估能力的引入

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码