小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《诊断LLM裁判的可靠性:共形预测集与传递性违规》

普林斯顿大学的研究探讨了使用大型语言模型(LLM)评估LLM的可靠性。研究发现,尽管整体传递性违规率较低,但有33-67%的文档存在不一致性。论文提出通过分裂共形预测集来量化评估可靠性,并指出评估标准的选择对可靠性影响大于裁判模型,选择相关性强的评估标准可以提升评估质量。

一分钟读论文:《诊断LLM裁判的可靠性:共形预测集与传递性违规》

Micropaper
Micropaper · 2026-04-18T00:00:00Z
自动球击挑战系统揭露了棒球界最差的裁判

CB Bucknor是棒球界备受争议的裁判之一,近期在比赛中的表现不佳,使用自动球击挑战系统时多次判罚被推翻,准确率低于预期。他的职业生涯准确性一直较差,2026赛季开始时引发了广泛关注。随着新挑战系统的实施,裁判们需要适应更一致的判罚标准。

自动球击挑战系统揭露了棒球界最差的裁判

The Verge
The Verge · 2026-04-02T19:50:41Z

作者在2026年1月10日的高中辩论赛中担任裁判,分享了自己从不擅长辩论到逐渐适应的经历,呼吁更多华人家长参与裁判以促进孩子们的辩论发展。初学者主要参与“Parli”辩论,作者认为边做边学能快速成长。

辩裁无须七年期

浮云游子意
浮云游子意 · 2026-01-10T00:00:00Z
当AI裁判,赢爆款好礼!星河Arena大模型竞技场开放!

PaddleFormers将降低多模态模型的训练和应用门槛,帮助开发者提升业务能力,推动多模态模型在更多场景中的应用。

当AI裁判,赢爆款好礼!星河Arena大模型竞技场开放!

百度大脑
百度大脑 · 2025-11-21T10:06:34Z
不用喂数据,AI也能玩懂《逆转裁判》了

加州大学的研究测试了四个AI模型在《逆转裁判》中的推理、视觉理解和决策能力,结果表明AI的理解能力逐渐接近人类,未来可能成为全能的游戏队友。

不用喂数据,AI也能玩懂《逆转裁判》了

游戏研究社
游戏研究社 · 2025-04-25T16:00:00Z

本研究解决了性别中立翻译自动评估中的关键问题,现有方法仅依赖单语分类器而难以扩展。我们提出利用大型语言模型(LLMs)作为评估工具,通过两种提示方法进行比较,发现采用短语级注释再进行句子级判断的方式显著提升了评估的准确性。这一发现为性别中立翻译的评估提供了更好的可扩展解决方案。

可扩展的性别中立翻译评估:基于大型语言模型的裁判方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-16T00:00:00Z
NHL裁判将在冰上佩戴苹果手表

苹果手表成为NHL裁判的首选,配备特制软件,实时接收比赛信息和震动提醒,提升裁判的警觉性,帮助更好地跟踪比赛进程。

NHL裁判将在冰上佩戴苹果手表

The Verge
The Verge · 2025-02-28T14:00:00Z

本文介绍了多智能体通用评估平台Arena,提供35个游戏和多种奖励机制,帮助研究人员构建智能体问题模型。研究探讨了AI代理的最新进展,分析了大型语言模型在任务评估中的有效性,并提出了自动化代理系统设计的新方法,以提升代理系统的性能和鲁棒性。

代理作为裁判:用代理评估代理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-14T00:00:00Z
温布尔登告别线审:电子裁判时代来临

温布尔登网球锦标赛宣布2025年起将采用电子线判系统(ELC),不再使用人工线审。这标志着147年传统的重大变革,符合网球技术裁判趋势。ELC提高判罚准确性,并为博彩公司提供数据。尽管如此,许多人怀念球员挑战线审的戏剧性时刻。

温布尔登告别线审:电子裁判时代来临

The Verge
The Verge · 2024-10-09T16:23:02Z

本文介绍了一种基于多视角视频分析的足球视频助理裁判系统(VARS),旨在自动化比赛决策,提高裁判的公正性和准确性。同时,研究提出了可解释的视频助理裁判系统(X-VARS),利用深度学习预测足球犯规,并通过计算机视觉技术分析比赛实时转播,生成精彩的GIF和战术插图,提升观赛体验。

面向足球协会的基于人工智能的视频助理裁判系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-17T00:00:00Z
四校交流 - 策划案

本文介绍了四校交流比赛的人员职责和物资准备,包括弹丸分装、补给站、服务器维护、场地裁判、机器人裁判系统设置、基地血量恢复、出入口管理、医护应急处理、导播组、宣传任务、招新和彩排等。

四校交流 - 策划案

Power's Wiki
Power's Wiki · 2023-10-02T03:46:33Z

最近密集吐槽VAR,看了很多评论后,我想有必要对VAR技术造成的影响做一个系统性的整理,并且给出一些建设性意见,而不是单纯吐槽。第一篇梳理了VAR引入的初衷和目前达到的效果。豪语:关于VAR的系统讨论(1)引入VAR的初衷和效果第二篇探讨了引入VAR的代价和VAR带来的一些问题。豪语:关于VAR的系统讨论(2)VAR的代价和问题第三篇提几个对现有VAR方案改进的可能方向豪语:关于VAR的系统...

卡塔尔世界杯多场比赛上演「毫米级越位」,阿根廷对沙特越位数多达7次,裁判技术进步如何影响足球运动发展?

知乎每日精选
知乎每日精选 · 2022-11-24T12:07:22Z

本文永久链接 – https://tonybai.com/2022/09/10/an-intro-of-govulncheck 2022年9月7日,Go安全团队在Go官博发表文章《Vulnerability Management for Go》,正式向所有Gopher介绍Go对安全漏洞管理的工具和方案。...

有没有安全漏洞,你说了不算,govulncheck是裁判!

Tony Bai
Tony Bai · 2022-09-10T04:19:11Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码