小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《诊断LLM裁判的可靠性:共形预测集与传递性违规》

普林斯顿大学的研究探讨了使用大型语言模型(LLM)评估LLM的可靠性。研究发现,尽管整体传递性违规率较低,但有33-67%的文档存在不一致性。论文提出通过分裂共形预测集来量化评估可靠性,并指出评估标准的选择对可靠性影响大于裁判模型,选择相关性强的评估标准可以提升评估质量。

一分钟读论文:《诊断LLM裁判的可靠性:共形预测集与传递性违规》

Micropaper
Micropaper · 2026-04-18T00:00:00Z
一分钟读论文:《Humanity’s Last Exam:评估 AI 能力的专家级学术问题基准》

新研究提出“人类最后考试”(HLE),由近1000名专家设计2500道难题,以评估AI的深度理解能力。结果显示,当前AI表现不佳,预计到2025年可达到50%的准确率。HLE重新定义了AI评估标准,强调人类专业知识的独特性。

一分钟读论文:《Humanity’s Last Exam:评估 AI 能力的专家级学术问题基准》

Micropaper
Micropaper · 2026-03-04T00:00:00Z

中国团队在《npj Digital Medicine》上发布了医疗AI评估标准CSEDB,首次引入安全性与有效性双轨评价。未来的MedGPT在全球评测中表现优异,成为医疗AI领域的领先者,推动医疗AI从能力展示转向责任定义。

中国团队首次在Nature子刊发布医疗AI标准,未来医生MedGPT摘得全球桂冠

量子位
量子位 · 2026-01-21T04:13:21Z

安全运营中心(SOC)面临巨大压力,传统模式难以维持。AI技术逐渐应用于SOC,88%的企业计划评估AI平台。现代SOC需转变思维,分析师角色转变为系统指导者,以缓解告警疲劳并提升效率。新兴市场的AI-SOC架构需关注自动化、交付方式、集成模式和运行环境的风险与评估标准。

架构、风险与落地:如何评估和选择适合的AI-SOC平台

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-10-16T09:25:00Z
语言模型为何会产生幻觉?

语言模型的幻觉源于训练和评估程序奖励猜测而非承认不确定性。即使训练数据完美,模型仍可能出现错误,评估标准的偏差使幻觉持续存在,统计不确定性和任意事实是预训练错误的关键因素。

语言模型为何会产生幻觉?

KDnuggets
KDnuggets · 2025-09-24T16:00:16Z
Kaggle推出游戏竞技场以基准测试AI模型在策略游戏中的表现

Kaggle与Google DeepMind合作推出Kaggle Game Arena,旨在评估AI模型在策略游戏中的表现。该平台提供公平的全对全比赛环境,确保结果的可靠性。初期包括八个领先的AI模型,未来将扩展到多种游戏,以测试战略推理能力,为AI评估设定新标准。

Kaggle推出游戏竞技场以基准测试AI模型在策略游戏中的表现

InfoQ
InfoQ · 2025-09-16T11:18:00Z

工信部等八部门发布《汽车数据出境安全指引(2025版)(征求意见稿)》,旨在整合法规,明确汽车数据出境的安全要求,规范实施流程,提高合规性和便利性。但仍需完善数据出境安全评估标准和报备要求,以减轻数据处理者的负担。

《汽车数据出境安全指引(2025版)(征求意见稿)》思考分析

绿盟科技技术博客
绿盟科技技术博客 · 2025-08-11T10:48:48Z
🎬 2025 UNC MIAGE 最终演示

本文介绍了如何制作一段年终项目视频,内容需涵盖项目问题、合作、技术流程、结果及局限性。视频应结构清晰,时长不超过20分钟,格式为MP4,并附上相关资源链接和总结。评估标准包括吸引力、清晰度、技术问题和结果分析等。

🎬 2025 UNC MIAGE 最终演示

DEV Community
DEV Community · 2025-05-18T20:57:50Z

本研究针对日夜雨滴去除的挑战,填补了现有数据集的不足。引入Raindrop Clarity数据集,建立新基准,32个团队在此数据集上取得了先进性能,为雨滴去除任务提供了评估标准和进步方向。

2025 NTIRE Challenge: Methods and Results for Day and Night Raindrop Removal

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z
人工智能安全是否跟上了人工智能的发展?

当前的AI安全评估无法有效防止偏见、错误信息和潜在危害。随着大型语言模型(如GPT-4)的能力提升,现有测试显得不足,亟需改进。评估方法缺乏适应性,无法应对不断演变的攻击手段,导致AI可能被滥用。为确保AI安全,需加强评估标准,采用动态和持续的测试方法,并引入多方利益相关者的意见。

人工智能安全是否跟上了人工智能的发展?

DEV Community
DEV Community · 2025-04-13T18:40:37Z
OpenAI先锋计划

OpenAI推出“先锋计划”,旨在推动AI的实际应用。该计划将制定行业特定的评估标准,帮助公司优化模型性能。参与公司将与OpenAI研究团队合作,开发定制模型和评估,以提高AI系统的信任度和效率。首批参与者为专注于高价值应用的初创企业。

OpenAI先锋计划

OpenAI
OpenAI · 2025-04-09T10:00:00Z

本研究分析了33种图像和视频质量指标的对比敏感性,发现现有指标如VMAF和MS-SSIM存在不足,为新质量指标的评估提供了标准。

Do Image and Video Quality Metrics Model Low-Level Human Vision?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z
掌握虚假信息:通过创新技术提升大型语言模型的能力

在信息传播迅速的时代,抵制虚假信息至关重要。大型语言模型(LLMs)能够处理大量数据并提供洞察,但在识别隐性虚假信息方面仍存在挑战。通过改进训练方法和评估标准,LLMs的准确性和可靠性有望提升,从而帮助用户识别可信信息源。

掌握虚假信息:通过创新技术提升大型语言模型的能力

DEV Community
DEV Community · 2025-03-14T00:06:58Z
GPT-4o举步维艰、Claude 3.7险胜,《超级马里奥》成为了检验大模型的新试金石?

AI研究者通过经典游戏《超级马里奥兄弟》测试模型智能,发现非推理模型在实时游戏中表现更佳。专家质疑当前AI评估标准,认为模型缺乏创造性思维,需关注提出新问题的能力。

GPT-4o举步维艰、Claude 3.7险胜,《超级马里奥》成为了检验大模型的新试金石?

机器之心
机器之心 · 2025-03-09T11:32:22Z

本研究综述了大型语言模型在逻辑推理中的不足,分析了推理范式和评估标准,并提出了优化逻辑推理的新方法,为AI系统的发展指明方向。

Logical Reasoning in Large Language Models: An Overview

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z
医疗AI的隐形危机:大语言模型过度自信,如何破解?

比利时研究团队开发了MetaMedQA评估基准,以测试大语言模型(LLMs)在医学推理中的表现,尤其是识别知识盲区的能力。研究表明,尽管LLMs在准确率上表现良好,但在处理不确定性时存在系统性缺陷,未来需改进评估标准和模型的自我认知能力。

医疗AI的隐形危机:大语言模型过度自信,如何破解?

机器之心
机器之心 · 2025-02-03T06:17:00Z
阿里云通义开源最强过程奖励PRM模型,7B尺寸比GPT-4o更能发现推理错误

阿里云推出Qwen2.5-Math-PRM数学推理奖励模型,72B和7B版本在推理错误识别方面表现优于同类模型。团队还开源了包含3400个数学问题的评估标准ProcessBench,以全面评估模型的错误识别能力。

阿里云通义开源最强过程奖励PRM模型,7B尺寸比GPT-4o更能发现推理错误

机器之心
机器之心 · 2025-01-16T07:02:42Z

本研究提出了 extsc{InvestorBench},这是一个用于评估基于大型语言模型(LLM)的金融决策代理的基准,旨在解决财务决策领域缺乏适应多种任务的框架和标准化数据集的问题。通过引入多样化任务和开放源代码数据集,提升了LLM代理的适用性,并提出了评估其在不同市场环境下推理与决策能力的方法。

投资者基准:基于大型语言模型的财务决策任务基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z

本研究探讨了医疗影像中拓扑正确性对神经元和血管分割的重要性,指出现有评估标准存在缺陷,并提出改进建议,以建立更可靠的评估标准。

拓扑感知图像分割的挑战

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

本文探讨了大型语言模型驱动的图形用户界面代理的历史演变、核心组成部分及技术,提出了数据收集、专门化开发和评估标准的研究问题,并识别了关键研究空白,为未来发展提供指导。

大型语言模型驱动的图形用户界面代理:一项调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码