小红花·文摘 - 小红花技术领袖俱乐部

主动代理研究环境：模拟活跃用户以评估主动助手

主动代理研究环境：模拟活跃用户以评估主动助手

Apple Machine Learning Research ·

AI应用的优劣

AI应用的优劣

Stack Overflow Blog ·

人类最后考试（HLE）是评估现代AI系统推理和知识能力的基准，包含2500多个专家级问题，涵盖多个学科。尽管HLE被认为有用，但专家意见分歧，部分人认为其过于学术化，无法真实反映AI在实际生活中的表现。HLE旨在克服以往测试的局限性，尽管一些问题存在错误。总体来看，HLE被视为识别最佳AI模型的重要工具。

人类最后考试是一种干扰

KDnuggets ·

帮助建立先进人工智能的共享标准

帮助建立先进人工智能的共享标准

OpenAI ·

谷歌、微软和 OpenAI 联手打造 AI 缺失的信任层

谷歌、微软和 OpenAI 联手打造 AI 缺失的信任层

The New Stack ·

介绍LifeSciBench

介绍LifeSciBench

OpenAI ·

可信赖的第三方评估共享手册

可信赖的第三方评估共享手册

OpenAI ·

元脑企智EPAI平台助力企业智能体上线前量化评估

元脑企智EPAI平台助力企业智能体上线前量化评估

全球TMT-美通国际 ·

一分钟读论文：《诊断LLM裁判的可靠性：共形预测集与传递性违规》

一分钟读论文：《诊断LLM裁判的可靠性：共形预测集与传递性违规》

Micropaper ·

一分钟读论文：《Humanity’s Last Exam：评估 AI 能力的专家级学术问题基准》

一分钟读论文：《Humanity’s Last Exam：评估 AI 能力的专家级学术问题基准》

Micropaper ·

中国团队在《npj Digital Medicine》上发布了医疗AI评估标准CSEDB，首次引入安全性与有效性双轨评价。未来的MedGPT在全球评测中表现优异，成为医疗AI领域的领先者，推动医疗AI从能力展示转向责任定义。

中国团队首次在Nature子刊发布医疗AI标准，未来医生MedGPT摘得全球桂冠

量子位 ·

安全运营中心（SOC）面临巨大压力，传统模式难以维持。AI技术逐渐应用于SOC，88%的企业计划评估AI平台。现代SOC需转变思维，分析师角色转变为系统指导者，以缓解告警疲劳并提升效率。新兴市场的AI-SOC架构需关注自动化、交付方式、集成模式和运行环境的风险与评估标准。

架构、风险与落地：如何评估和选择适合的AI-SOC平台

FreeBuf网络安全行业门户 ·

语言模型为何会产生幻觉？

语言模型为何会产生幻觉？

KDnuggets ·

Kaggle推出游戏竞技场以基准测试AI模型在策略游戏中的表现

Kaggle推出游戏竞技场以基准测试AI模型在策略游戏中的表现

InfoQ ·

工信部等八部门发布《汽车数据出境安全指引（2025版）（征求意见稿）》，旨在整合法规，明确汽车数据出境的安全要求，规范实施流程，提高合规性和便利性。但仍需完善数据出境安全评估标准和报备要求，以减轻数据处理者的负担。

《汽车数据出境安全指引（2025版）（征求意见稿）》思考分析

绿盟科技技术博客 ·

🎬 2025 UNC MIAGE 最终演示

🎬 2025 UNC MIAGE 最终演示

DEV Community ·

本研究针对日夜雨滴去除的挑战，填补了现有数据集的不足。引入Raindrop Clarity数据集，建立新基准，32个团队在此数据集上取得了先进性能，为雨滴去除任务提供了评估标准和进步方向。

2025 NTIRE Challenge: Methods and Results for Day and Night Raindrop Removal

BriefGPT - AI 论文速递 ·

人工智能安全是否跟上了人工智能的发展？

人工智能安全是否跟上了人工智能的发展？

DEV Community ·

OpenAI先锋计划

OpenAI先锋计划

OpenAI ·

本研究分析了33种图像和视频质量指标的对比敏感性，发现现有指标如VMAF和MS-SSIM存在不足，为新质量指标的评估提供了标准。

Do Image and Video Quality Metrics Model Low-Level Human Vision?

BriefGPT - AI 论文速递 ·