小红花·文摘 - 小红花技术领袖俱乐部

Agent「记吃不记打」？华为诺亚&港中文发布SCOPE：Prompt自我进化，让HLE成功率翻倍

Agent「记吃不记打」？华为诺亚&港中文发布SCOPE：Prompt自我进化，让HLE成功率翻倍

机器之心 ·

MySQL是流行的关系型数据库管理系统，广泛应用于WEB。Linux是一种开放源码的操作系统，Shell脚本用于简化命令执行。Docker是开发和运行应用的开放平台，Jenkins是持续集成工具。运维工程师需掌握Linux和Kubernetes等技术，以提高系统性能和管理效率。

Goldene Chancen & Geflügelte Nervenkitzel Erlebe das Chicken Road Spiel mit bis zu 98% RTP und wähle

运维派 ·

Eigen-1系统在HLE测试中首次突破60分，Pass@1准确率为48.3%，Pass@5为61.74%。该系统基于开源DeepSeek V3.1，采用隐式知识增强、分层解决方案精炼和质量感知迭代推理三大创新机制，显著提升了AI的科学推理能力。

HLE首次突破60分！Eigen-1基于DeepSeek V3.1领先GPT-5

量子位 ·

近年来，大语言模型（LLM）取得显著进展，但现有评估基准存在不足。为此，AI安全中心与Scale AI联合发布了多模态人类问题基准数据集HLE，包含2500个问题，旨在准确评估LLM能力，推动其在知识前沿领域的发展。

2.5k 个问题！HLE 突破性构建大语言模型精准评估体系；40 亿参数轻量级大语言模型 Jan-Nano，专为深度研究任务设计

HyperAI超神经 ·

DeepSeek-R1、o1都低于10%，人类给AI的「最后考试」来了，贡献者名单长达两页

DeepSeek-R1、o1都低于10%，人类给AI的「最后考试」来了，贡献者名单长达两页

机器之心 ·