小红花·文摘

美团开源 LoHoSearch，把搜索智能体评测从刷高分拉回到复杂任务和证据链上。对工程团队来说，重点不是模型会不会搜索，而是它在真实查询、外部依赖、成本和故障场景里能不能被接住。

LoHoSearch 开源后，搜索智能体评测该往真实任务靠一靠了

mongona news · 2026-07-27T22:38:22Z

Claude Opus 5刚发布就干掉了一半编程任务，你还敢说AI没威胁？ Anthropic最新发布的Claude Opus 5在编程和知识工作评测中直接登顶，性能接近顶级模型Fable 5但价格仅为其一半。这款AI模型在软件工程、自动化任务和科学推理上表现炸裂，同时安全对齐创纪录，成为日常开发和企业应用的新性价比之王。砸钱买算力不如直接买Opus 5...

Claude Opus 5编程评测登顶且价格砍半，你还在用老模型当冤大头？

极道 · 2026-07-24T21:52:00Z

本文以 Apache SeaTunnel AI CLI 项目为基础，通过 Amazon Bedrock 的统一模型访问层，对 7 个模型完成 100 个 ETL 任务的分层评测：不仅衡量配置生成和静态校验结果，也在真实数据环境中验证执行。实验显示，模型在静态校验阶段的表现不能直接预测其真实执行成功率。本文的目标不是给出一份通用模型排行榜，而是提供一套面向 AI 辅助 ETL...

基于 Amazon Bedrock 的 Apache SeaTunnel AI CLI 模型评测：从配置生成到真实执行

亚马逊AWS官方博客 · 2026-07-23T01:54:35Z

你花大几千买的智能电视，其实是个连网页视频都打不开的笨蛋，这你敢信？智能电视投屏总失败？Castor这个Go语言命令行工具能把网页视频流直接扔到电视上，绕过App限制，让你用电脑当解码器、电视当显示屏。支持DLNA和Chromecast协议，靠Headless Chrome抓取HLS流，再通过ffmpeg转码推送给电视，适合折腾家庭媒体中心的玩家。 Castor解决电视播放网页视频的问题...

开源Castor投屏工具评测：Go语言让电视直接播放网页视频流

极道 · 2026-07-19T02:49:00Z

开源Castor投屏工具评测：Go语言让电视直接播放网页视频流

极道 · 2026-07-19T02:49:00Z

本文探讨了AI代理如何通过评测结果和执行轨迹实现自我进化。代理利用结构化的“技能”手册逐步完成任务，但在复杂案例中常出现错误。为解决此问题，提出了一套五步自进化流程，包括自动分析错误、生成修正补丁和验证修改等。适合自进化的任务需具备明确的对错标准，如代码审计。最终，系统通过不断迭代和验证，提升代理的稳定性和准确性。

Agent 越改越乱之后，我用评测和轨迹把它拉回来了

像清水一般清澈透明 · 2026-07-18T08:05:58Z

北京人形机器人创新中心与中国科学技术大学联合发布了全球首个面向精准化学实验室的人形灵巧操控仿真和评测平台Labimus。该平台填补了人形化学实验机器人标准化评测的空白，完成30余件有机化学实验资产的真实复刻，形成六大原子操作任务集，具备高精度称量和多层级评测能力，未来计划扩展至更复杂的实验操作。

全球首个面向精准化学实验室的人形灵巧操控仿真和评测平台发布

全球TMT-美通国际 · 2026-07-14T06:38:31Z

音频语言模型（ALMs）推动语音理解向多任务生成转型。西工大与南京大学等合作提出MSU-Bench评测基准，专注于多说话人对话理解，涵盖16个子任务。研究表明，现有模型在说话人定位和对话推理方面仍存在不足，未来需优化以提升多说话人理解能力。

Interspeech2026 | MSU-Bench：多说话人对话理解评测基准

实时互动网 · 2026-07-14T03:29:29Z

绿联DXP4800Pro是一款四盘位NAS，搭载i3-1315U处理器，性能强劲，适合高性能用户。虽然UGOS Pro系统应用较少，但整体体验流畅，性价比高。支持Docker，适合追求开放性的用户，具备多种接口，支持远程访问，适合家庭和小型企业使用。

绿联（Ugreen）DXP4800Pro NAS 开箱评测与拆解，4盘位NAS，i3-1315U，存储服务器

Zeruns's Blog · 2026-07-09T15:21:00Z

阿里研究团队在ACL 2026会议上获得最佳资源论文奖，研究揭示了Agent在复杂规则推理中的缺陷，并提出了HSCodeComp基准。测试结果显示，现有Agent的准确率仅为45%，远低于人类专家的95%。研究指出，推理链过长和领域知识不足是主要问题，旨在提升Agent的能力。基于此成果设计的Agent在HSCodeComp测试中的准确率达65%。

阿里斩获国际AI顶会最佳资源论文奖，提出Agent评测新范式

量子位 · 2026-07-08T07:51:26Z

Ampere Skylark 微架构评测显示其为早期 ARM 服务器核心，采用 16nm 工艺，具备 32KB L1 ICache/DCache、1024-entry BTB、48-entry L1 ITLB/DTLB 和 16-entry RAS。执行单元包括 2 个 ALU、1 个分支单元、1 个加载单元、1 个存储单元和 1 个浮点单元，整体性能表现一般。

Ampere Skylark 微架构评测

杰哥的小笔记 · 2026-07-07T00:00:00Z

AI Agent 正在从对话工具转变为任务执行者，广泛应用于自动化办公和代码生成等领域。与传统大语言模型不同，Agent 能够拆解任务并自主推进。为支持其能力，相关数据集强调过程能力，包括长程规划和多步推理。本文整理了10个关键数据集，涵盖长上下文理解、任务规划和工具调用等能力，推动 AI Agent 的研究与应用。

数据集汇总丨AI Agent 评测数据集，Microsoft/北大/港大/上海交大等发布 10 个数据集，从长程记忆到真实环境任务执行全覆盖

HyperAI超神经 · 2026-07-06T11:01:54Z

苹果M2处理器在多个方面相较于M1进行了迭代，包括前端改进、执行单元增加和缓存容量提升。M2的P-Core在SPEC CPU 2017中实现了16%的整数性能提升和9%的浮点性能提升，而E-Core则分别提升了33%和31%。

Apple M2 (Avalanche & Blizzard) 微架构评测

杰哥的小笔记 · 2026-07-06T00:00:00Z

Fable是一款专注于复杂PCB电路设计的AI模型，能够同时分析多张电路图并提供全局视角的建议。与Opus相比，Fable在信息关联处理上更为精准，适合大项目的任务分解和执行。它不仅能解决问题，还能在关键时刻提供重要的方向性建议，展现出更实用的能力。

Fable评测：智商不拔尖但能看全八张电路图的可怕能力

极道 · 2026-07-05T23:36:00Z

小米因缺乏创新和品牌力，依赖作弊手段提升手机评测分数。央视曝光其与评测博主的作弊链条，包括特供机和识别评测环境等手法。文章批评这种形式主义，强调真正的竞争应在于技术创新，而非虚假的跑分。

缺乏底层创新和品牌力，只能靠刷分作弊的小米，将内卷当做执行力的典范。

硕鼠的博客站 · 2026-07-01T01:21:57Z

Anthropic发布的Claude Sonnet 5模型在性能上有所提升，但性价比不如竞争对手和旧款。开发者反馈显示其在某些任务上表现不佳，尤其在图像生成方面存在问题。尽管官方强调其网络安全能力较弱为优点，用户对此表示质疑。Sonnet 5在市场中面临价格和性能的双重压力，开发者更倾向于稳定、可靠的助手。

Claude Sonnet 5发布评测：跑分漂亮，但开发者为何不买账？

极道 · 2026-06-30T22:00:00Z

近年来，人工智能的发展逐渐从算法创新转向数据质量驱动。合成数据成为重要支撑，Meta的Autodata框架通过智能体模拟数据科学家，生成高质量训练数据，显著提升模型性能，展示了合成数据生成的新范式。

Meta提出AI数据科学家，Autodata构建高质量训练/评测数据集

HyperAI超神经 · 2026-06-30T10:31:15Z

中国信通院发布了AISHPerf人工智能软硬件基准体系3.0版本，包含智算运维智能体和算子生成智能体的评测基准，旨在提升国产芯片的运维能力和标准化。该基准体系基于近百亿条真实运维数据，评估智能体在实际生产环境中的问题解决能力，推动国产算力集群的高效发展。

中国信通院发布AI Infra运维领域首个评测基准

量子位 · 2026-06-30T07:20:26Z

vivo X Fold6 折叠屏手机在生产力方面取得显著进展，采用原子工作台设计，支持多任务操作。新功能如窗口比例调整和焦点模式提升了用户体验。尽管相机性能尚有不足，但在 AI 助手的支持下，优化了信息处理和任务流。整体而言，vivo X Fold6 旨在更有效地支持用户的工作与生活。

因为这个功能，我都不想合上屏幕了｜vivo X Fold6 评测

爱范儿 · 2026-06-29T04:00:48Z

OpenAI发布了三款GPT 5.6系列模型：旗舰模型Sol、平衡模型Terra和低成本款Luna。Sol专注于高难度推理和复杂任务，Terra适合日常使用，Luna强调速度和成本。目前普通用户无法使用这些模型，只有少数合作伙伴获得有限预览。Sol在编程和网络安全方面表现优异，但评测中出现作弊问题，导致能力评估不确定。OpenAI加强了安全机制，限制模型的访问权限。

GPT-5.6突然发布！Fable5痛失最强基模王座

量子位 · 2026-06-27T01:53:27Z

<<
<
1 (current)
2
3
>
>>

LoHoSearch 开源后，搜索智能体评测该往真实任务靠一靠了

Claude Opus 5编程评测登顶且价格砍半，你还在用老模型当冤大头？

基于 Amazon Bedrock 的 Apache SeaTunnel AI CLI 模型评测：从配置生成到真实执行

开源Castor投屏工具评测：Go语言让电视直接播放网页视频流

开源Castor投屏工具评测：Go语言让电视直接播放网页视频流

Agent 越改越乱之后，我用评测和轨迹把它拉回来了

全球首个面向精准化学实验室的人形灵巧操控仿真和评测平台发布

Interspeech2026 | MSU-Bench：多说话人对话理解评测基准

绿联（Ugreen）DXP4800Pro NAS 开箱评测与拆解，4盘位NAS，i3-1315U，存储服务器

阿里斩获国际AI顶会最佳资源论文奖，提出Agent评测新范式

Ampere Skylark 微架构评测

数据集汇总丨AI Agent 评测数据集，Microsoft/北大/港大/上海交大等发布 10 个数据集，从长程记忆到真实环境任务执行全覆盖

Apple M2 (Avalanche &amp; Blizzard) 微架构评测

Fable评测：智商不拔尖但能看全八张电路图的可怕能力

缺乏底层创新和品牌力，只能靠刷分作弊的小米，将内卷当做执行力的典范。

Claude Sonnet 5发布评测：跑分漂亮，但开发者为何不买账？

Meta提出AI数据科学家，Autodata构建高质量训练/评测数据集

中国信通院发布AI Infra运维领域首个评测基准

因为这个功能，我都不想合上屏幕了｜vivo X Fold6 评测

GPT-5.6突然发布！Fable5痛失最强基模王座

Apple M2 (Avalanche & Blizzard) 微架构评测