小红花·文摘 - 小红花技术领袖俱乐部

数据集汇总丨英伟达开源Nemotron系列数据集，超10T tokens+40M 条后训练样本，覆盖数学推理/代码生成/多语言对话

数据集汇总丨英伟达开源Nemotron系列数据集，超10T tokens+40M 条后训练样本，覆盖数学推理/代码生成/多语言对话

HyperAI超神经 ·

在编码评估中区分信号与噪声

在编码评估中区分信号与噪声

OpenAI ·

看下chrome的内置模型

看下chrome的内置模型

Nicksxs's Blog ·

Fable 5回归24小时差评如潮！跑分大降，拒答问题，还偷偷骂用户

量子位 ·

AA榜单反转真相解析：DeepSeek幻觉率96%垫底，但写代码强过Minimax

AA榜单反转真相解析：DeepSeek幻觉率96%垫底，但写代码强过Minimax

极道 ·

实测Claude史上最强模型Fable 5，普通人慎用

实测Claude史上最强模型Fable 5，普通人慎用

爱范儿 ·

2026 年主流 AI 对话式 API 的性能和价格评测对比

2026 年主流 AI 对话式 API 的性能和价格评测对比

实时互动网 ·

DeepSeek网页版大升级！随后宕机11小时崩上热搜，新模型真的来了

量子位 ·

让 AI 自己进化自己：深入 HyperAgents

让 AI 自己进化自己：深入 HyperAgents

乱世浮生 ·

通用Agent能搞定购物吗？

通用Agent能搞定购物吗？

SKYue's Home ·

通用Agent在购物场景中面临模型能力不足和电商平台数据孤岛的问题。解决方案包括推出垂直Agent与A2A协议，或通过UI Agent绕过限制，但后者可能遭遇商业阻力。购物平台的多样性将使Agent时代的购物形式更加丰富。

通用Agent能搞定购物吗？

SKYue's Home ·

构建 Claude Code 的经验教训：以 Agent 的视角看世界

构建 Claude Code 的经验教训：以 Agent 的视角看世界

Teach Talk ·

MAI-UI - A GUI-centric agent framework supporting models ranging from 2B to 235B to build …

MAI-UI - A GUI-centric agent framework supporting models ranging from 2B to 235B to build …

云原生 ·

针对哪种模型的评估？语音模型评估的分类法

针对哪种模型的评估？语音模型评估的分类法

Apple Machine Learning Research ·

到2025年，国产AI编程工具迅速发展，逐步实现模型能力的追平、开放集成和端到端落地。AI不仅能生成代码，还能理解任务和验证结果，替代重复劳动，提升全栈能力。未来开发者需关注系统设计和不可替代的核心能力。

AI 编程 2025 总结：国产模型“能力追平”，国产编程工具还在“情感陪伴”

phodal ·

MCP的重大变革：为何AI引导将取代API包装器

MCP的重大变革：为何AI引导将取代API包装器

Timescale Blog ·

埃隆马斯克的Grok AI在网页版中测试Fast模式在极短的时间内响应问题

埃隆马斯克的Grok AI在网页版中测试Fast模式在极短的时间内响应问题

蓝点网 ·

2025年上半年AI领域的核心趋势包括智能代理产品的兴起，AI编程的重要性提升，模型能力特别是在多模态推理方面的增强，以及行业竞争加剧，算力成为关键因素。

一份报告看尽2025上半年AI核心趋势，应用、模型、技术、行业全覆盖｜量子位智库

量子位 ·

Kaggle推出了Game Arena，一个新的AI基准平台，通过战略游戏评估模型能力，以解决当前AI基准测试无法跟上现代模型发展的问题。该平台提供明确的成功信号，促进公平评估，未来将扩展更多挑战以推动AI模型进步。

重新思考我们如何衡量人工智能的智能

The Keyword ·

vivo与香港科技大学联合提出的PreSelect方法是一种高效的数据筛选技术，通过计算数据的预测强度来评估其对模型能力的贡献。该方法显著降低了计算成本，提升了数据筛选的效率和质量，实验结果表明其在多项任务中优于传统方法，验证了其有效性。

全新预训练数据筛选方案，让数据效率提升10倍！配置仅需fastText评分器｜港科大vivo出品

量子位 ·