小红花·文摘 - 小红花技术领袖俱乐部

数据集汇总丨英伟达开源Nemotron系列数据集，超10T tokens+40M 条后训练样本，覆盖数学推理/代码生成/多语言对话

数据集汇总丨英伟达开源Nemotron系列数据集，超10T tokens+40M 条后训练样本，覆盖数学推理/代码生成/多语言对话

HyperAI超神经 ·

李飞飞署名具身新论文：Sim2Real烧不起，Real2Sim量大管饱

量子位 ·

香港科技大学与京东合作的论文《SkillCoach》提出了一种自进化评分框架，用于评估和增强智能体的技能使用能力。该框架自动推导评分标准，并通过验证门控机制提升评分的有效性和可用性。此外，该框架还能够筛选高质量训练数据，填补智能体技能使用过程质量评估的研究空白。

AI 范式雷达：《从结果到过程——自进化评分如何评估和增强智能体技能使用》

Micropaper ·

Claude Fable变杠精的五个真相：为什么越变越讨厌

Claude Fable变杠精的五个真相：为什么越变越讨厌

极道 ·

AI 范式雷达：《高质量合成数据让多步工具调用性能飙升 10%》

AI 范式雷达：《高质量合成数据让多步工具调用性能飙升 10%》

Micropaper ·

连接点滴以实现准确的人工智能

连接点滴以实现准确的人工智能

Stack Overflow Blog ·

语言模型的集体意识

语言模型的集体意识

Finisky Garden ·

ICLR 2025 杰出论文：一次训练就能计算数据价值——AI 版权和数据治理的新突破

ICLR 2025 杰出论文：一次训练就能计算数据价值——AI 版权和数据治理的新突破

Micropaper ·

别再用提示词去 AI 味了，方向就是错的

别再用提示词去 AI 味了，方向就是错的

宝玉的分享 ·

CS231n 讲义 I：图像分类

CS231n 讲义 I：图像分类

Louis Aeilot's Blog ·

CS231n 讲义 I：图像分类

CS231n 讲义 I：图像分类

Louis Aeilot's Blog ·

参数到底是什么？！

参数到底是什么？！

KDnuggets ·

谷歌DeepMind推出ATLAS多语言模型的扩展规律

谷歌DeepMind推出ATLAS多语言模型的扩展规律

InfoQ ·

nanobot-mid-train

nanobot-mid-train

plus studio ·

LLM的弱点——不能很好的讲笑话？

Est's Blog ·

在本地GPU上预训练Llama模型

在本地GPU上预训练Llama模型

MachineLearningMastery.com ·

Ilya：扩展时代已经结束了，研究的时代已经开始

Ilya：扩展时代已经结束了，研究的时代已经开始

宝玉的分享 ·

为BERT训练准备数据

为BERT训练准备数据

MachineLearningMastery.com ·

奥特曼宣布ChatGPT更新，解决了用户对AI生成内容中破折号过度使用的问题。研究表明，这种偏好可能源于训练数据中的历史文献。

ChatGPT爱用破折号是病，奥特曼刚宣布已经治好了

量子位 ·

澳鹏数据发布RoboGo具身智能数据开发平台

澳鹏数据发布RoboGo具身智能数据开发平台

全球TMT-美通国际 ·