小红花·文摘 - 小红花技术领袖俱乐部

未来推理将吃掉70%算力，30%留给训练丨硅谷投资人张璐@AIGC2026

量子位 ·

为什么代理分析始于良好治理的数据层

为什么代理分析始于良好治理的数据层

Databricks ·

无垠拓界基筑未来｜无问智科重磅发布业界首个物理AI数据基座平台

无垠拓界基筑未来｜无问智科重磅发布业界首个物理AI数据基座平台

量子位 ·

Gemini提供直接链接到科学论文的功能，帮助用户快速找到经过验证的科学引用，确保研究基于高质量数据。

了解2月份Gemini更新中的新功能

The Keyword ·

共话多元视角，启迪创新灵感｜2026首场文心导师闭门会圆满落幕！

共话多元视角，启迪创新灵感｜2026首场文心导师闭门会圆满落幕！

百度大脑 ·

＜span class=“js_title_inner“＞共话多元视角，启迪创新灵感｜2026首场文心导师闭门会圆满落幕！＜/span＞

＜span class=“js_title_inner“＞共话多元视角，启迪创新灵感｜2026首场文心导师闭门会圆满落幕！＜/span＞

百度大脑 ·

数据质量的幻觉：重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

数据质量的幻觉：重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

Apple Machine Learning Research ·

技术领导者关于团队扩展和人工智能的8个教训

技术领导者关于团队扩展和人工智能的8个教训

Stack Overflow Blog ·

语言模型微调的简要总结

语言模型微调的简要总结

Stack Overflow Blog ·

上海AI实验室推出OpenDataArena平台，旨在科学评估数据价值，涵盖多个领域和基准测试。该平台提供公平透明的数据评测，帮助研究者识别高质量数据，降低试错成本，促进数据生成与应用。

告别“炼丹玄学”：上海AI实验室推出首个大模型数据竞技场OpenDataArena

量子位 ·

群核科技的InteriorGS数据集在HuggingFace趋势榜上夺冠，首次应用3D高斯技术于AI空间训练，解决高质量训练数据短缺问题。该数据集包含1000个高斯场景和55.4万个物品标签，推动具身智能技术的发展。

全球第一！群核科技InteriorGS数据集霸榜HuggingFace趋势榜

量子位 ·

推动人工智能与大数据增长的隐秘悖论

推动人工智能与大数据增长的隐秘悖论

The New Stack ·

GRA框架通过小模型协作生成高质量数据，性能接近大模型。实验表明，GRA生成的数据在多个任务中优于传统方法，提升了数据的多样性和质量，展现了小模型的集体智能潜力。

不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B

量子位 ·

本研究提出了一种名为RV-Syn的数学推理数据合成方法，基于结构化函数库，旨在满足大语言模型对高质量推理数据的需求。实验结果表明，RV-Syn在数据规模扩展效率上优于现有方法，为生成高质量推理数据集提供了可扩展的框架。

RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis Based on Structured Function Library

BriefGPT - AI 论文速递 ·

具身智能的发展依赖高质量数据，目前面临“视频合成+3D重建”和“端到端3D生成”两种技术路线的竞争。前者容易产生误差，后者则需解决常识缺乏等问题。为应对数据不足，提出“模态编码”技术，旨在生成可理解的空间数据，推动具身智能向通用智能发展。

具身空间数据技术的路线之争：合成重建VS全端生成

量子位 ·

释放AI训练数据货币化的潜力：策略、平台与未来趋势

释放AI训练数据货币化的潜力：策略、平台与未来趋势

DEV Community ·

解释AI中的扩散模型

解释AI中的扩散模型

DEV Community ·

法国人工智能突破：小型数据集驱动更智能的语言模型，超越科技巨头

法国人工智能突破：小型数据集驱动更智能的语言模型，超越科技巨头

DEV Community ·

首个开放的哈萨克语大型语言模型实现了最先进的性能

首个开放的哈萨克语大型语言模型实现了最先进的性能

DEV Community ·

数据集成平台在成功实施人工智能中的作用

数据集成平台在成功实施人工智能中的作用

DEV Community ·