小红花·文摘 - 小红花技术领袖俱乐部

当遗忘变得免费：利用低影响点降低计算成本

当遗忘变得免费：利用低影响点降低计算成本

Apple Machine Learning Research ·

Amazon ECS 引入新的高分辨率指标，以实现服务快速自动扩缩

Amazon ECS 引入新的高分辨率指标，以实现服务快速自动扩缩

亚马逊AWS官方博客 ·

AI 范式雷达：《自适应潜在推理：让 Agent 少想但想深》

AI 范式雷达：《自适应潜在推理：让 Agent 少想但想深》

Micropaper ·

在Databricks上通过提示缓存加速开源模型的LLM推理

在Databricks上通过提示缓存加速开源模型的LLM推理

Databricks ·

MinIO的MemKV通过消除AI重复计算成本，承诺实现95%的GPU利用率提升

MinIO的MemKV通过消除AI重复计算成本，承诺实现95%的GPU利用率提升

The New Stack ·

自适应并行推理：高效推理扩展的新范式

自适应并行推理：高效推理扩展的新范式

The Berkeley Artificial Intelligence Research Blog ·

AI 的经济账根本算不通

AI 的经济账根本算不通

宝玉的分享 ·

2024年，混合专家（MoE）架构成为大模型的主流，开源项目如Mixtral和DeepSeek推动了其发展。MoE通过减少激活参数显著降低计算成本，同时提升模型表达能力，适合算力充裕的场景。关键技术包括细粒度专家、共享专家和改进的负载均衡策略。未来，MoE将向更大规模和动态专家数发展。

【大模型基础设施工程】08：MoE 训练工程

土法炼钢兴趣小组的博客 ·

大语言模型微调实用指南

大语言模型微调实用指南

Databricks ·

推理速度提升3倍，多伦多大学等提出dnaHNet，基因组学习计算成本降低近4倍

推理速度提升3倍，多伦多大学等提出dnaHNet，基因组学习计算成本降低近4倍

HyperAI超神经 ·

Claude提示词缓存完全指南：92%命中率案例与成本优化秘籍

Claude提示词缓存完全指南：92%命中率案例与成本优化秘籍

极道 ·

五种高效的长上下文检索增强生成技术

五种高效的长上下文检索增强生成技术

MachineLearningMastery.com ·

自反取证增强生成解析：自我反思检索如何提升人工智能输出

自反取证增强生成解析：自我反思检索如何提升人工智能输出

meilisearch blog ·

打破密集瓶颈：Voyage-4-large如何利用混合专家（MoE）进行扩展

打破密集瓶颈：Voyage-4-large如何利用混合专家（MoE）进行扩展

Voyage AI ·

NVIDIA推出Earth-2开放模型系列——全球首个完全开放、加速的人工智能天气模型和工具集

NVIDIA推出Earth-2开放模型系列——全球首个完全开放、加速的人工智能天气模型和工具集

NVIDIA Blog ·

准确率达 97%！普林斯顿大学等提出 MOFSeq-LMM，高效预测MOFs能否被合成

准确率达 97%！普林斯顿大学等提出 MOFSeq-LMM，高效预测MOFs能否被合成

HyperAI超神经 ·

计算成本减半，化学反应发现工具ChemOntology将人类直觉「编码」到系统中，加速反应路径搜索

计算成本减半，化学反应发现工具ChemOntology将人类直觉「编码」到系统中，加速反应路径搜索

HyperAI超神经 ·

$Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作)：消除推理阶段的计算开销，让π0.6完成箱子装配与咖啡制作$

Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作)：消除推理阶段的计算开销，让π0.6完成箱子装配与咖啡制作

结构之法算法之道 ·

使小型语言模型能够解决复杂推理任务

使小型语言模型能够解决复杂推理任务

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

蚂蚁集团赵俊博在MEET2026大会上介绍了扩散模型的优势，指出其可直接修改token，从而提升生成速度和降低计算成本。他们开源了LLaDA 2.0，首次实现千亿参数的扩散语言模型，引发行业关注。

跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

量子位 ·