小红花·文摘 - 小红花技术领袖俱乐部

Google Axion实例现已在Elastic Cloud托管上可用

Google Axion实例现已在Elastic Cloud托管上可用

Elastic Blog - Elasticsearch, Kibana, and ELK Stack ·

推理速度提升3倍，多伦多大学等提出dnaHNet，基因组学习计算成本降低近4倍

推理速度提升3倍，多伦多大学等提出dnaHNet，基因组学习计算成本降低近4倍

HyperAI超神经 ·

英伟达最强B200算力浪费60%！普林斯顿团队出手，利用率升至71%

量子位 ·

复盘AI芯片技术路线专用芯片复刻矿机历程

复盘AI芯片技术路线专用芯片复刻矿机历程

dotNET跨平台 ·

20秒完成15天预报，欧洲科研团队提出高分辨率区域海洋预报模型SeaCast

20秒完成15天预报，欧洲科研团队提出高分辨率区域海洋预报模型SeaCast

HyperAI超神经 ·

内存占用最高降低75%，美国能源部科学家提出跨通道分层聚合方法D-CHAG，实现极大规模模型多通道数据集运行

内存占用最高降低75%，美国能源部科学家提出跨通道分层聚合方法D-CHAG，实现极大规模模型多通道数据集运行

HyperAI超神经 ·

推动vLLM WideEP和大规模服务在Blackwell平台上的成熟（第一部分）

vLLM Blog ·

MoE比你想象的更强大：基于RoE的超并行推理扩展

MoE比你想象的更强大：基于RoE的超并行推理扩展

Apple Machine Learning Research ·

谷歌的张量处理单元（TPU）是如何工作的？

谷歌的张量处理单元（TPU）是如何工作的？

ByteByteGo Newsletter ·

谷歌推出第七代TPU Ironwood，专为AI推理设计，性能提升4倍。该芯片可连接9216个芯片，优化计算效率，推动硬件与AI研究的协同发展。

关于Ironwood，我们最新的TPU，有三件事你需要知道

The Keyword ·

提升Python代码性能的10个聪明技巧

提升Python代码性能的10个聪明技巧

The JetBrains Blog ·

基于自适应空间标记化的可变形物体交互学习

基于自适应空间标记化的可变形物体交互学习

Apple Machine Learning Research ·

重新思考JEPA：基于冻结教师的计算高效视频自监督学习

重新思考JEPA：基于冻结教师的计算高效视频自监督学习

Apple Machine Learning Research ·

DeepSeek 的闪电索引器通过计算索引分数提高模型效率，解决了全书阅读的 $O(L^2)$ 复杂度问题。它筛选出与当前查询相关的 Top-k token，将注意力复杂度降低到 $O(L k)$，显著提升计算效率。

deepseek-v3.2-exp的闪电索引器

鸟窝 ·

浪潮信息推出元脑SD200和HC1000 AI服务器，推理速度达到8.9ms，百万Token成本降至1元。新架构提升计算效率，满足智能时代对速度和成本的需求，推动AI产业化发展。

8.9ms，推理速度新纪录！1块钱百万token，浪潮信息AI服务器加速智能体产业化

量子位 ·

Triton Flash Attention 内核详解：前向传播

Triton Flash Attention 内核详解：前向传播

Nathan Chen ·

模型量化是将高精度模型转为低精度模型的过程，能有效降低显存占用并提升推理速度。常见的量化方法有GGUF、GPTQ和AWQ，适用于不同场景，优化计算效率和存储需求。

什么是模型量化

陈少文的博客 ·

停用词是自然语言处理中的重要概念，指那些频率高但语义贡献小的词汇。在预处理阶段过滤停用词可以提高计算效率、聚焦关键信息并优化存储。WordPress增加了停用词功能，以提升搜索结果的相关性。

给 WPJAM「搜索优化」插件增加停用词功能，进一步增强 WordPress 搜索效率

WordPress 果酱 ·

是石科技成立于2021年，专注于高性能计算与AI算力优化，已获得三次戈登·贝尔奖。创始人闫博文认为未来算力将有闲置，因此不囤算力。公司与多家大模型企业合作，提供算力及优化服务，致力于提高计算效率和降低成本。

狂拿大模型明星订单，一家清华系HPC-AI Infra公司浮出水面

量子位 ·

谷歌推出的新架构Mixture-of-Recursions（MoR）实现了推理速度提升2倍，内存减少50%。该架构通过统一参数共享和自适应计算，降低了计算和内存成本，同时保持了大模型的性能。MoR在多个参数规模上优于传统Transformer，展现出更高的计算效率和可扩展性。

Transformer危！谷歌MoR架构发布：内存减半推理速度还翻倍

量子位 ·