小红花·文摘

百度大脑 ·

量子位 ·

Mamba是一种新型选择性状态空间模型，优化了长序列数据处理，推理速度比Transformer快5倍，支持跨模态应用。Rust实现的Mamba-RS具备高效的推理和训练能力，并支持CUDA加速，适用于多种场景。

Rust.cc ·

实时互动网 ·

MachineLearningMastery.com ·

小众软件 ·

MiniMax推出的M2.5模型具备全栈编程能力，支持多种编程语言，能够高效完成复杂任务。其性能与Claude Opus 4.6相当，推理速度达到100TPS，每小时成本仅为1美元。M2.5在智能体环境中表现优异，能够独立进行财务分析和项目开发，标志着AI应用的快速发展。

量子位 ·

MachineLearningMastery.com ·

dotNET跨平台 ·

MachineLearningMastery.com ·

阶跃星辰发布了开源基座模型Step 3.5 Flash，专为实时Agent工作流设计，推理速度可达每秒350个token。该模型采用稀疏MoE架构，提升推理效率，降低企业应用大模型的门槛。多家芯片厂商已完成适配，促进模型与算力的协同发展。

量子位 ·

蚂蚁集团推出的医疗AI大模型“蚂蚁·安诊儿”开源后迅速登顶多项医疗榜单，具备超过200 tokens/s的推理速度，专为真实医疗场景设计，支持中小型医疗机构的实时交互。该模型在医疗知识问答和复杂推理方面表现优异，推动医疗AI的实际应用。

量子位 ·

英伟达以200亿美元收购Groq，以应对谷歌TPU的竞争。Groq的LPU在推理速度上优于GPU和TPU，但内存容量较小，需要多颗芯片协同工作。尽管成本较高，市场对速度的需求持续增长，英伟达希望借此提升推理能力，拓展业务。

量子位 ·

vLLM Blog ·

爱范儿 ·

InfoQ ·

Kimi开源的线性注意力架构首次超越全注意力模型，推理速度提升6倍，KV缓存减少75%。其核心创新Kimi Delta Attention引入细粒度遗忘门控，确保长上下文中的稳定性。该模型在多个基准测试中表现优异，标志着AI架构进入多元创新时代。

量子位 ·

上海发布的Minimax M2开源模型以61分成为开源模型第一，突破智力、成本和速度的限制。其编程能力和推理速度优于Claude 3.5，成本仅为8%。M2支持多种工具调用，表现出色，目前限时免费使用。

量子位 ·

vLLM Blog ·

蚂蚁集团推出高性能扩散语言模型推理框架dInfer，推理速度提升10倍，首次超越自回归模型。dInfer支持多种扩散模型，解决了推理效率的三大挑战，标志着扩散语言模型的实践应用。

量子位 ·