小红花·文摘 - 小红花技术领袖俱乐部

DeepSeek不惜代价保住它！V4关键特性被挖出来了

量子位 ·

MBZUAI推出700亿参数高级推理系统K2 Think V2

MBZUAI推出700亿参数高级推理系统K2 Think V2

全球TMT-美通国际 ·

SGLang原生支持昇腾，简化模型调用，成为行业关注的焦点。活动讨论了推理系统在高并发和长上下文场景下的挑战，并提出了工程解决方案。昇腾与SGLang的合作提升了推理效率和系统优化，增强了模型在金融等领域的应用能力。

SGLang原生支持昇腾，新模型一键拉起无需改代码

量子位 ·

SGLang原生支持昇腾，简化模型运行，无需修改代码。活动讨论了推理系统在金融场景中的高并发和内存管理问题，展示了昇腾与SGLang的协同进展，提升了推理效率和稳定性。

SGLang原生支持昇腾，新模型一键拉起无需改代码

量子位 ·

构建高效的云原生大语言模型推理框架：KServe、vLLM、llm-d 和 WG Serving

构建高效的云原生大语言模型推理框架：KServe、vLLM、llm-d 和 WG Serving

云原生 ·

扩展大型语言模型推理：张量并行、上下文并行和专家并行的创新

扩展大型语言模型推理：张量并行、上下文并行和专家并行的创新

Engineering at Meta ·

MBZUAI与G42联合推出高级AI推理开源系统K2 Think

MBZUAI与G42联合推出高级AI推理开源系统K2 Think

全球TMT-美通国际 ·

深入vLLM：高吞吐量LLM推理系统的结构

深入vLLM：高吞吐量LLM推理系统的结构

vLLM Blog ·

本研究提出了一种新的在线强化学习框架RISE，旨在提升大型语言模型的自我验证能力和解题准确性，从而增强推理过程，推动智能推理系统的发展。

信任但要验证：一种具有可验证奖励的强化学习自我验证方法

BriefGPT - AI 论文速递 ·

OrKa：透明智能宣言

OrKa：透明智能宣言

DEV Community ·

本研究提出了一种名为HMI的多租户推理系统，通过构建分层预训练语言模型（hPLMs），在单个GPU上高效管理多达10,000个模型，确保推理的准确性。

HMI: Hierarchical Knowledge Management for Efficient Multi-Tenant Inference

BriefGPT - AI 论文速递 ·

本研究推出了DeepMath-103K，一个大规模的数学问题数据集，旨在解决人工智能在复杂数学推理中的数据不足问题。该数据集提供验证答案，提升了挑战性，并展示了训练模型在数学基准测试中的显著改进，为发展更强大的AI推理系统奠定基础。

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning Abilities

BriefGPT - AI 论文速递 ·

最高日赚346万元！DeepSeek商业模式受质疑，官方回应

最高日赚346万元！DeepSeek商业模式受质疑，官方回应

TechWeb 全站精华 ·

DeepSeek一天能赚多少钱？官方突然揭秘V3/R1推理系统，成本全透明

DeepSeek一天能赚多少钱？官方突然揭秘V3/R1推理系统，成本全透明

机器之心 ·

DeepSeek-V3/R1推理系统通过跨节点专家并行和负载均衡策略优化了吞吐量和延迟。在高负荷情况下，系统使用278个节点，平均输出速率为20~22tps，成本利润率为545%。

DeepSeek突袭公布成本利润率：545%

量子位 ·

本研究提出了优化推理系统Bitnet.cpp，解决了三元大型语言模型在边缘推理中的效率问题。该系统采用新型混合精度矩阵乘法库，实现了高效无损推理，速度比全精度快6.25倍，推动了该领域的发展。

Bitnet.cpp: Efficient Edge Inference for Ternary Large Language Models

BriefGPT - AI 论文速递 ·

Kimi 联合清华大学等机构，开源共建大模型推理架构 Mooncake

Kimi 联合清华大学等机构，开源共建大模型推理架构 Mooncake

实时互动网 ·

对 OpenAI o1 的逆向工程[译]

对 OpenAI o1 的逆向工程[译]

宝玉的分享 ·

本文介绍了一种基于模块化线性化注意力（MLA）的自然语言处理技术，显著提升了自回归任务的推理质量和效率。通过结合不同的注意力机制和优化方法，开发了Lamina推理系统，提供更高的吞吐量，并探讨了加速文本生成的关键技术，如推测解码和非自回归方法。

当线性注意力遇上自回归解码：朝着更有效和高效的线性化大型语言模型

BriefGPT - AI 论文速递 ·

本文提出了一种可教的推理系统，通过用户反馈构建动态记忆，以提高问题回答的准确性。研究表明，该系统在不重训练模型的情况下，仅需25%的反馈即可接近最优解。介绍了CREEM记忆方案和ARM-RAG系统，强调长期记忆对聊天机器人和数学问题求解的重要性。实验结果显示，MemLLM和Self-RAG框架显著提升了语言模型的性能和准确性。

RAM: 通过学习通信优化内存系统

BriefGPT - AI 论文速递 ·