小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DeepSeek不惜代价保住它!V4关键特性被挖出来了

DeepSeek V4技术报告强调批次不变性的重要性,确保同一输入在不同批次下输出一致。尽管实现这一目标增加了工程复杂度和性能代价,但提高了模型的可复现性和可调试性。V4通过自研计算程序和严格计算路径,优化了长上下文训练和推理系统,确保模型行为的稳定性。

DeepSeek不惜代价保住它!V4关键特性被挖出来了

量子位
量子位 · 2026-04-28T06:15:23Z
MBZUAI推出700亿参数高级推理系统K2 Think V2

G42、Cerebras Systems与MBZUAI联合推出K2 Think V2,这是一个基于IFM的700亿参数高级推理系统,标志着真正的端到端开源和开放式推理系统的重大进展。

MBZUAI推出700亿参数高级推理系统K2 Think V2

全球TMT-美通国际
全球TMT-美通国际 · 2026-01-29T02:20:57Z

SGLang原生支持昇腾,简化模型调用,成为行业关注的焦点。活动讨论了推理系统在高并发和长上下文场景下的挑战,并提出了工程解决方案。昇腾与SGLang的合作提升了推理效率和系统优化,增强了模型在金融等领域的应用能力。

SGLang原生支持昇腾,新模型一键拉起无需改代码

量子位
量子位 · 2025-12-22T02:36:28Z

SGLang原生支持昇腾,简化模型运行,无需修改代码。活动讨论了推理系统在金融场景中的高并发和内存管理问题,展示了昇腾与SGLang的协同进展,提升了推理效率和稳定性。

SGLang原生支持昇腾,新模型一键拉起无需改代码

量子位
量子位 · 2025-12-21T14:29:56Z
构建高效的云原生大语言模型推理框架:KServe、vLLM、llm-d 和 WG Serving

云原生大语言模型推理的四个框架(KServe、vLLM、llm-d、WG Serving)推动了推理系统的标准化与模块化。通过分层协作和标准接口,开发者能够实现高性能、低成本的推理服务,促进AI架构的创新与应用。

构建高效的云原生大语言模型推理框架:KServe、vLLM、llm-d 和 WG Serving

云原生
云原生 · 2025-11-08T05:21:59Z
扩展大型语言模型推理:张量并行、上下文并行和专家并行的创新

Meta通过先进的并行技术,如张量并行、上下文并行和专家并行,持续优化大型语言模型(LLM)推理系统,提高资源效率、吞吐量和延迟,解决大规模实时推理的挑战,推动AI应用的发展。

扩展大型语言模型推理:张量并行、上下文并行和专家并行的创新

Engineering at Meta
Engineering at Meta · 2025-10-17T16:00:50Z
MBZUAI与G42联合推出高级AI推理开源系统K2 Think

Mohamed bin Zayed人工智能大学与G42联合推出K2 Think,这是一个320亿参数的开源AI推理系统,其性能超过20倍的大模型。K2 Think通过长链路思维和强化学习提高了解题精度,具备智能体规划和测试时间扩展技术,预计在Cerebras平台上实现每秒2000个令牌的高吞吐量。

MBZUAI与G42联合推出高级AI推理开源系统K2 Think

全球TMT-美通国际
全球TMT-美通国际 · 2025-09-11T04:55:44Z
深入vLLM:高吞吐量LLM推理系统的结构

vLLM是一个高吞吐量的LLM推理系统,采用分页注意力、连续批处理和前缀缓存等技术。文章介绍了vLLM的核心组件和高级特性,包括模型执行、调度和KV缓存管理。通过多GPU和多节点的动态服务,vLLM能够高效处理请求,优化延迟和吞吐量,并探讨了基准测试和自动调优的方法以提升系统性能。

深入vLLM:高吞吐量LLM推理系统的结构

vLLM Blog
vLLM Blog · 2025-09-05T00:00:00Z

本研究提出了一种新的在线强化学习框架RISE,旨在提升大型语言模型的自我验证能力和解题准确性,从而增强推理过程,推动智能推理系统的发展。

信任但要验证:一种具有可验证奖励的强化学习自我验证方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z
OrKa:透明智能宣言

当前AI工作流程存在脆弱和不透明的问题。为解决这些问题,作者开发了OrKa,一个基于YAML和Redis的可组合框架,提供可视化、模块化和可追溯的推理系统,支持动态控制和实时日志,适合开发者使用,克服传统AI框架的缺陷。

OrKa:透明智能宣言

DEV Community
DEV Community · 2025-05-04T20:36:56Z

本研究提出了一种名为HMI的多租户推理系统,通过构建分层预训练语言模型(hPLMs),在单个GPU上高效管理多达10,000个模型,确保推理的准确性。

HMI: Hierarchical Knowledge Management for Efficient Multi-Tenant Inference

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-24T00:00:00Z

本研究推出了DeepMath-103K,一个大规模的数学问题数据集,旨在解决人工智能在复杂数学推理中的数据不足问题。该数据集提供验证答案,提升了挑战性,并展示了训练模型在数学基准测试中的显著改进,为发展更强大的AI推理系统奠定基础。

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning Abilities

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z
最高日赚346万元!DeepSeek商业模式受质疑,官方回应

DeepSeek在开源周发布V3/R1推理系统,理论日利润达346万元人民币,引发AI商业化讨论。潞晨科技暂停DeepSeek API服务,质疑其商业模式。DeepSeek回应称不赔本,并优化GPU使用以提高效率。

最高日赚346万元!DeepSeek商业模式受质疑,官方回应

TechWeb 全站精华
TechWeb 全站精华 · 2025-03-02T02:21:57Z
DeepSeek一天能赚多少钱?官方突然揭秘V3/R1推理系统,成本全透明

DeepSeek宣布其V3/R1推理系统,理论日收入为562,027美元,成本利润率为545%。该系统通过跨节点专家并行和负载平衡优化吞吐量与延迟。尽管开源持续,实际收入低于预期,原因是定价较低及部分服务免费。

DeepSeek一天能赚多少钱?官方突然揭秘V3/R1推理系统,成本全透明

机器之心
机器之心 · 2025-03-01T13:10:01Z

DeepSeek-V3/R1推理系统通过跨节点专家并行和负载均衡策略优化了吞吐量和延迟。在高负荷情况下,系统使用278个节点,平均输出速率为20~22tps,成本利润率为545%。

DeepSeek突袭公布成本利润率:545%

量子位
量子位 · 2025-03-01T06:05:30Z

本研究提出了优化推理系统Bitnet.cpp,解决了三元大型语言模型在边缘推理中的效率问题。该系统采用新型混合精度矩阵乘法库,实现了高效无损推理,速度比全精度快6.25倍,推动了该领域的发展。

Bitnet.cpp: Efficient Edge Inference for Ternary Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
Kimi 联合清华大学等机构,开源共建大模型推理架构 Mooncake

在大模型时代,推理系统面临高负载和成本挑战。月之暗面Kimi与清华大学联合发布的Mooncake推理系统,基于KVCache架构提升推理效率,并已开源,旨在为大模型提供高性能存储标准接口,推动行业发展。

Kimi 联合清华大学等机构,开源共建大模型推理架构 Mooncake

实时互动网
实时互动网 · 2024-11-28T03:04:44Z
对 OpenAI o1 的逆向工程[译]

OpenAI发布了新推理系统o1,旨在通过强化学习解决复杂任务。o1是一个原型,尚未成熟,提供了与AI互动的新模式。尽管o1在推理上表现强大,但仍需用户反馈来完善。该系统的训练过程复杂,未来可能会与ChatGPT整合,推动AI技术的发展。

对 OpenAI o1 的逆向工程[译]

宝玉的分享
宝玉的分享 · 2024-09-17T20:40:00Z

本文介绍了一种基于模块化线性化注意力(MLA)的自然语言处理技术,显著提升了自回归任务的推理质量和效率。通过结合不同的注意力机制和优化方法,开发了Lamina推理系统,提供更高的吞吐量,并探讨了加速文本生成的关键技术,如推测解码和非自回归方法。

当线性注意力遇上自回归解码:朝着更有效和高效的线性化大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

本文提出了一种可教的推理系统,通过用户反馈构建动态记忆,以提高问题回答的准确性。研究表明,该系统在不重训练模型的情况下,仅需25%的反馈即可接近最优解。介绍了CREEM记忆方案和ARM-RAG系统,强调长期记忆对聊天机器人和数学问题求解的重要性。实验结果显示,MemLLM和Self-RAG框架显著提升了语言模型的性能和准确性。

RAM: 通过学习通信优化内存系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码