小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DeepSeek不惜代价保住它!V4关键特性被挖出来了

DeepSeek V4技术报告强调批次不变性的重要性,确保同一输入在不同批次下输出一致。尽管实现这一目标增加了工程复杂度和性能代价,但提高了模型的可复现性和可调试性。V4通过自研计算程序和严格计算路径,优化了长上下文训练和推理系统,确保模型行为的稳定性。

DeepSeek不惜代价保住它!V4关键特性被挖出来了

量子位
量子位 · 2026-04-28T06:15:23Z
MBZUAI推出700亿参数高级推理系统K2 Think V2

G42、Cerebras Systems与MBZUAI联合推出K2 Think V2,这是一个基于IFM的700亿参数高级推理系统,标志着真正的端到端开源和开放式推理系统的重大进展。

MBZUAI推出700亿参数高级推理系统K2 Think V2

全球TMT-美通国际
全球TMT-美通国际 · 2026-01-29T02:20:57Z

SGLang原生支持昇腾,简化模型调用,成为行业关注的焦点。活动讨论了推理系统在高并发和长上下文场景下的挑战,并提出了工程解决方案。昇腾与SGLang的合作提升了推理效率和系统优化,增强了模型在金融等领域的应用能力。

SGLang原生支持昇腾,新模型一键拉起无需改代码

量子位
量子位 · 2025-12-22T02:36:28Z

SGLang原生支持昇腾,简化模型运行,无需修改代码。活动讨论了推理系统在金融场景中的高并发和内存管理问题,展示了昇腾与SGLang的协同进展,提升了推理效率和稳定性。

SGLang原生支持昇腾,新模型一键拉起无需改代码

量子位
量子位 · 2025-12-21T14:29:56Z
构建高效的云原生大语言模型推理框架:KServe、vLLM、llm-d 和 WG Serving

云原生大语言模型推理的四个框架(KServe、vLLM、llm-d、WG Serving)推动了推理系统的标准化与模块化。通过分层协作和标准接口,开发者能够实现高性能、低成本的推理服务,促进AI架构的创新与应用。

构建高效的云原生大语言模型推理框架:KServe、vLLM、llm-d 和 WG Serving

云原生
云原生 · 2025-11-08T05:21:59Z
扩展大型语言模型推理:张量并行、上下文并行和专家并行的创新

Meta通过先进的并行技术,如张量并行、上下文并行和专家并行,持续优化大型语言模型(LLM)推理系统,提高资源效率、吞吐量和延迟,解决大规模实时推理的挑战,推动AI应用的发展。

扩展大型语言模型推理:张量并行、上下文并行和专家并行的创新

Engineering at Meta
Engineering at Meta · 2025-10-17T16:00:50Z
MBZUAI与G42联合推出高级AI推理开源系统K2 Think

Mohamed bin Zayed人工智能大学与G42联合推出K2 Think,这是一个320亿参数的开源AI推理系统,其性能超过20倍的大模型。K2 Think通过长链路思维和强化学习提高了解题精度,具备智能体规划和测试时间扩展技术,预计在Cerebras平台上实现每秒2000个令牌的高吞吐量。

MBZUAI与G42联合推出高级AI推理开源系统K2 Think

全球TMT-美通国际
全球TMT-美通国际 · 2025-09-11T04:55:44Z
深入vLLM:高吞吐量LLM推理系统的结构

vLLM是一个高吞吐量的LLM推理系统,采用分页注意力、连续批处理和前缀缓存等技术。文章介绍了vLLM的核心组件和高级特性,包括模型执行、调度和KV缓存管理。通过多GPU和多节点的动态服务,vLLM能够高效处理请求,优化延迟和吞吐量,并探讨了基准测试和自动调优的方法以提升系统性能。

深入vLLM:高吞吐量LLM推理系统的结构

vLLM Blog
vLLM Blog · 2025-09-05T00:00:00Z

本研究提出了一种新的在线强化学习框架RISE,旨在提升大型语言模型的自我验证能力和解题准确性,从而增强推理过程,推动智能推理系统的发展。

信任但要验证:一种具有可验证奖励的强化学习自我验证方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z
OrKa:透明智能宣言

当前AI工作流程存在脆弱和不透明的问题。为解决这些问题,作者开发了OrKa,一个基于YAML和Redis的可组合框架,提供可视化、模块化和可追溯的推理系统,支持动态控制和实时日志,适合开发者使用,克服传统AI框架的缺陷。

OrKa:透明智能宣言

DEV Community
DEV Community · 2025-05-04T20:36:56Z

本研究提出了一种名为HMI的多租户推理系统,通过构建分层预训练语言模型(hPLMs),在单个GPU上高效管理多达10,000个模型,确保推理的准确性。

HMI: Hierarchical Knowledge Management for Efficient Multi-Tenant Inference

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-24T00:00:00Z

本研究推出了DeepMath-103K,一个大规模的数学问题数据集,旨在解决人工智能在复杂数学推理中的数据不足问题。该数据集提供验证答案,提升了挑战性,并展示了训练模型在数学基准测试中的显著改进,为发展更强大的AI推理系统奠定基础。

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning Abilities

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z
最高日赚346万元!DeepSeek商业模式受质疑,官方回应

DeepSeek在开源周发布V3/R1推理系统,理论日利润达346万元人民币,引发AI商业化讨论。潞晨科技暂停DeepSeek API服务,质疑其商业模式。DeepSeek回应称不赔本,并优化GPU使用以提高效率。

最高日赚346万元!DeepSeek商业模式受质疑,官方回应

TechWeb 全站精华
TechWeb 全站精华 · 2025-03-02T02:21:57Z
DeepSeek一天能赚多少钱?官方突然揭秘V3/R1推理系统,成本全透明

DeepSeek宣布其V3/R1推理系统,理论日收入为562,027美元,成本利润率为545%。该系统通过跨节点专家并行和负载平衡优化吞吐量与延迟。尽管开源持续,实际收入低于预期,原因是定价较低及部分服务免费。

DeepSeek一天能赚多少钱?官方突然揭秘V3/R1推理系统,成本全透明

机器之心
机器之心 · 2025-03-01T13:10:01Z

DeepSeek-V3/R1推理系统通过跨节点专家并行和负载均衡策略优化了吞吐量和延迟。在高负荷情况下,系统使用278个节点,平均输出速率为20~22tps,成本利润率为545%。

DeepSeek突袭公布成本利润率:545%

量子位
量子位 · 2025-03-01T06:05:30Z

本研究提出了优化推理系统Bitnet.cpp,解决了三元大型语言模型在边缘推理中的效率问题。该系统采用新型混合精度矩阵乘法库,实现了高效无损推理,速度比全精度快6.25倍,推动了该领域的发展。

Bitnet.cpp: Efficient Edge Inference for Ternary Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
Kimi 联合清华大学等机构,开源共建大模型推理架构 Mooncake

在大模型时代,推理系统面临高负载和成本挑战。月之暗面Kimi与清华大学联合发布的Mooncake推理系统,基于KVCache架构提升推理效率,并已开源,旨在为大模型提供高性能存储标准接口,推动行业发展。

Kimi 联合清华大学等机构,开源共建大模型推理架构 Mooncake

实时互动网
实时互动网 · 2024-11-28T03:04:44Z

本研究提出了INFERMAX分析框架,以解决大型语言模型推理系统的可扩展性问题。通过比较调度器,发现主动抢占请求可以降低30%的GPU成本,为高效推理系统提供了经济有效的策略。

调度和抢占对大型语言模型推理服务效率的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码