小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一键调用!京东云率先上线MiniMax M3

今日,MiniMax M3正式上线,京东云JoyBuilder平台已接入该模型,提升推理效率。MiniMax M3支持1M超长上下文和多模态输入能力。京东云提供高性能推理服务,帮助企业快速应用大模型,提升运维效率,未来将深化合作,构建开放的AI生态。

一键调用!京东云率先上线MiniMax M3

京东科技开发者
京东科技开发者 · 2026-06-11T01:48:55Z
一分钟读论文:《通过自我调节模拟规划实现高效智能体推理》

卡内基梅隆大学与商汤实验室提出的SR^2AM模型通过三个独立系统优化智能体决策过程,显著提高推理效率。SR^2AM-30B在数学和科学任务中表现优异,Token消耗减少66.7%-95.3%。该模型结合模拟推理与自我调节,成功解决推理深度与效率的平衡问题,展现出更深层次的思考能力。

一分钟读论文:《通过自我调节模拟规划实现高效智能体推理》

Micropaper
Micropaper · 2026-06-09T00:00:00Z
同时服务多个用户:连续批处理如何提高大语言模型推理效率

本文探讨了通过动态调度和不规则批处理提高大语言模型(LLM)推理效率的方法。动态调度允许在每个解码步骤后立即接收新请求,避免了静态批处理中短请求等待长请求的问题,从而减少GPU资源浪费。不规则批处理通过合并多个提示,减少填充令牌的浪费,进一步提升推理速度。最终,连续批处理显著提高了LLM的推理效率。

同时服务多个用户:连续批处理如何提高大语言模型推理效率

MachineLearningMastery.com
MachineLearningMastery.com · 2026-05-30T02:54:17Z
Token使用量降低30%,以「阿凡达」为灵感的异构智能体框架Eywa,高效结合语言模型与领域专用基础模型

智能体 AI 正在从语言中心化系统转变为具备自主推理与协作能力的智能体。伊利诺伊大学的研究团队提出 Eywa 框架,结合语言模型与领域专用基础模型,提升科学研究中的推理效率。EywaAgent 在多个科学领域的任务中表现优异,效用提升约 7%,Token 消耗减少 30%。此外,EywaBench 评测框架也被提出,以评估多模态科学推理能力,推动 AI 在科学领域的应用。

Token使用量降低30%,以「阿凡达」为灵感的异构智能体框架Eywa,高效结合语言模型与领域专用基础模型

HyperAI超神经
HyperAI超神经 · 2026-05-11T11:01:11Z

易点天下在Agentic AI领域的工程化实践中,通过上下文工程和多云基础设施推动AI Agent的规模化应用。公司构建了多云架构,实现资源统一调度,并以“Context Engineering”为核心,形成六层上下文体系,提升推理效率和工具调用准确率,同时建立五层防御机制以降低风险。

易点天下分享Agentic AI工程化实践,推动规模化应用

全球TMT-美通国际
全球TMT-美通国际 · 2026-05-09T08:22:38Z
自适应并行推理:高效推理扩展的新范式

自适应并行推理(APR)是一种新兴的推理模型,能够动态决定何时并行化和分解任务。与传统顺序推理相比,APR通过并行处理多个线程,提高了推理效率,降低了延迟。研究表明,APR在复杂任务中表现出更高的准确性和更低的计算成本,但仍需解决训练稳定性和硬件适应性等问题。

自适应并行推理:高效推理扩展的新范式

The Berkeley Artificial Intelligence Research Blog
The Berkeley Artificial Intelligence Research Blog · 2026-05-08T09:00:00Z
刚刚,GPT-5.5 发布!Claude Code 连夜治好降智,「奥特曼瘫倒」喜提续集

Anthropic 的估值已超过 1 万亿美元,OpenAI 面临压力。GPT-5.5 发布,提升了推理效率,能够更好地处理复杂任务,表现优于前代。评测显示其在多个领域取得显著进步,OpenAI 计划将其打造成“AI 超级应用”,整合多种功能以提升工作效率。

刚刚,GPT-5.5 发布!Claude Code 连夜治好降智,「奥特曼瘫倒」喜提续集

爱范儿
爱范儿 · 2026-04-24T03:50:01Z

Unweight是一种无损压缩系统,能够将大型语言模型(LLM)的权重缩小15-22%,而不影响输出质量。该系统通过在快速的片上内存中解压权重,避免了主内存的延迟,从而提高推理效率。在Llama-3.1-8B模型上实现了约30%的多层感知器权重压缩,节省了约3GB显存,降低了推理成本。Unweight专为数据中心的H100 GPU优化,支持多种执行策略以适应不同工作负载。

Unweight:如何在不牺牲质量的情况下将大型语言模型压缩22%

The Cloudflare Blog
The Cloudflare Blog · 2026-04-17T13:00:00Z
KernelEvolve:Meta的排名工程师代理如何优化AI基础设施

Meta推出KernelEvolve,一个自主系统,优化AI基础设施,显著提升广告模型的推理和训练效率。该系统通过自动生成和优化硬件特定的内核,解决了性能瓶颈,能在数小时内完成原本需数周的内核优化工作,推理吞吐量提升超过60%。

KernelEvolve:Meta的排名工程师代理如何优化AI基础设施

Engineering at Meta
Engineering at Meta · 2026-04-02T19:59:46Z
优化吞吐量的Redis用于L2 KV缓存重用

Redis在2026年被评为Fast Company最具创新的公司之一。通过与LMCache的优化,Redis提升了大规模语言模型的缓存性能,KV缓存读取速度达到9-10 GB/s,显著提高了推理效率,帮助加速推理过程并降低成本。

优化吞吐量的Redis用于L2 KV缓存重用

Redis Blog
Redis Blog · 2026-03-30T00:00:00Z
阶跃星辰冲击百亿美金俱乐部,揭开下半场竞争核心逻辑

阶跃星辰的Step 3.5-Flash在推理效率上表现优异,推理速度达到350tokens/秒,标志着其从算法产品向可定制智能底座的转型。公司采取基础设施化路线,涉足AI服务、终端设备和底层芯片,吸引资本市场关注,估值接近100亿美元。

阶跃星辰冲击百亿美金俱乐部,揭开下半场竞争核心逻辑

全球TMT-美通国际
全球TMT-美通国际 · 2026-03-26T04:18:37Z

华为在MWC 2026推出AI数据平台,旨在解决AI智能体落地的挑战,提供知识生成、推理加速和记忆管理等功能,助力企业实现数字化转型,提高知识检索精度和推理效率。

华为在MWC 2026发布AI数据平台

全球TMT-美通国际
全球TMT-美通国际 · 2026-03-05T07:05:00Z
当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

OpenBMB推出的MiniCPM-o-4.5模型仅用9B参数实现全模态能力,强调跨模态对齐与推理效率,适合主流GPU部署,具备高性能与轻量化优势。

当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经
HyperAI超神经 · 2026-02-28T06:48:25Z
分层大语言模型架构的异步验证语义缓存

本文介绍了一种名为Krites的异步语义缓存策略,旨在提高大语言模型(LLM)的推理效率。Krites通过验证静态缓存的响应,扩大了静态覆盖范围,允许未来的请求重用经过验证的答案。实验表明,Krites在对话和搜索任务中,使用经过验证的静态答案的请求比例提高了最多3.9倍,同时保持了延迟不变。

分层大语言模型架构的异步验证语义缓存

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-16T00:00:00Z

蚂蚁集团开源了全球首个混合线性架构的万亿参数模型Ring-2.5-1T,提升长文本推理效率3倍,达到IMO金牌水平。该模型在数学推理和代码生成等领域表现优异,适配多种智能体框架,解决了长输出场景的计算开销问题。

蚂蚁集团开源Ring-2.5-1T,全球首个混合线性架构万亿参数思考模型来了

量子位
量子位 · 2026-02-13T05:32:40Z
NVIDIA Dynamo Planner为多节点大语言模型推理带来基于SLO的自动化

微软与NVIDIA推出Dynamo第二部分,旨在提升Azure Kubernetes Service上大语言模型的推理效率。新功能包括自动资源规划和动态扩展,帮助开发者快速配置GPU资源。Dynamo Planner Profiler与基于SLO的Dynamo Planner协同优化GPU分配,以满足流量变化下的服务水平目标。

NVIDIA Dynamo Planner为多节点大语言模型推理带来基于SLO的自动化

InfoQ
InfoQ · 2026-01-31T09:00:00Z
文心大模型5.0正式版,上线!

百度文心大模型5.0正式上线,参数达到2.4万亿,具备全模态理解与生成能力,支持文本、图像、音频和视频等多种信息。该技术采用统一自回归架构,提升推理效率,显著增强多模理解、代码生成和创意写作能力。百度千帆平台已支持企业用户便捷调用文心5.0,助力各行业应用。

文心大模型5.0正式版,上线!

百度大脑
百度大脑 · 2026-01-22T12:51:18Z

字节Seed团队推出DLCM(动态大概念模型),将推理单位从Token提升至概念层级,显著提高推理效率并降低计算资源消耗,准确率提升2.69%。

字节Seed:大概念模型来了,推理的何必是下一个token

量子位
量子位 · 2026-01-05T04:52:04Z
推理的物理学 – 深入探讨KV缓存和提示缓存

本文分析了KV缓存优化,探讨了DeepSeek的MLA架构如何演变为vLLM和SGLang,强调推理效率在生成AI商业化中的重要性。KV缓存管理成为主要瓶颈,文章还讨论了不同注意力机制对内存带宽的影响,以及低秩压缩和系统软件管理的重要性。

推理的物理学 – 深入探讨KV缓存和提示缓存

Shadow Walker 松烟阁
Shadow Walker 松烟阁 · 2025-12-14T13:46:59Z
一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA):让q跟最相关的k/v做注意力计算,以降低MLA的计算量

DeepSeek-V3.2引入了稀疏注意力机制(DSA),优化了长文本处理的效率。通过闪电索引器和细粒度选择机制,DSA减少了计算量并提升了模型性能。该版本在持续预训练和后训练中结合专家蒸馏和强化学习,显著提高了推理效率和稳定性。

一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA):让q跟最相关的k/v做注意力计算,以降低MLA的计算量

结构之法 算法之道
结构之法 算法之道 · 2025-12-05T07:49:14Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码