小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
刚刚,GPT-5.5 发布!Claude Code 连夜治好降智,「奥特曼瘫倒」喜提续集

Anthropic 的估值已超过 1 万亿美元,OpenAI 面临压力。GPT-5.5 发布,提升了推理效率,能够更好地处理复杂任务,表现优于前代。评测显示其在多个领域取得显著进步,OpenAI 计划将其打造成“AI 超级应用”,整合多种功能以提升工作效率。

刚刚,GPT-5.5 发布!Claude Code 连夜治好降智,「奥特曼瘫倒」喜提续集

爱范儿
爱范儿 · 2026-04-24T03:50:01Z

Unweight是一种无损压缩系统,能够将大型语言模型(LLM)的权重缩小15-22%,而不影响输出质量。该系统通过在快速的片上内存中解压权重,避免了主内存的延迟,从而提高推理效率。在Llama-3.1-8B模型上实现了约30%的多层感知器权重压缩,节省了约3GB显存,降低了推理成本。Unweight专为数据中心的H100 GPU优化,支持多种执行策略以适应不同工作负载。

Unweight:如何在不牺牲质量的情况下将大型语言模型压缩22%

The Cloudflare Blog
The Cloudflare Blog · 2026-04-17T13:00:00Z
KernelEvolve:Meta的排名工程师代理如何优化AI基础设施

Meta推出KernelEvolve,一个自主系统,优化AI基础设施,显著提升广告模型的推理和训练效率。该系统通过自动生成和优化硬件特定的内核,解决了性能瓶颈,能在数小时内完成原本需数周的内核优化工作,推理吞吐量提升超过60%。

KernelEvolve:Meta的排名工程师代理如何优化AI基础设施

Engineering at Meta
Engineering at Meta · 2026-04-02T19:59:46Z
优化吞吐量的Redis用于L2 KV缓存重用

Redis在2026年被评为Fast Company最具创新的公司之一。通过与LMCache的优化,Redis提升了大规模语言模型的缓存性能,KV缓存读取速度达到9-10 GB/s,显著提高了推理效率,帮助加速推理过程并降低成本。

优化吞吐量的Redis用于L2 KV缓存重用

Redis Blog
Redis Blog · 2026-03-30T00:00:00Z
阶跃星辰冲击百亿美金俱乐部,揭开下半场竞争核心逻辑

阶跃星辰的Step 3.5-Flash在推理效率上表现优异,推理速度达到350tokens/秒,标志着其从算法产品向可定制智能底座的转型。公司采取基础设施化路线,涉足AI服务、终端设备和底层芯片,吸引资本市场关注,估值接近100亿美元。

阶跃星辰冲击百亿美金俱乐部,揭开下半场竞争核心逻辑

全球TMT-美通国际
全球TMT-美通国际 · 2026-03-26T04:18:37Z

华为在MWC 2026推出AI数据平台,旨在解决AI智能体落地的挑战,提供知识生成、推理加速和记忆管理等功能,助力企业实现数字化转型,提高知识检索精度和推理效率。

华为在MWC 2026发布AI数据平台

全球TMT-美通国际
全球TMT-美通国际 · 2026-03-05T07:05:00Z
当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

OpenBMB推出的MiniCPM-o-4.5模型仅用9B参数实现全模态能力,强调跨模态对齐与推理效率,适合主流GPU部署,具备高性能与轻量化优势。

当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经
HyperAI超神经 · 2026-02-28T06:48:25Z
分层大语言模型架构的异步验证语义缓存

本文介绍了一种名为Krites的异步语义缓存策略,旨在提高大语言模型(LLM)的推理效率。Krites通过验证静态缓存的响应,扩大了静态覆盖范围,允许未来的请求重用经过验证的答案。实验表明,Krites在对话和搜索任务中,使用经过验证的静态答案的请求比例提高了最多3.9倍,同时保持了延迟不变。

分层大语言模型架构的异步验证语义缓存

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-16T00:00:00Z

蚂蚁集团开源了全球首个混合线性架构的万亿参数模型Ring-2.5-1T,提升长文本推理效率3倍,达到IMO金牌水平。该模型在数学推理和代码生成等领域表现优异,适配多种智能体框架,解决了长输出场景的计算开销问题。

蚂蚁集团开源Ring-2.5-1T,全球首个混合线性架构万亿参数思考模型来了

量子位
量子位 · 2026-02-13T05:32:40Z
NVIDIA Dynamo Planner为多节点大语言模型推理带来基于SLO的自动化

微软与NVIDIA推出Dynamo第二部分,旨在提升Azure Kubernetes Service上大语言模型的推理效率。新功能包括自动资源规划和动态扩展,帮助开发者快速配置GPU资源。Dynamo Planner Profiler与基于SLO的Dynamo Planner协同优化GPU分配,以满足流量变化下的服务水平目标。

NVIDIA Dynamo Planner为多节点大语言模型推理带来基于SLO的自动化

InfoQ
InfoQ · 2026-01-31T09:00:00Z
文心大模型5.0正式版,上线!

百度文心大模型5.0正式上线,参数达到2.4万亿,具备全模态理解与生成能力,支持文本、图像、音频和视频等多种信息。该技术采用统一自回归架构,提升推理效率,显著增强多模理解、代码生成和创意写作能力。百度千帆平台已支持企业用户便捷调用文心5.0,助力各行业应用。

文心大模型5.0正式版,上线!

百度大脑
百度大脑 · 2026-01-22T12:51:18Z

字节Seed团队推出DLCM(动态大概念模型),将推理单位从Token提升至概念层级,显著提高推理效率并降低计算资源消耗,准确率提升2.69%。

字节Seed:大概念模型来了,推理的何必是下一个token

量子位
量子位 · 2026-01-05T04:52:04Z
推理的物理学 – 深入探讨KV缓存和提示缓存

本文分析了KV缓存优化,探讨了DeepSeek的MLA架构如何演变为vLLM和SGLang,强调推理效率在生成AI商业化中的重要性。KV缓存管理成为主要瓶颈,文章还讨论了不同注意力机制对内存带宽的影响,以及低秩压缩和系统软件管理的重要性。

推理的物理学 – 深入探讨KV缓存和提示缓存

Shadow Walker 松烟阁
Shadow Walker 松烟阁 · 2025-12-14T13:46:59Z
一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA):让q跟最相关的k/v做注意力计算,以降低MLA的计算量

DeepSeek-V3.2引入了稀疏注意力机制(DSA),优化了长文本处理的效率。通过闪电索引器和细粒度选择机制,DSA减少了计算量并提升了模型性能。该版本在持续预训练和后训练中结合专家蒸馏和强化学习,显著提高了推理效率和稳定性。

一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA):让q跟最相关的k/v做注意力计算,以降低MLA的计算量

结构之法 算法之道
结构之法 算法之道 · 2025-12-05T07:49:14Z
大型语言模型更智能地思考复杂问题的方法

麻省理工学院研究人员开发了一种动态调整计算预算的方法,使大型语言模型在解决复杂问题时更高效。该方法根据问题难度和解决方案成功概率灵活分配计算资源,降低能耗并提高准确性。研究表明,小型语言模型在复杂问题上的表现优于大型模型,提升了推理的可靠性和效率。

大型语言模型更智能地思考复杂问题的方法

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2025-12-04T05:00:00Z

DeepSeek-V3.2-Exp模型已在华为云上线,采用稀疏Attention架构,提升推理效率,降低资源消耗,支持160K长序列,适合企业和开发者使用。

DeepSeek-V3.2-Exp第一时间上线华为云

量子位
量子位 · 2025-09-29T15:38:09Z

蚂蚁数科推出新隐私保护AI算法,推理效率提升超过100倍,并提出Gibbon框架,训练速度提升4倍。这两项技术在ACM CCS和IEEE TDSC会议上获奖,彰显其在隐私计算领域的领先地位。

蚂蚁数科提出隐私保护AI新算法,可将推理效率提升超过100倍

量子位
量子位 · 2025-09-24T07:22:04Z
OpenAI和NVIDIA通过新开放模型推动AI创新,优化全球最大AI推理基础设施

OpenAI发布了gpt-oss-120b和gpt-oss-20b两款开放权重AI推理模型,旨在推动各行业的AI应用。与NVIDIA的合作使这些模型全球可用,提升了推理效率,支持大规模AI模型的实时部署,促进AI技术的开放发展。

OpenAI和NVIDIA通过新开放模型推动AI创新,优化全球最大AI推理基础设施

NVIDIA Blog
NVIDIA Blog · 2025-08-05T17:01:23Z

DeepSeek的梁文锋团队在ACL 2025获得最佳论文奖,提出了原生稀疏注意力(NSA)机制,处理长文本的速度提升了11倍,性能超越传统模型。NSA通过动态分层策略优化计算,显著提高推理和训练效率,尤其在复杂推理任务中表现突出。

DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论文奖

量子位
量子位 · 2025-07-31T00:04:22Z
MoMoE:内存优化的专家混合模型

MoMoE(内存优化的专家混合模型)通过结合Triton内核和优化内存布局,显著提高了混合专家模型的训练和推理速度及内存效率。与现有开源实现相比,MoMoE在前向和反向传递中具有更高的吞吐量和更低的内存消耗,适合大规模训练和推理。该实现允许用户灵活选择内存与计算的权衡,推动了专家混合模型的高效应用。

MoMoE:内存优化的专家混合模型

Nathan Chen
Nathan Chen · 2025-07-25T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码