小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
AI 范式雷达:《自适应潜在推理:让 Agent 少想但想深》

卡内基梅隆大学、微软研究院和清华大学提出的ALAR框架,通过引入“推理深度自适应”,在多轮交互中显著减少生成Token,最高可达84.6%。该方法结合潜在推理与显式思维链,动态选择推理模式,优化决策效率,提升Agent在复杂任务中的表现,同时降低计算成本和响应时间。

AI 范式雷达:《自适应潜在推理:让 Agent 少想但想深》

Micropaper
Micropaper · 2026-06-09T00:00:00Z
在Databricks上通过提示缓存加速开源模型的LLM推理

在旧金山举行的全球最大数据、应用和人工智能活动中,研究人员探讨了提示缓存技术在大型语言模型(LLM)推理中的应用。提示缓存可以消除重复请求的冗余,提高模型在特定领域的质量,并降低计算成本。Databricks为开源模型提供此功能,确保安全性并自动优化性能,提升推理效率。

在Databricks上通过提示缓存加速开源模型的LLM推理

Databricks
Databricks · 2026-05-22T20:00:00Z
MinIO的MemKV通过消除AI重复计算成本,承诺实现95%的GPU利用率提升

MinIO推出了MemKV,这是一种新的上下文记忆存储,旨在解决AI基础层的数据存储挑战。MemKV通过快速的上下文访问,降低了AI推理工作负载中的重复计算成本,提高了GPU利用率,并降低了每个令牌的成本。这项技术帮助开发者更有效地管理GPU集群中的状态,确保上下文的持久性和共享,从而提升企业AI的效率和安全性。

MinIO的MemKV通过消除AI重复计算成本,承诺实现95%的GPU利用率提升

The New Stack
The New Stack · 2026-05-13T20:27:46Z
自适应并行推理:高效推理扩展的新范式

自适应并行推理(APR)是一种新兴的推理模型,能够动态决定何时并行化和分解任务。与传统顺序推理相比,APR通过并行处理多个线程,提高了推理效率,降低了延迟。研究表明,APR在复杂任务中表现出更高的准确性和更低的计算成本,但仍需解决训练稳定性和硬件适应性等问题。

自适应并行推理:高效推理扩展的新范式

The Berkeley Artificial Intelligence Research Blog
The Berkeley Artificial Intelligence Research Blog · 2026-05-08T09:00:00Z
AI 的经济账根本算不通

微软宣布自2026年6月1日起,GitHub Copilot将按用量计费,用户需为实际使用的计算成本付费。这一变化反映出AI服务的经济模式面临挑战,用户对服务质量的反应强烈。AI行业正遭遇高昂的计算成本和不确定的盈利模式,许多公司在补贴用户的同时难以维持运营,未来可能导致更多企业财务危机。

AI 的经济账根本算不通

宝玉的分享
宝玉的分享 · 2026-04-28T00:00:00Z

2024年,混合专家(MoE)架构成为大模型的主流,开源项目如Mixtral和DeepSeek推动了其发展。MoE通过减少激活参数显著降低计算成本,同时提升模型表达能力,适合算力充裕的场景。关键技术包括细粒度专家、共享专家和改进的负载均衡策略。未来,MoE将向更大规模和动态专家数发展。

【大模型基础设施工程】08:MoE 训练工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
大语言模型微调实用指南

大语言模型(LLM)微调是通过在特定任务数据集上继续训练预训练模型,以提高其在特定领域的表现。微调比从头开始训练更高效,允许组织定制模型行为,缩短生产时间。选择合适的微调方法可以降低计算成本和过拟合风险,适用于需要深度行为改变的任务。

大语言模型微调实用指南

Databricks
Databricks · 2026-04-21T12:35:01Z
推理速度提升3倍,多伦多大学等提出dnaHNet,基因组学习计算成本降低近4倍

dnaHNet模型是一种新型基因组学习模型,通过动态分块机制自我学习序列结构,显著提升了计算效率和表达能力。在变异效应预测和基因必需性分类等任务中表现优异,计算成本降低3.89倍,为基因组解析提供了新思路。

推理速度提升3倍,多伦多大学等提出dnaHNet,基因组学习计算成本降低近4倍

HyperAI超神经
HyperAI超神经 · 2026-04-20T07:12:26Z
Claude提示词缓存完全指南:92%命中率案例与成本优化秘籍

本文探讨了Claude模型中的提示词缓存技术,强调静态前缀与动态后缀的分离如何降低计算成本。通过缓存,Claude实现了92%的命中率和81%的费用节省,避免了重复计算。文章提出三条规则以保持缓存有效性,并建议在设计提示词时将静态内容放在顶部,动态内容放在底部,以优化性能。

Claude提示词缓存完全指南:92%命中率案例与成本优化秘籍

极道
极道 · 2026-04-17T00:19:00Z
五种高效的长上下文检索增强生成技术

本文介绍了五种高效的长上下文检索增强生成(RAG)技术,旨在解决注意力限制和成本挑战。这些技术包括通过重新排序解决“中间丢失”问题、利用上下文缓存减少延迟和计算成本,以及结合元数据过滤和查询扩展提高相关性,从而构建可扩展且精准的RAG系统,确保模型关注最相关的信息。

五种高效的长上下文检索增强生成技术

MachineLearningMastery.com
MachineLearningMastery.com · 2026-04-15T12:00:40Z
自反取证增强生成解析:自我反思检索如何提升人工智能输出

自反取证增强生成(self-RAG)将自我反思引入大型语言模型,使其能够评估输出并改进结果。与传统的取证增强生成(RAG)相比,self-RAG通过迭代检索和自我评估提高了准确性,解决了幻觉和低质量检索的问题。该方法适用于高准确度的问答系统和复杂查询,但面临计算成本和系统复杂性等挑战。

自反取证增强生成解析:自我反思检索如何提升人工智能输出

meilisearch blog
meilisearch blog · 2026-03-31T00:00:00Z
打破密集瓶颈:Voyage-4-large如何利用混合专家(MoE)进行扩展

本文介绍了Voyage AI在嵌入模型扩展方面的研究,特别是通过混合专家(MoE)架构提高效率。Voyage-4-large模型实现了75%的参数减少,同时保持检索准确率,显著降低计算成本和延迟。MoE模型通过优化设计有效解耦知识容量与计算成本。

打破密集瓶颈:Voyage-4-large如何利用混合专家(MoE)进行扩展

Voyage AI
Voyage AI · 2026-03-03T22:26:12Z
NVIDIA推出Earth-2开放模型系列——全球首个完全开放、加速的人工智能天气模型和工具集

准确的天气预报对生命和环境保护至关重要。Brightband等公司利用NVIDIA Earth-2模型进行全球天气预测,提升决策效率。以色列气象局和TotalEnergies等也在应用这些模型,显著提高预测精度并降低计算成本。

NVIDIA推出Earth-2开放模型系列——全球首个完全开放、加速的人工智能天气模型和工具集

NVIDIA Blog
NVIDIA Blog · 2026-01-26T14:00:53Z
准确率达 97%!普林斯顿大学等提出 MOFSeq-LMM,高效预测MOFs能否被合成

金属有机框架(MOFs)在气体存储和催化领域具有潜力,但设计空间庞大且实验效率低。研究团队提出了一种基于机器学习的模型,利用大语言模型预测MOFs的自由能,显著降低计算成本,合成可行性判定准确率达到97%。该方法为MOFs的高通量筛选提供了新思路。

准确率达 97%!普林斯顿大学等提出 MOFSeq-LMM,高效预测MOFs能否被合成

HyperAI超神经
HyperAI超神经 · 2026-01-15T08:38:30Z
计算成本减半,化学反应发现工具ChemOntology将人类直觉「编码」到系统中,加速反应路径搜索

化学反应机理研究通过反应路径搜索揭示物质转化规律。传统方法因预设路径限制,可能遗漏新机理。日本团队开发的ChemOntology系统结合化学知识与自动化计算,显著提高路径搜索效率,降低计算成本,并验证了其在复杂反应中的有效性,推动了理论与工业应用的结合。

计算成本减半,化学反应发现工具ChemOntology将人类直觉「编码」到系统中,加速反应路径搜索

HyperAI超神经
HyperAI超神经 · 2025-12-24T06:43:38Z
Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作):消除推理阶段的计算开销,让π0.6完成箱子装配与咖啡制作

自2023年大模型兴起以来,博客影响力迅速增长,吸引了国内外博士生的关注。PI公司提出的训练时实时分块(training-time RTC)方法,通过模拟推理延迟,显著降低计算成本并提升机器人任务执行性能。该方法无需修改模型架构,仅需少量代码实现,已在实际任务中验证有效性。

Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作):消除推理阶段的计算开销,让π0.6完成箱子装配与咖啡制作

结构之法 算法之道
结构之法 算法之道 · 2025-12-13T14:52:40Z
使小型语言模型能够解决复杂推理任务

麻省理工学院的研究人员开发了“DisCIPL”框架,通过结合大型语言模型与小型模型,提高了文本生成和推理任务的效率与准确性,降低了计算成本,为未来的数学推理和模糊偏好处理奠定了基础。

使小型语言模型能够解决复杂推理任务

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2025-12-12T20:30:00Z

蚂蚁集团赵俊博在MEET2026大会上介绍了扩散模型的优势,指出其可直接修改token,从而提升生成速度和降低计算成本。他们开源了LLaDA 2.0,首次实现千亿参数的扩散语言模型,引发行业关注。

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

量子位
量子位 · 2025-12-12T04:38:27Z
大型语言模型生成优化与成本降低的提示压缩

本文介绍了五种提示压缩技术,以减少大型语言模型(LLM)的令牌数量,提升生成速度和任务质量。这些技术包括语义摘要、结构化提示、相关性过滤、指令引用和模板抽象,旨在提高模型效率和一致性,降低计算成本。

大型语言模型生成优化与成本降低的提示压缩

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-01T14:08:17Z
Nishant Lakshmikanth在QCon旧金山会议上分享LinkedIn为服务数十亿用户的迁移之旅

在2025年QCon旧金山会议上,LinkedIn工程经理Nishant Lakshmikanth介绍了推荐系统的重构过程,成功实现实时个性化和高效运营。通过四个阶段的架构迁移,LinkedIn从批处理转向动态执行,显著降低了计算和存储成本,同时提升了用户互动和连接率。

Nishant Lakshmikanth在QCon旧金山会议上分享LinkedIn为服务数十亿用户的迁移之旅

InfoQ
InfoQ · 2025-11-26T10:30:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码