小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《多智能体语言系统的端到端通信优化》

研究者提出了DiffMAS框架,将多智能体系统的通信机制转变为可学习的隐式表示,实现了通信与推理的联合优化。该方法通过隐空间映射和高效的参数训练,提高了推理准确率,减少了通信开销,表明通信与推理应紧密结合。实验结果显示,DiffMAS在多个基准测试中表现优异,证明了通信协议可以被学习和优化。

一分钟读论文:《多智能体语言系统的端到端通信优化》

Micropaper
Micropaper · 2026-04-27T00:00:00Z

本文探讨了长上下文模型的工程挑战与解决方案,包括位置编码、注意力计算复杂度、训练策略和推理优化。随着上下文长度增加,模型面临计算复杂度和显存限制。采用RoPE、YaRN等技术扩展位置编码,并结合线性注意力和稀疏注意力优化计算效率。在训练方面,采用短预训练与长继续预训练相结合的策略,推理时利用前缀缓存和KV压缩等技术提高效率。

【大模型基础设施工程】16:长上下文工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
英特尔发布 OpenVINO 2026.1,新增 Llama.cpp 后端支持和硬件支持

英特尔发布了OpenVINO工具包的2026.1版本,新增对Qwen3 VL模型和GPT-OSS 120B的支持,优化了跨Intel CPU、GPU和NPU的推理,支持Wildcat Lake SoC和Intel Arc Pro B70显卡。

英特尔发布 OpenVINO 2026.1,新增 Llama.cpp 后端支持和硬件支持

实时互动网
实时互动网 · 2026-04-09T01:52:28Z
视频生成推理加速实践:基于 torch.compile 的整图编译优化

视频生成模型的推理优化应从算子级转向计算图级,以提升整体执行效率。Self-Forcing模型采用逐块生成策略,降低计算复杂度。通过torch.compile实现整图编译,消除Graph Break,最终实现约47.6%的加速效果。

视频生成推理加速实践:基于 torch.compile 的整图编译优化

实时互动网
实时互动网 · 2026-01-28T07:51:08Z
明日开播!从前沿动态到实战经验,vLLM 推理优化实战 Meetup 定档 10 月 25 日

10月25日,上海浦东将举办vLLM推理优化实战Meetup,邀请行业专家分享前沿技术与经验,活动包括技术分享、QA互动、开源集市和抽奖,名额有限,欢迎报名参与。

明日开播!从前沿动态到实战经验,vLLM 推理优化实战 Meetup 定档 10 月 25 日

HyperAI超神经
HyperAI超神经 · 2025-10-24T06:58:18Z
可验证过程奖励在提升大模型推理效率中的探索与实践

DeepSeek-R1模型通过可验证的过程奖励机制(VSRM)优化推理,减少冗余回复,提高效率。实验表明,VSRM有效抑制无效步骤,鼓励有效步骤,保持模型性能,解决过度思考问题。

可验证过程奖励在提升大模型推理效率中的探索与实践

美团技术团队
美团技术团队 · 2025-10-10T00:00:00Z
wavlm-large模型onnx和mnn版本的导出与使用

WavLM模型在音频处理中的优化包括简化推理过程、ONNX导出和MNN转换,有效解决了模型体积大和推理速度慢的问题。优化后,推理代码减少至60行,模型体积显著减小,便于在资源受限环境中部署。

wavlm-large模型onnx和mnn版本的导出与使用

Yunfeng's Simple Blog
Yunfeng's Simple Blog · 2025-08-23T08:43:20Z

PaddleMIX推出Fast-Diffusers工具箱,通过模型蒸馏和推理优化,将推理速度提升超过2倍。FLUX-Lightning模型实现4步快速生成,效果超越现有模型,结合CINN技术,推理时间缩短至1.66秒。未来将继续优化推理效率,推动扩散模型的应用。

PaddleMIX推出扩散模型推理加速Fast-Diffusers:自研蒸馏加速方法FLUX-Lightning实现4步图像生成

百度大脑
百度大脑 · 2025-07-30T12:58:45Z

Mamba核心作者Tri Dao提出了两种新注意力机制GTA和GLA,旨在优化推理,解码速度和吞吐量提升2倍,同时减少内存使用,保持模型性能,解决长上下文推理中的内存和计算瓶颈问题。

Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

量子位
量子位 · 2025-06-01T04:51:34Z
传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?

当前大模型面临数据稀缺问题,传统预训练模式难以持续。OpenAI创始人指出预训练将结束,研究将转向推理优化与后训练微调。新框架SICOG通过合成数据和自我进化机制提升模型能力,打破数据依赖,实现动态学习与持续优化,为未来人工智能发展提供新路径。

传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?

机器之心
机器之心 · 2025-04-11T14:49:20Z
三思而后行,让大模型推理更强的秘密是「THINK TWICE」?

近年来,大语言模型的推理优化受到关注。a-m-team提出的“再想一轮”策略通过多轮思考显著提升模型性能,无需额外训练,改善了表达风格和准确性,为模型优化提供了新思路。

三思而后行,让大模型推理更强的秘密是「THINK TWICE」?

机器之心
机器之心 · 2025-04-05T09:10:13Z

本研究提出了一种先进的多深度神经网络模型调度策略(ADMS),旨在优化移动设备上的多DNN推理。该策略通过离线构建最优子图划分,实现硬件支持与调度平衡,并根据实时条件动态调整工作负载,显著提高处理器利用率和性能。实验结果表明,ADMS在推理延迟上比传统框架减少了4.04倍。

Optimizing Multi-DNN Inference on Mobile Devices through Heterogeneous Processor Co-Execution

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z

本文提出了一种元推理器框架,旨在优化大语言模型的推理时间和计算开销。该框架基于人类元认知理论,通过动态推理优化机制,灵活评估推理进展并选择最佳策略,从而提高推理效率,适用于推理密集型任务。

Meta-Reasoner: Dynamic Guidance for Optimizing Inference Time in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

本文提供了成为大型语言模型(LLM)工程师的学习路线图,分为基础知识和高级技能两部分。基础知识包括机器学习、深度学习和自然语言处理的基本概念,掌握LLM API、向量数据库和检索增强生成(RAG)技术。高级技能则深入RAG和LLM评估,优化推理过程,以应对实际挑战。

成为大型语言模型(LLM)工程师的终极学习路线图

KDnuggets
KDnuggets · 2025-01-20T17:00:43Z

本研究提出LaTent推理优化框架(LaTRO),旨在解决大型语言模型在多步骤复杂推理任务中的不足。通过变分方法优化推理过程,实验证明LaTRO显著提升了推理准确率。

Language Models as Implicit Reasoners: Unlocking Potential Reasoning Abilities through Self-Reinforcement

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本文探讨了在6G边缘部署大型语言模型的潜力,分析了多模态语言模型的应用及架构。研究提出了边缘训练和推理技术,以提高模型性能和资源利用效率,并通过新框架和算法优化推理过程,解决成本与性能的平衡问题,提升边缘设备上模型的效率和准确性。

CE-CoLLM:通过云-边缘协作实现高效和自适应的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本文探讨了大型语言模型(LLM)在推理和内存管理中的优化方法,提出了SqueezeLLM量化框架和动态内存压缩(DMC),实现了高效的推理性能和内存节省。同时,研究提出了NACL框架和GemFilter算法,显著提高了长文本处理的效率,减少了内存使用,提升了吞吐量,为未来LLM的发展提供了新方向。

Locret:通过训练保留头增强长上下文LLM推断中的驱逐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本研究评估了TPU在神经网络推理中的优势,显示其速度比CPU和GPU快15-30倍,能效显著提升。文章介绍了多种推理优化技术,如DeepSpeed Inference、FastCoT和ExFlow,以提高推理速度和吞吐量,降低延迟。Helix系统通过优化模型放置和请求调度,显著提升了服务吞吐量并降低延迟。

Kraken:高效多设备推理的内在并行转换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-14T00:00:00Z

PAI-Blade是PAI推出的通用推理优化工具,可以通过模型系统联合优化,使模型达到最优推理性能。PAI-Blade依托于完全动态尺寸的AI编译器BladeDISC和基于深度学习自动调度的高性能计算库BlaDNN,为包括图像生成模型Stable Diffusion在内的众多模型提供自动的高性能推理优化。使用PAI-Blade优化Stable Diffusion具有高性能、完全动态shape支持和易用性、可扩展性三点优势。文章还介绍了PAI-Blade在社区流行的Text2Img pipeline中的使用方法,并给出了A100和A10的性能对比和推理结果验证。最后,文章展望了PAI-Blade团队未来的工作方向。

使用 PAI-Blade 优化 Stable Diffusion 推理流程

阿里云云栖号
阿里云云栖号 · 2023-05-26T09:40:18Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码