小红花·文摘

《2024 中国开源开发者报告》分析了大模型基础设施的未来趋势，指出推理算力需求上升对大模型应用的影响。报告提出通过存换算和全系统异构协同推理来平衡效果、效率与成本，以促进大模型的广泛应用。

推理中心化：构建未来AI基础设施的关键

dotNET跨平台 ·

本研究提出了MoE$^2$框架，旨在优化边缘大型语言模型的协同推理，解决推理性能挑战。该方法在能量和延迟限制下实现专家选择的最佳权衡，表现优于现有基线。

MoE$^2$: Optimizing Collaborative Inference for Edge Large Language Models

BriefGPT - AI 论文速递 ·

该论文提出了基于边缘计算的DNN协同推理框架Edgent，旨在降低计算延迟，实现低延迟边缘智能处理。研究探讨了设备与边缘的联合优化，提出动态拆分计算模型和新的剪枝框架，以提高推理效率并降低能耗。实验结果表明，该框架显著减少了推理延迟和能耗，推动了边缘设备在AI推理中的应用。

动态拆分：一种能源意识推断的硬件-软件协同设计框架

BriefGPT - AI 论文速递 ·

本文提出了一种基于边缘计算的深度神经网络（DNN）协同推理框架Edgent，旨在降低计算延迟，实现低延迟的边缘智能处理。研究了在资源受限的边缘设备上优化DNN部署的方法，提出了能量感知的自适应AI应用设计，以节省能源并保持高准确率。同时，探讨了隐私保护的训练服务（PTaaS），为终端设备提供定制化的AI模型训练，确保数据隐私并减轻计算负担。

AdaPI: 边缘计算中促进 DNN 模型适应性的高效私密推理

BriefGPT - AI 论文速递 ·