《2024 中国开源开发者报告》分析了大模型基础设施的未来趋势,指出推理算力需求上升对大模型应用的影响。报告提出通过存换算和全系统异构协同推理来平衡效果、效率与成本,以促进大模型的广泛应用。
本研究提出了MoE$^2$框架,旨在优化边缘大型语言模型的协同推理,解决推理性能挑战。该方法在能量和延迟限制下实现专家选择的最佳权衡,表现优于现有基线。
该论文提出了基于边缘计算的DNN协同推理框架Edgent,旨在降低计算延迟,实现低延迟边缘智能处理。研究探讨了设备与边缘的联合优化,提出动态拆分计算模型和新的剪枝框架,以提高推理效率并降低能耗。实验结果表明,该框架显著减少了推理延迟和能耗,推动了边缘设备在AI推理中的应用。
本文提出了一种基于边缘计算的深度神经网络(DNN)协同推理框架Edgent,旨在降低计算延迟,实现低延迟的边缘智能处理。研究了在资源受限的边缘设备上优化DNN部署的方法,提出了能量感知的自适应AI应用设计,以节省能源并保持高准确率。同时,探讨了隐私保护的训练服务(PTaaS),为终端设备提供定制化的AI模型训练,确保数据隐私并减轻计算负担。
完成下面两步后,将自动完成登录并继续当前操作。