本文介绍了ServerlessLLM,一种用于大型语言模型的本地化服务器推理系统。ServerlessLLM通过加载优化检查点格式设计和多层检查点加载系统实现快速检查点加载,以及本地化的推理和实时迁移,有效实现本地化的服务器分配。实验结果表明,ServerlessLLM的延迟性能超过了现有技术系统10-200倍。
本论文提出了一种基于自适应学习的任务卸载算法,利用邻近车辆的卸载延迟性能进行学习,并能够适应动态环境。实验结果表明,该算法使任务卸载延迟性能更优,平均延迟降低了高达30%。
完成下面两步后,将自动完成登录并继续当前操作。