八爪鱼 v2:面向超级特工的设备上语言模型
原文中文,约300字,阅读约需1分钟。发表于: 。我们的研究提出了一种新方法,通过使用 20 亿个参数的设备上模型,在准确率和延迟方面超越了 GPT-4,并将上下文长度减少了 95%。与基于 RAG 的函数调用机制 Llama-7B 相比,我们的方法将延迟提高了 35 倍,降低到适用于实际生产环境中各种边缘设备部署的水平,符合真实应用的性能要求。
近年来,AI领域取得了显著进展,特别是基于变压器架构的大型语言模型(LLMs)。一种创新的LLM推理方法被介绍,展望了未来数十亿参数的LLMs可以在移动设备上执行。该应用程序不仅作为通用助手,还可以实现文本到动作功能的无缝移动交互。该技术提供了强大的人工智能能力,同时保护用户隐私并消除延迟问题。