结构之法算法之道 ·

大模型上下文长度的超强扩展：从LongLoRA到LongQLoRA(含源码剖析)

💡 原文中文，约6000字，阅读约需15分钟。

📝

内容提要

本文介绍了LongLora和LongQLora两种长文本处理技术，分别通过稀疏局部注意力和低秩矩阵自注意力机制来扩展模型上下文和减少可训练参数数量。这些技术在长文本处理方面表现出良好效果。

🎯

关键要点

本文介绍了LongLora和LongQLora两种长文本处理技术。
LongLora通过稀疏局部注意力实现模型微调，显著节省计算资源。
LongLora在embedding矩阵和归一化层上应用LoRA，效果更佳。
LoRA通过低秩分解更新预训练权重矩阵，减少可训练参数数量。
shifted sparse attention(S2-Attn)替代标准自注意力机制，降低计算复杂度。
S2-Attn将上下文长度分组计算注意力，确保信息流动。
LongAlpaca是使用LongLora技术的长指令遵循数据集。
LongQLora部分内容待更新。

🏷️

继续阅读

搜索速度提升3倍：使用Instructed-Retriever-1的并行测试时间扩展
Databricks发布了Agent Bricks知识助手的重大更新，显著提升了回答生成速度和搜索效率，搜索时间减少超过3倍，回答生成时间减少2倍。新模型...
原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...
Seoul Purpose: How NVIDIA and South Korea Are Building the Future of AI
Home to cutting-edge sovereign AI infrastructure and robotics innovators, as ...
eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...

大模型上下文长度的超强扩展：从LongLoRA到LongQLoRA(含源码剖析)

内容提要

关键要点

标签

继续阅读