BriefGPT - AI 论文速递 ·

LongQLoRA：扩展大型语言模型上下文长度的高效有效方法

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

该文章介绍了支持高达32,768个令牌的长上下文LLMs，通过持续预训练构建模型系列，并在多个任务和基准测试中进行了评估。70B变体已经超过了gpt-3.5-turbo-16k在一套长上下文任务中的整体性能。同时，文章还对Llama的位置编码进行了深入研究，并讨论了预训练过程中各种设计选择的影响。

🎯

关键要点

介绍了一系列支持高达32,768个令牌的长上下文LLMs。
模型系列通过持续预训练构建，基于Llama 2，使用长训练序列和长文本数据集。
在语言模型、合成上下文探索任务和研究基准上进行了广泛评估。
模型在大多数常规任务上取得一致改进，在长上下文任务上相对于Llama 2显著提升。
70B变体在长上下文任务中超过了gpt-3.5-turbo-16k的整体性能。
深入研究了Llama的位置编码及其在建模长依赖性方面的局限性。
探讨了预训练过程中设计选择的影响，包括数据混合和序列长度的训练课程。
消融实验表明，长文本在预训练数据集中并不是达到强大性能的关键。
验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

🏷️

标签

LLMs 位置编码大型语言模型性能模型系列预训练

➡️

继续阅读

RoboTTT——面向机器人策略的上下文扩展：将TTT集成至VLA中以推理时建立记忆信息，从而将视觉-运动上下文扩展到 8K 个时间步
摘要：本文提出RoboTTT方法，通过将测试时训练（TTT）机制整合到机器人基础模型中，实现了8K时间步的长视觉-运动上下文建模。该方法采用快速权重机制，...
基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法
COMPASS 首次将这一架构引入癌症转录组分析领域，通过利用免疫相关基因集，并建立：基因（gene）→ 基因集（gene set）→ 概念（concep...
Wolves, sheep, and gypsies
In 2012, the first Danish wolf in nearly two hundred years was discovered in ...
13 Google tips for a fun, productive summer off from college
Illustration of a woman in front of a computer, a phone searching an image of...
Issue #744: CPython ABI, CLAUDE.md, Itertools Cheatsheet, and More (2026-07-21)
#744 – JULY 21, 2026 View in Browser » What Every Dev Should Know About t...
Announcing the Public Preview of Discover and Domains, powered by Unity Catalog
Today, we're announcing the Public Preview of Domains and the Discover pa...