BriefGPT - AI 论文速递 ·

通过在分段序列上训练扩展语言模型的输入上下文

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

该文介绍了一种用于训练现代大型语言模型的上下文长度外推方法，以处理更长的输入序列。作者测试了三个新的评估任务，并发现线性标度是扩展上下文长度的最佳方法。作者还发布了三个新的长上下文模型，名为Giraffe，并提供了复制结果的代码。

🎯

关键要点

现代大型语言模型（LLMs）通常使用固定的上下文长度进行训练，限制了输入序列的长度。
提出了一种上下文长度外推方法，以处理更长的输入序列。
对现有的上下文长度外推方法进行了广泛调研，并介绍了新的设计。
使用三个新的评估任务（FreeFormQA，AlteredNumericQA 和 LongChat-Lines）进行测试，并发布在 HuggingFace 上。
发现线性标度是扩展上下文长度的最佳方法，使用更长的标度可以获得进一步的收益。
发布了三个新的长上下文模型，名为 Giraffe，包括 4k、16k 和 32k 上下文模型。
提供了复制结果的代码，以支持进一步的研究。

🏷️

继续阅读

使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
在Vibe编码时代使OWASP前十名更具影响力
2025年OWASP前十名更新将重点从“过时组件”转向软件供应链安全，新增内存安全和“vibe编码”意识项，反映了开发者和网络应用安全领域对关键安全风险的共识。
Mavrix在劳德代尔堡设立美国新总部
Mavrix在佛罗里达州劳德代尔堡设立美国总部，标志着其拓展北美市场的重要一步。该公司专注于数据采集和调研，预计2026年同比增长超过25%。新总部将推动...
与TorchRec KeyedJaggedTensor的同步
推荐系统中的稀疏特征用于建模用户偏好和物品特性，但存在输入数据长度不一和内存浪费的问题。TorchRec的KeyedJaggedTensor通过合并稀疏特...
SuperX首个美国AI推理云中心在丹佛投入运营
(全球TMT 2026年06月05日讯)全栈式AI基础设施解决方案提供商SuperX AI Technolog […]

通过在分段序列上训练扩展语言模型的输入上下文

内容提要

关键要点

标签

继续阅读