BriefGPT - AI 论文速递 ·

LongLoRA: 长文本大语言模型的高效微调

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

本文介绍了一种用于训练现代大型语言模型的不断增长的上下文长度外推方法，并测试了三个新的评估任务。作者发现线性标度是扩展上下文长度的最佳方法，并且使用更长的标度可以获得进一步的收益。作者还发布了三个新的长上下文模型，并提供了复制结果的代码。

🎯

关键要点

现代大型语言模型通常使用固定的上下文长度进行训练，限制了输入序列的长度。
采用不断增长的上下文长度外推方法可以在训练时间上下文长度之外使用模型。
本文对现有的上下文长度外推方法进行了广泛调研，并介绍了一些新的设计。
使用三个新的评估任务（FreeFormQA，AlteredNumericQA 和 LongChat-Lines）以及困惑度进行了测试。
线性标度被发现是扩展上下文长度的最佳方法，使用更长的标度可以获得进一步的收益。
在截断基础中存在有希望的推测能力。
发布了三个新的13B参数长上下文模型，名为Giraffe，包括4k、16k和32k上下文模型。
提供了复制结果的代码以支持进一步的研究。

🏷️

继续阅读

Ubuntu 计划为所有文本字段添加 AI 语音输入功能
Ubuntu 26.10 将推出语音输入功能，用户可以通过说话代替打字。该功能由 AI 语言解析模型支持，旨在提升可访问性和便利性。此外，Canonica...
Free CPU教程丨西湖大学张岳团队开源科研插图神器AutoFigure，可精准理解长篇科学文本
西湖大学的张岳团队推出了智能科研插图生成系统AutoFigure，旨在解决高质量科研插图的生成难题。该系统基于长篇科学文本，确保插图的逻辑结构准确且视觉美...
今年最值得升级的生产力工具，可能是一整张 AI 工位
文章讨论了在AI工具普及背景下，如何有效利用这些工具提升工作效率。推荐使用Gemini和Kimi进行信息搜索，飞书与Obsidian进行知识管理，以及Pl...
mingling - 基于过程宏的命令行框架
我开发了一个命令行框架mingling，利用过程宏减少样板代码，提高命令行开发效率。该框架已在crates.io发布，版本为0.1.9，欢迎大家讨论和使用。
Modulate 为企业用户扩展 Velma 平台，引入原生语音实时对话智能
Modulate于2026年6月3日发布了Velma模型，允许开发者实时理解语音对话中的情绪和意图。该API超越传统语音转文本，提供实时监控和分析，帮助企...
规模化架构：如何将视频会议从单服务器扩展到高可用系统
视频会议的扩展面临挑战，需分三个阶段进行架构设计：单节点阶段适合初期验证，水平扩展阶段需分离媒体处理与编排，以确保高可用性并消除单点故障。通过智能放置和自...

LongLoRA: 长文本大语言模型的高效微调

内容提要

关键要点

标签

继续阅读