BriefGPT - AI 论文速递 ·

LM-Infinite：大语言模型的简易即时长度泛化

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

本文介绍了使用上下文长度外推方法扩展现代大型语言模型在评估时处理输入序列长度的研究。通过调研和新设计，发现线性标度是最佳方法，并可进一步提高效果。同时，发现截断基础中存在有希望的推测能力。为了支持进一步研究，发布了三个新的参数长上下文模型，并提供了复制结果的代码。

🎯

关键要点

现代大型语言模型通常使用固定的上下文长度进行训练，限制了评估时处理的输入序列长度。
采用上下文长度外推方法可以在训练时间上下文长度之外使用较长序列。
本文对现有的上下文长度外推方法进行了广泛调研，并介绍了新的设计，特别是截断策略。
使用三个新的评估任务和困惑度进行测试，并将任务作为公共数据集发布在 HuggingFace 上。
发现线性标度是扩展上下文长度的最佳方法，使用更长的标度可以获得进一步收益。
在截断基础中发现有希望的推测能力。
发布了三个新的 13B 参数长上下文模型，名为 Giraffe，包括 4k、16k 和 32k 上下文模型。
提供了复制结果的代码以支持进一步研究。

🏷️

继续阅读

2026 06 05 HackerNews
特德·姜批评将人工智能拟人化，指出大型语言模型（LLM）并不具备意识或情感。加州大学伯克利分校因学生过度依赖AI，计算机科学课程的不及格率显著上升。美国政...
自主代理面临的最大挑战：数据库。
大型语言模型正在从简单的聊天机器人发展为能够推理和行动的自主代理，但数据库优化的复杂性仍是主要挑战。卡内基梅隆大学的安迪·帕夫洛指出，AI在数据库领域的影...
Christophe Pettus: All Your GUCs in a Row: data_checksums
A read-only preset, like block_size — SHOW data_checksums tells you whether t...
[MAF预定义ChatClient中间件-03]CachingChatClient——利用缓存省钱省时间 - Artech
CachingChatClient是一个中间件，用于缓存LLM调用结果，减少重复调用的时间和费用。它通过检查缓存返回相同输入的响应，若不存在则调用LLM并...
HostKVM香港优化线路 VPS 限时 8 折：4GB 内存/2 核/40G SSD 仅需 $9.6/月
HostKVM推出香港VPS夏季特惠，所有线路享受8折优惠，针对内地客户优化，具备低延迟和高带宽性价比，支持信用卡和支付宝等多种支付方式。
别把 Go 写成 Java：毁掉项目从过度架构开始
本文探讨了Go语言开发中的过度架构问题，强调应避免复杂的目录结构和不必要的抽象。建议采用扁平化的项目结构，按业务能力划分包，减少内部依赖，保持代码简单易懂...

LM-Infinite：大语言模型的简易即时长度泛化

内容提要

关键要点

标签

继续阅读