BriefGPT - AI 论文速递 ·

扩容 Granite 代码模型至 128K 上下文

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

本文介绍了支持高达32,768个令牌的长上下文LLMs，通过预训练和上采样长文本数据集构建。模型在语言模型、合成上下文探索任务和研究基准上取得了改进，并在长上下文任务上相对于Llama 2有显著提升。通过指令调整过程，70B变体在长上下文任务中超过了gpt-3.5-turbo-16k的整体性能。对模型的各个组成部分进行了深入分析。

🎯

关键要点

介绍了一系列支持高达32,768个令牌的长上下文LLMs。
模型系列基于Llama 2的持续预训练，使用更长的训练序列和上采样长文本数据集。
在语言模型、合成上下文探索任务和研究基准上进行了广泛评估，取得了一致的改进。
在长上下文任务上，相对于Llama 2有显著提升。
70B变体通过高效的指令调整过程，超越了gpt-3.5-turbo-16k的整体性能。
对模型各组成部分进行了深入分析，研究了Llama的位置信息编码及其局限性。
探讨了预训练过程中设计选择的影响，消融实验表明长文本数据集并非强大性能的关键。
验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

🏷️

继续阅读

上下文是2026年AI编码的真正瓶颈
Walk into any engineering leadership meeting today, and someone will question...
PyCharm+ CodeArts Doer代码智能体深度实践：MaaS英语情景学习助手的优化改造
本案例将基于PyCharm + CodeArts Doer搭建CodeArts代码智能体，使用AgentMode模式解析MaaS英语情景学习助手应用，并对...
具身智能资源汇总：机器人学习数据集，在线体验世界建模模型，英伟达/字节/小米等最新研究论文
本文系统整理了一批具身智能相关的高质量数据集、在线教程、论文，为进一步学习和研究提供参考，欢迎前往 hyper.ai 探索更多优质资源！
微软发布 VibeVoice-ASR：一种统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频
微软推出了VibeVoice-ASR，一个开源的语音转文本模型，支持最长60分钟的音频处理，输出结构化文本，包括“谁”、“何时”、“什么”。该模型允许用户...
AI辅助开发的主厨模型
随着AI编码助手的发展，开发者的角色正在转变为管理AI，专注于设计和质量控制。开发者需要掌握反馈循环、任务委派和模块化设计等新技能，以提高效率。同时，AI...
TikTok新所有者对你的信息流意味着什么
TikTok is officially under new ownership in the US, and that could spell big ...

扩容 Granite 代码模型至 128K 上下文

内容提要

关键要点

标签

继续阅读