机器之心 ·

阿里云通义开源长文本模型及推理框架，百万Tokens处理速度提升近7倍

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

阿里云推出开源Qwen2.5-1M模型，支持100万Tokens上下文，处理长文本任务超越GPT-4o-mini。该模型有7B和14B两种版本，推理速度提升近7倍，适合长篇小说和学术论文解析。开发者可在多个平台下载体验。

🎯

关键要点

阿里云推出开源Qwen2.5-1M模型，支持100万Tokens上下文。
Qwen2.5-1M模型有7B和14B两个版本，处理长文本任务超越GPT-4o-mini。
该模型适合长篇小说和学术论文解析，推理速度提升近7倍。
百万Tokens长文本相当于10本长篇小说或150小时演讲稿。
Qwen2.5-1M在复杂长上下文理解任务中表现优异，击败自家闭源模型和GPT-4o-mini。
通义团队通过多阶段训练和Dual Chunk Attention机制扩展上下文长度至1M。
推理速度通过稀疏注意力机制和其他创新改进显著提升。
Qwen2.5-1M已在多个平台开源，开发者可下载体验。
相关推理框架已在GitHub上开源，便于开发者部署模型。

❓

延伸问答

Qwen2.5-1M模型的主要特点是什么？

Qwen2.5-1M模型支持100万Tokens上下文，处理长文本任务超越GPT-4o-mini，推理速度提升近7倍。

Qwen2.5-1M模型适合哪些应用场景？

该模型适合长篇小说和学术论文解析，以及复杂长上下文的理解任务。

Qwen2.5-1M模型的推理速度提升是如何实现的？

推理速度通过稀疏注意力机制和其他创新改进显著提升，处理1M长度输入序列的速度提升了3.2倍到6.7倍。

Qwen2.5-1M模型的版本有哪些？

Qwen2.5-1M模型有7B和14B两个版本。

如何获取Qwen2.5-1M模型？

Qwen2.5-1M已在ModelScope和HuggingFace等平台开源，开发者可前往下载或体验模型。

Qwen2.5-1M模型的训练过程是怎样的？

模型通过逐步扩展长度的方法，从预训练到监督微调再到强化学习等多个阶段进行训练。

🏷️

继续阅读

阿里云 ESA 免费 CDN 教程：全球加速 + DDoS 防护，手把手续期至 2051 年
本文介绍了阿里云ESA的免费CDN使用教程，用户可申请免费版并设置续费规则，将有效期延长至2051年。操作步骤包括进入申请页面、选择免费版、管理套餐和设置...
标准智能：在像素空间中训练通用智能
标准智能公司正在探索通过视频数据训练通用智能代理的可能性。他们的模型分析计算机使用的原始视频数据，以预测鼠标移动和点击等操作。创始人Galen Mead和...
本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集
Privacy Filter 是 OpenAI 开源的双向标记分类模型，专门用于检测和屏蔽文本中的个人身份信息。该模型基于小型预训练架构，采用高效的片段解码方式。
LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
OpenAI的新安全模型仅面向‘关键网络防御者’
OpenAI即将推出新的网络安全模型GPT-5.5-Cyber，首批仅向“可信的网络防御者”发布。CEO萨姆·阿尔特曼表示，此次有限发布旨在增强机构的网络...
扬·维雷梅维奇：开源不会消亡，它只是缺乏资金支持。
开源软件不会消亡，但面临资金不足的问题。许多项目因缺乏资金支持而停滞，开发者需要寻找可持续的商业模式，以确保开源项目的长期发展。