Blog on Qwen ·

Extending Context Length to One Million Tokens!

💡 原文英文，约1700词，阅读约需7分钟。

📝

内容提要

Qwen2.5-Turbo新版本支持1M tokens的上下文，显著提升了处理长序列的能力，准确率达到100%。推理速度提高4.3倍，价格保持不变。该模型在长文本任务中表现优异，超越GPT-4，短文本任务性能也未受影响。未来将继续优化长序列处理能力。

🎯

🔎

Qwen2.5-Turbo的1M tokens上下文支持使其在处理长文本任务时表现出色，尤其适用于需要深入理解的场景，如长篇小说分析和复杂文档处理。这种能力的提升为内容创作、学术研究和技术文档编写等领域提供了更高效的解决方案。

通过稀疏注意力机制，Qwen2.5-Turbo在处理1M tokens时的推理速度提高了4.3倍，这意味着用户可以在更短的时间内获得结果。这一进步对于需要快速反馈的应用场景，如实时对话系统和在线问答平台，具有重要的实用价值。

尽管Qwen2.5-Turbo在长文本处理上表现优异，但其在短文本任务中的性能同样值得关注。模型在扩展上下文长度的同时，确保短文本任务的能力未受影响，这对于需要同时处理多种文本类型的应用场景尤为重要。

❓

Qwen2.5-Turbo支持1M tokens的上下文。

Qwen2.5-Turbo在长文本任务中表现优异，超越了GPT-4，RULER基准测试得分为93.1分。

推理速度提高了4.3倍，处理1M tokens的首字返回时间从4.9分钟降低到68秒。

Qwen2.5-Turbo的价格为0.3元/1M tokens。

在短文本任务中，Qwen2.5-Turbo的性能未受影响，仍与GPT-4o-mini持平。

未来将继续优化长序列处理能力，解决模型在实际长序列任务中的不稳定表现。

🏷️