量子位 ·

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

Qwen2.5-Turbo更新了百万token的上下文支持，推理速度提升4.3倍，能够快速处理长文本和代码，性能超越GPT-4o-mini，性价比高，受到广泛关注。

🎯

❓

Qwen2.5-Turbo支持的上下文长度为100万个token，相当于150万个汉字。

Qwen2.5-Turbo的推理速度提升了4.3倍。

Qwen2.5-Turbo的成本为0.3元/1M tokens。

Qwen2.5-Turbo在长文本任务中表现优异，RULER基准测试得分93.1分。

Qwen2.5-Turbo在短文本任务上表现不逊色于其他模型，且能处理更长的上下文。

Qwen2.5-Turbo的Demo可以在HuggingFace和魔搭社区体验。

🏷️

国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
生产就绪AI的九项检查清单
文章讨论了将AI原型转变为可靠生产系统的过程，强调构建“AI平台切片”的重要性。平台团队需解决基础设施、安全性和可观察性等问题，以确保AI服务的可靠性和可...
魔法战胜魔法：AI提示词还得AI写
文章探讨了AI提示词的写作，认为人类编写提示词效率低下，AI更擅长此事。人类与AI的交流是跨物种沟通，AI能更好理解自身语言习惯。提示词工程师的角色正在被...
解读OpenAI与微软的重置：为何AWS可能会占据优势
OpenAI与微软的合作关系经历波折，最近宣布与亚马逊云服务（AWS）建立新合作，允许OpenAI的模型在AWS上运行。这一变化使OpenAI能够在多个云...
Visual Studio 2026 18.6 Insiders 3 默认启用 TypeScript 7 Beta
Visual Studio 2026 18.6 Insiders 3 默认启用 TypeScript 7 Beta，提升了编译速度和减少了内存使用。大型项...
Anthropic的Claude Security从封闭预览中推出，扫描您的代码库以发现安全漏洞
Anthropic推出了Claude Security，这是一个用于扫描代码库安全漏洞的工具，现已进入Claude Enterprise客户的测试阶段。该...