量子位 ·

文心X1.1发布！这三大能力突出，一手实测在此

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

百度发布的文心X1.1模型在事实性、指令遵循和智能体能力上有显著提升，支持复杂任务的自动拆分和工具调用，逻辑推理和事实检验表现优异。同时，开源ERNIE-4.5-21B-A3B-Thinking模型，提供全栈开发工具链，助力开发者创新应用。

🎯

🔎

文心X1.1在事实性、指令遵循和智能体能力上显著提升，尤其在复杂任务的自动拆分和工具调用方面表现突出。这使得其在智能客服等应用场景中，能够更高效地处理用户请求，提升用户体验。

百度开源ERNIE-4.5-21B-A3B-Thinking模型及相关工具链，旨在降低开发者的使用门槛。这一举措不仅促进了开源生态的发展，也为开发者提供了更多创新的可能性，推动AI技术的实际应用。

文心X1.1在官方评测中超越了DeepSeek R1-0528，并接近GPT-5和Gemini 2.5 Pro。这表明文心X1.1在市场竞争中具备较强的实力，尤其是在逻辑推理和事实检验等关键能力上，展现出领先优势。

❓

文心X1.1在事实性提升34.8%，指令遵循提升12.5%，智能体能力提升9.6%。

文心X1.1能够自动拆分复杂任务，并调用不同工具逐步规划执行，严格遵循服务流程和业务规则。

该模型在内容创作、逻辑推理、数学计算等任务中表现卓越，推理速度比X1.1更快，性价比高。

文心X1.1能够成功解决复杂的逻辑推理问题，并给出正确的解决方案。

飞桨v3.2在计算、并行策略和容错能力上进行了优化，提升了训练和推理性能。

文心X1.1通过知识一致性验证强化学习，持续比对模型的知识体系，提升输出内容的事实性准确率。

🏷️