InfoQ ·

英特尔DeepMath推出智能架构，提高大型语言模型的数学能力

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

英特尔推出了DeepMath，一个基于Qwen3-Thinking的轻量级数学问题解决代理。它通过生成小型Python脚本来增强数学推理，减少错误和输出长度。DeepMath在多个数据集上表现优异，使用GRPO训练提高准确性，并在沙箱环境中安全执行代码。该工具已在GitHub和Hugging Face上发布。

🎯

关键要点

英特尔推出了DeepMath，一个基于Qwen3-Thinking的轻量级数学问题解决代理。
DeepMath通过生成小型Python脚本来增强数学推理，减少错误和输出长度。
该工具在多个数据集上表现优异，使用GRPO训练提高准确性。
DeepMath在沙箱环境中安全执行代码，限制模块和访问权限。
GRPO训练引入了对正确答案和生成代码片段的奖励，鼓励生成更短的答案。
使用Python执行器可以减少算术和数值错误，降低输出长度。
DeepMath已在GitHub和Hugging Face上发布。

🔎

延伸解读

DeepMath的创新架构

DeepMath通过生成小型Python脚本来增强数学推理能力，这一创新架构有效解决了大型语言模型在数学问题上的常见局限性。与传统的文本输出相比，Python执行器能够减少错误并缩短输出长度，从而提高了整体准确性。

GRPO训练的优势

DeepMath采用GRPO训练方法，通过对正确答案和生成代码片段的奖励，鼓励模型生成更短的答案。这种训练方式不仅提升了模型的数学推理能力，还促进了在初期探索阶段的多样性，随着模型的成熟逐渐减少探索性。

安全性与部署注意事项

DeepMath在沙箱环境中执行代码，确保安全性。然而，在生产环境中，管理攻击面、执行速率限制和资源监控等措施至关重要。开发者需谨慎验证生成的代码，以防止潜在的安全风险。

❓

延伸问答

DeepMath是什么？

DeepMath是英特尔推出的一个轻量级数学问题解决代理，基于Qwen3-Thinking架构。

DeepMath如何提高数学推理能力？

DeepMath通过生成小型Python脚本来增强数学推理，减少错误和输出长度。

GRPO训练在DeepMath中有什么作用？

GRPO训练引入了对正确答案和生成代码片段的奖励，鼓励生成更短的答案，并提高准确性。

DeepMath在多个数据集上的表现如何？

DeepMath在MATH500、AIME、HMMT和HLE等四个数据集上表现优异，输出长度减少了66%，并提高了准确性。

DeepMath的代码执行环境是怎样的？

DeepMath在沙箱环境中安全执行代码，限制模块和访问权限，确保安全性。

DeepMath在哪里可以找到？

DeepMath已在GitHub和Hugging Face上发布。

🏷️