Armin Ronacher's Thoughts and Writings ·

更好的模型：更差的工具

💡 原文英文，约2300词，阅读约需9分钟。

📝

内容提要

最近的Claude模型在调用Pi的编辑工具时出现了额外的虚构字段，导致工具调用失败。尽管编辑内容正确，但参数格式不符合预期。新模型在这方面的表现不如旧模型，可能是由于训练过程中对工具调用适应性差异所致。

🎯

🔎

尽管新一代Claude模型在许多方面表现出色，但在调用Pi的编辑工具时却出现了额外的虚构字段，导致工具调用失败。这表明新模型在处理复杂参数格式时的适应性较差，可能影响其在实际应用中的可靠性。

新模型的表现不佳可能与其训练过程中的适应性差异有关。与旧模型相比，新模型在工具调用方面的训练可能未能充分覆盖多样化的工具结构，这使得它们在面对不同工具时的表现不如预期。

启用严格模式可以显著减少模型在工具调用中的错误。这表明，模型在生成工具调用时的行为受到训练环境的影响，严格模式可能为模型提供了更清晰的参数结构，从而提高了调用的成功率。

❓

Claude模型在调用Pi的编辑工具时出现了额外的虚构字段，导致工具调用失败。

新模型在工具调用时的参数格式不符合预期，表现不如旧模型。

新模型在训练过程中对工具调用的适应性差异可能导致其产生虚构字段。

开启严格模式的工具调用可以减少错误的发生。

Opus 4.8和Sonnet 5在工具调用方面的表现不如旧模型，且出现了更多的错误。

模型可能会产生随机的虚构键，导致工具调用失败。

🏷️