Claude ·

模型发布背后：客户在早期测试Claude Opus 4.6时发现了什么

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

在新Claude模型发布前，少数客户提前测试并评估其性能，反馈直接影响最终版本。测试显示模型在多个任务上表现优异且更具自主性，坦诚的反馈帮助Anthropic改进模型，客户与开发者共同塑造未来工具。

🎯

🔎

在Claude Opus 4.6的测试过程中，客户的反馈不仅影响模型的最终版本，还帮助开发者理解模型的实际应用效果。通过定量和定性的评估，客户与开发者之间的合作关系得以增强，确保模型在发布前能够满足用户需求。

不同团队在测试Claude Opus 4.6时采用了各自独特的方法，例如法律团队使用真实案例进行评估，而工程师则通过构建应用程序进行“氛围检查”。这种多样化的测试方式有助于全面了解模型的优缺点，从而为后续改进提供更有价值的数据支持。

测试结果显示，Claude Opus 4.6在自主性方面有显著提升，能够更好地理解用户需求并主动提供解决方案。这种变化不仅提高了工作效率，也改变了用户与模型的互动方式，使其更像是一个合作伙伴而非单纯的工具。

❓

客户发现Claude Opus 4.6在多个任务上表现优异，尤其是在法律和编程任务中超出预期，显示出更强的自主性。

测试团队通过定量评估和定性反应相结合的方法，使用基准测试和复杂任务评估来获取结构化数据，同时进行“氛围检查”。

客户的反馈直接影响了最终版本的改进，帮助Anthropic识别问题并进行迭代。

不同团队采用了各自的测试方法，如bolt.new创建专用Slack频道，Harvey的团队引入法律专家进行法律任务测试，Shopify的工程师进行迭代规划。

Claude Opus 4.6在法律任务中表现出色，Harvey的团队在BigLaw Bench测试中获得了90.2%的高分。

客户与开发者之间的合作关系不断增强，客户的反馈被重视并用于模型的改进，形成了更紧密的合作伙伴关系。

🏷️