揭秘:GPT-4如何思考?
原文中文,约1700字,阅读约需4分钟。发表于: 。几周前,Anthropic宣布他们从 Claude 3 Sonnet 模型中提取了数百万个可理解的特征。今天,OpenAI 宣布了针对 GPT-4 的类似结果: 使用新的可扩展方法将 GPT-4 的内部表示分解为 1600 万个可经常解释的模式。 这些特征是“我们希望人类能够解释的活动模式”。发布内容包括 [代码] 和论文《稀疏自动编码器的扩展和评估》 (PDF),其中有九位作者,其中两位...
OpenAI宣布从GPT-4模型中提取了1600万个可解释的特征,这些特征是人类易于理解的活动模式。他们使用稀疏自动编码器的方法来识别神经网络中重要的特征。稀疏自动编码器的训练仍面临挑战,需要大量的特征来接近前沿模型中的概念全面覆盖。这项研究仍处于早期阶段,存在许多局限性,但可解释性有望提高模型的可信度和可操作性。