语言模型是否合理?连贯规范和信念修订案例
📝
内容提要
透過研究特定的理性准則:协调准则,探讨机器学习模型,特别是语言模型是否适用于理性准則。研究中引入了最小同意连接和对置信度的新定义,以统一地确定模型内部下一个标记概率的置信度。研究发现,理性准则对某些语言模型适用,但对其他模型则不适用。这一问题与预测和解释行为紧密相关,因此与 AI 安全、模型行为的理解紧密相联。
🏷️
标签
➡️