上海交大张拳石:思维链只是表象,DeepSeek凭什么更强 | 智者访谈

上海交大张拳石:思维链只是表象,DeepSeek凭什么更强 | 智者访谈

💡 原文中文,约14300字,阅读约需34分钟。
📝

内容提要

张拳石教授探讨了AI模型的可解释性,特别是DeepSeek-R1模型的思维链是否真实反映其推理机制。他提出了“等效与或交互”理论,通过数学符号化解释神经网络的表征逻辑,强调在高风险领域(如医疗、法律)中理解AI决策机制的重要性。

🎯

关键要点

  • 张拳石教授探讨AI模型的可解释性,特别是DeepSeek-R1模型的思维链是否真实反映其推理机制。
  • 提出“等效与或交互”理论,通过数学符号化解释神经网络的表征逻辑。
  • 强调在高风险领域(如医疗、法律)中理解AI决策机制的重要性。
  • 思维链展示的过程是否代表模型的内在推理机制存在疑问。
  • 思维链的作用在于提供对大模型处理信息的窗口,但其严谨性仍需探讨。
  • 张教授认为思维链与传统生成语言模型没有本质区别,仍是对人类问答数据的经验性拟合。
  • 可解释性领域有两类算法:迎合人类认知的解释和数学上对神经网络的客观解释。
  • 提出的“等效与或交互”理论可以用符号化的“与或图模型”解释神经网络的内在表征逻辑。
  • 该理论具有无限拟合性和稀疏性,适用于多种神经网络模型。
  • 强调神经网络的泛化性和鲁棒性与交互的阶数有关,低阶交互对抗敏感度较低。
  • 提出评估大模型时应关注潜在风险,而不仅仅是端到端的正确率。
  • 张教授认为AI的欺骗行为是数学问题,强调机器的透明性和可分析性。
  • 可解释性研究应构建人工智能的第二套系统,以获得真正的可靠性。
  • 强调需要新的评测体系来准确评价大模型的性能,避免依赖传统的正确性测试。
  • 张教授建议年轻学者关注共性问题,选择具有数学建模潜力的研究方向。

延伸问答

DeepSeek-R1模型的思维链是否真实反映其推理机制?

思维链的展示并不一定代表模型的内在推理机制,张教授认为它与传统生成语言模型没有本质区别,仍是对人类问答数据的经验性拟合。

张拳石教授提出的“等效与或交互”理论有什么重要性?

该理论通过数学符号化解释神经网络的内在表征逻辑,强调理解泛化性和鲁棒性的重要性,适用于多种神经网络模型。

在高风险领域中,理解AI决策机制的重要性是什么?

在医疗、法律等高风险领域,理解AI的决策机制至关重要,以确保决策的可靠性和安全性,避免潜在的风险。

可解释性研究中存在哪些算法类型?

可解释性研究中有两类算法:一类是迎合人类认知的解释,另一类是从数学上对神经网络进行客观解释。

张教授对AI欺骗行为的看法是什么?

张教授认为AI的欺骗行为是一个数学问题,强调机器的透明性和可分析性,认为可以通过技术手段深入分析其内在逻辑。

如何评估大模型的性能?

评估大模型时应关注潜在风险,而不仅仅是端到端的正确率,需建立新的评测体系以准确评价模型性能。

➡️

继续阅读