💡
原文中文,约2400字,阅读约需6分钟。
📝
内容提要
大模型在处理一些简单的问题上表现不佳,如无法正确数出单词中的某个字母。这是因为大模型在Tokenization(分词)时将单词分为多个token,导致难以准确计数。此外,大模型缺乏认知自我知识,即对自身知识和能力的认知,导致在某些领域表现出色,而在其他领域犯错。解决方案可能包括扩大规模和采用更复杂的方法。
🎯
关键要点
- 大模型在处理简单问题时表现不佳,如无法正确数出单词中的某个字母。
- Tokenization(分词)导致模型难以准确计数,因为单词被分为多个token。
- 大模型缺乏认知自我知识,无法意识到自身的知识和能力。
- 模型在某些领域表现出色,而在其他领域犯错,形成参差不齐的智能现象。
- Karpathy提出的Jagged Intelligence概念,强调模型智能的参差不齐与人类不同。
- 解决方案可能包括扩大模型规模和采用更复杂的方法。
- Karpathy推荐阅读Llama 3论文,提出让模型只回答它知道的问题的方法。
- 后训练应使模型知道它知道什么,而不是单纯增加知识。
- 在生产环境中,模型应只完成擅长的任务,不擅长的任务由人类接手。
➡️