DeepSeek免费福利限时开启,AI界的“薅羊毛”机会来了! 作者:京东科技 张新磊。 该方法通过选择性移除不重要的tokens,保留信息量大的tokens,从而提升模型性能。提出了两种从分布角度解决沙漏现象的方法,确认其存在及对模型性能的影响,为未来优化奠定基础。 ai deepseek tokens 优化 分布角度 模型性能 沙漏现象