本研究提出了一种新方法,解决了离散因素化行动空间中组合行动集大的挑战。通过对Q函数的降维投影分析,确保了Q函数的无偏性,并引入了行动分解的强化学习框架,显著提升了样本效率。
研究表明,大模型中的「超权重」对性能至关重要,去掉一个「超权重」的影响比去掉7000个离群值更大。研究团队提出了一种新方法,通过检测层间降维投影中的峰值来识别「超权重」,并改进量化技术以保持模型性能。实验结果显示,「超权重」显著影响输出token的生成概率,尤其是语义词汇的预测。
完成下面两步后,将自动完成登录并继续当前操作。