本研究提出了一种新的多项式组合激活函数(PolyCom),旨在优化Transformer的动态特性。通过理论分析和实证实验,PolyCom以更少的参数实现最佳逼近率,显著提升大型语言模型的表现和收敛速度。
完成下面两步后,将自动完成登录并继续当前操作。