17岁高中生陈广宇与Kimi团队提出的Attention Residuals技术,通过“旋转90度”改进注意力机制,提升模型训练效率25%。该论文引起马斯克和Karpathy的关注,展示了深度学习的新思路。
完成下面两步后,将自动完成登录并继续当前操作。