研究者探讨了世界模型代理(WAM)在测试阶段是否需要显式未来想象,提出了Fast-WAM架构,训练时保留视频共训练,推理时跳过未来预测。结果显示,视频预测主要在训练阶段提升模型性能,而非在推理阶段生成未来观测。
DeepSeek 提交的论文探讨了自我原则批评调整(SPCT)在通用奖励模型中的应用,显著提升了推理阶段的可扩展性和奖励模型的质量,超越了现有方法。DeepSeek-GRM-27B 模型在多个基准测试中表现优异,展现出更高的多样性和准确性。
本研究利用Intel CPU的高级矩阵扩展(AMX)和非结构稀疏性,解决了大语言模型在推理阶段的内存限制和解码速度慢的问题,实现了1.42倍的延迟减少,并提供了开源稀疏内核方案,提升了大语言模型在常规计算平台上的可访问性。
本论文提出了一种高效的Transformer架构,通过渐进重参数化批归一化和简化线性注意力的方法,在推理阶段提高效率。该方法在多个基准测试中展示了强大的性能,特别适用于图像分类和物体检测任务。
完成下面两步后,将自动完成登录并继续当前操作。