本文介绍了一个基于TorchTitan和vLLM的开源强化学习框架,强调训练和推理过程中的位一致性。研究表明,确保数值一致性可以提高模型的训练效率和奖励。未来将致力于统一模型定义、编译支持,并扩展到其他模型,以实现更广泛的位一致性。
本研究提出了BioVFM-21M数据集,涵盖多种生物医学图像,探讨模型扩展对任务性能的影响。BioVFM模型在12个医学基准测试中超越了现有最佳模型。
DeepSeek-V3采用MoE架构,通过256个路由专家和1个共享专家实现高效扩展,动态路由提升处理效率,使模型在计算成本不显著增加的情况下具备强大能力。
本文研究了神经比例定律在自然语言处理中的应用,探讨了模型扩展对核心能力的影响。研究发现,减少模型大小会显著降低事实回忆能力,但对上下文处理影响较小。同时,提出了计算最优的扩展策略,显著提高了模型在复杂提示上的表现,并强调了利用中间检查点提高预测准确性的重要性。
当前多模态和多任务模型如4M和UnifiedIO在处理多样输入和任务上有局限。本文通过在多模态和大规模数据集上训练,扩展了4M的能力。我们使用语义、几何模态和伪标签等进行训练,引入新模态提升交互和生成能力,并扩展到三十亿参数模型,保持性能。
本文介绍了多种基于Transformer的模型扩展方法,如SLED、PEGASUS-X和Unlimiformer,旨在高效处理长输入序列,尤其在长文本摘要任务中表现优异。这些模型无需大量参数或并行训练,同时研究了无位置编码(NoPE)在长度泛化中的应用,并提出了改进方法以提升性能。这些创新为自然语言处理领域提供了新的解决方案。
本文探讨了神经网络在以查询为中心的自动文摘中的应用,并提出了两种模型扩展。这些方法在QMSum数据集上取得了最先进的性能,并通过人类评估实现了更全面和基于事实的自动文摘。
大语言模型(LLMs)代表了人工通用智能的重大进展。本技术报告基于之前的Tele-FLM(FLM-2)工作,探讨了监督微调(SFT)的观察结果和模型扩展的最佳实践。开源一个1T模型检查点,即Tele-FLM-1T,以推动进一步的培训和研究。
本文介绍了一种新的方法,通过将大型语言模型(LLM)表示与人类认知信号进行桥接,评估LLM在模拟认知语言处理方面的有效性。实验结果表明,模型扩展与LLM-脑信号相似性呈正相关,对齐训练可以显著提高LLM-脑信号相似性。
本文提出了一种新的方法,通过将大型语言模型(LLM)与人类认知信号进行桥接,评估LLM在模拟认知语言处理方面的有效性。实验结果表明,模型扩展与LLM-脑信号相似性呈正相关,对齐训练可以显著提高LLM-脑信号相似性。
完成下面两步后,将自动完成登录并继续当前操作。