小红花·文摘

消除训练与推理不一致：基于vLLM和TorchTitan的位一致性在线强化学习

vLLM Blog ·

本研究提出了BioVFM-21M数据集，涵盖多种生物医学图像，探讨模型扩展对任务性能的影响。BioVFM模型在12个医学基准测试中超越了现有最佳模型。

BioVFM-21M: Benchmarking and Scaling Self-Supervised Vision Foundation Models in Biomedical Image Analysis

BriefGPT - AI 论文速递 ·

DeepSeek-V3采用MoE架构，通过256个路由专家和1个共享专家实现高效扩展，动态路由提升处理效率，使模型在计算成本不显著增加的情况下具备强大能力。

DeepSeek-V3 的 MoE 架构解析：细粒度专家与高效模型扩展 - 蝈蝈俊

蝈蝈俊 ·

本文研究了神经比例定律在自然语言处理中的应用，探讨了模型扩展对核心能力的影响。研究发现，减少模型大小会显著降低事实回忆能力，但对上下文处理影响较小。同时，提出了计算最优的扩展策略，显著提高了模型在复杂提示上的表现，并强调了利用中间检查点提高预测准确性的重要性。

推理缩放法则的简单模型

BriefGPT - AI 论文速递 ·

4M-21：面向多任务和多模态的任意到任意视觉模型

Apple Machine Learning Research ·

本文介绍了多种基于Transformer的模型扩展方法，如SLED、PEGASUS-X和Unlimiformer，旨在高效处理长输入序列，尤其在长文本摘要任务中表现优异。这些模型无需大量参数或并行训练，同时研究了无位置编码（NoPE）在长度泛化中的应用，并提出了改进方法以提升性能。这些创新为自然语言处理领域提供了新的解决方案。

无限制变换器在仅解码器变换器中的适应性研究

BriefGPT - AI 论文速递 ·

本文探讨了神经网络在以查询为中心的自动文摘中的应用，并提出了两种模型扩展。这些方法在QMSum数据集上取得了最先进的性能，并通过人类评估实现了更全面和基于事实的自动文摘。

利用无限且动态的特征描述大型语言模型的针对查询的摘要生成

BriefGPT - AI 论文速递 ·

大语言模型（LLMs）代表了人工通用智能的重大进展。本技术报告基于之前的Tele-FLM（FLM-2）工作，探讨了监督微调（SFT）的观察结果和模型扩展的最佳实践。开源一个1T模型检查点，即Tele-FLM-1T，以推动进一步的培训和研究。

52B 到 1T：通过远程 FLM 系列学到的经验教训

BriefGPT - AI 论文速递 ·

本文介绍了一种新的方法，通过将大型语言模型（LLM）表示与人类认知信号进行桥接，评估LLM在模拟认知语言处理方面的有效性。实验结果表明，模型扩展与LLM-脑信号相似性呈正相关，对齐训练可以显著提高LLM-脑信号相似性。

增强基于 SLM 的思维能力的认知增强

BriefGPT - AI 论文速递 ·

本文提出了一种新的方法，通过将大型语言模型（LLM）与人类认知信号进行桥接，评估LLM在模拟认知语言处理方面的有效性。实验结果表明，模型扩展与LLM-脑信号相似性呈正相关，对齐训练可以显著提高LLM-脑信号相似性。

大型语言模型是否反映认知语言处理？

BriefGPT - AI 论文速递 ·