中兴Nebula小模型为手机提供AI助手功能,支持“一句话点餐”等操作,准确率超过90%。该技术通过自研数据系统提升数据质量,未来将扩展至更多APP,推动手机智能化发展。
Thinking Machine的新研究提出了一种名为在线策略蒸馏的方法,结合强化学习与微调,显著提高小模型的训练效率,减少训练步骤50-100倍,适合资源有限的个人和小公司。同时,该方法有效解决了AI的“灾难性遗忘”问题,支持模型的终身学习。
斯坦福团队的AgentFlow系统通过在线强化学习优化智能体,显著提升推理能力,超越GPT-4o等大型模型。该系统由四个专业智能体协作,实时优化决策,尤其在知识检索和智能体任务中提升超过14%,展示了模块化设计和动态学习的重要性。
NVIDIA推出了轻量级大语言模型Nemotron-Nano-9B-v2,结合Mamba和Transformer技术,支持128K超长上下文,推理能力强,适合小型设备。该模型在准确率和吞吐量上优于同规模的开源模型,标志着轻量化部署的突破。
英伟达推出了新型小型语言模型Nemotron Nano v2,参数为90亿,速度比Qwen3快6倍,准确率相当。该模型在20万亿token上预训练,并开源大部分数据集,支持复杂推理和思考预算控制。
英伟达研究显示,小模型在Agent任务中更具经济性和灵活性,能够有效替代大模型。通过优化硬件资源和任务设计,小模型降低了计算成本,适合本地部署。尽管面临基础设施适配和市场认知度低的挑战,小模型在特定任务中展现出良好潜力。
王冠开发的27M小模型HRM采用仿脑设计,克服了Transformer的局限性。通过分层循环模块和近似梯度技术,HRM实现了高效推理,准确率超过大型模型。尽管参数较少,HRM在特定任务中表现优异,展现出新架构的潜力。
香港大学、字节跳动Seed和复旦大学联合推出的Polaris方法,通过700步强化学习训练,使4B模型在数学推理能力上超越多款商业大模型,特别是在长文本生成方面表现突出。该方法强调动态调整训练数据和超参数,提升了模型的多样性和准确性。
本文探讨了NVIDIA的小模型(SLM)在AI代理中的未来,认为SLM在性能、经济性和适应性方面优于大模型(LLM),能够高效处理特定任务,降低成本并提高灵活性。未来AI架构将从“大模型单体”转向“小模型微服务”,实现更高效的系统设计。
Sanaka AI提出了一种新方法,使教师模型能够像人类教师一样进行启发式教学,训练出7B小模型在推理能力上超越671B的DeepSeek-R1。该方法通过逐步解释提高了教学效率,并显著降低了训练成本。
GRA框架通过小模型协作生成高质量数据,性能接近大模型。实验表明,GRA生成的数据在多个任务中优于传统方法,提升了数据的多样性和质量,展现了小模型的集体智能潜力。
阿里通义实验室推出MaskSearch框架,提升大模型推理与搜索能力。小模型表现接近大模型,兼容监督微调和强化学习,显著提升开放域问答性能。通过检索增强型掩码预测任务,模型有效学习信息处理与搜索引擎使用,适应多领域任务。
小米发布了MiMo-VL-7B视觉语言模型技术报告,展示其在多模态任务中的优异表现,尤其是在复杂推理和GUI交互方面。该模型采用三模块架构,经过四阶段预训练,并结合混合强化学习,显著提升了推理深度和用户体验。开源生态包括完整权重和评测框架,为开源社区树立了新标杆。
Qwen3家族技术报告介绍了其双模式架构,支持推理和非推理任务,采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力,并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段,强化语言理解、推理能力和长文本处理,最终实现思考与非思考模式的无缝融合,增强多场景下的能力与稳定性。
字节Seed首次开源代码模型Seed-Coder,参数8B,超越Qwen3。该模型通过自我生成和筛选高质量训练数据,提升代码生成能力,支持89种编程语言,包含约1万亿个独特token,采用MIT开源协议。
DeepSeek推出的Prover-V2模型专注于数学定理证明,刷新多项基准测试记录。该7B模型成功解决了671B模型未能解决的问题,展现出独特的推理模式。Prover-V2结合强化学习与子目标分解,提升了形式化与非形式化证明的能力,标志着数学领域的重要进展。
完成下面两步后,将自动完成登录并继续当前操作。