小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
沉浸式翻译 immersive translate

中兴Nebula小模型为手机提供AI助手功能,支持“一句话点餐”等操作,准确率超过90%。该技术通过自研数据系统提升数据质量,未来将扩展至更多APP,推动手机智能化发展。

聚焦手机AI“超级入口”,中兴Nebula小模型让手机秒变“小秘”?

量子位
量子位 · 2025-11-04T06:36:07Z

Thinking Machine的新研究提出了一种名为在线策略蒸馏的方法,结合强化学习与微调,显著提高小模型的训练效率,减少训练步骤50-100倍,适合资源有限的个人和小公司。同时,该方法有效解决了AI的“灾难性遗忘”问题,支持模型的终身学习。

Thinking Machine新研究刷屏!结合RL+微调,小模型训练更具性价比

量子位
量子位 · 2025-10-28T01:32:17Z

斯坦福团队的AgentFlow系统通过在线强化学习优化智能体,显著提升推理能力,超越GPT-4o等大型模型。该系统由四个专业智能体协作,实时优化决策,尤其在知识检索和智能体任务中提升超过14%,展示了模块化设计和动态学习的重要性。

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

量子位
量子位 · 2025-10-24T04:16:56Z

港科大 X MiniMax:高质量数据、小模型挑战复杂网络搜索难题

机器之心
机器之心 · 2025-09-12T08:54:19Z

NVIDIA推出了轻量级大语言模型Nemotron-Nano-9B-v2,结合Mamba和Transformer技术,支持128K超长上下文,推理能力强,适合小型设备。该模型在准确率和吞吐量上优于同规模的开源模型,标志着轻量化部署的突破。

在线教程丨英伟达力推小模型,小而精的Nemotron-Nano-9B-v2比Qwen3快6倍

HyperAI超神经
HyperAI超神经 · 2025-08-29T03:35:54Z

英伟达推出了新型小型语言模型Nemotron Nano v2,参数为90亿,速度比Qwen3快6倍,准确率相当。该模型在20万亿token上预训练,并开源大部分数据集,支持复杂推理和思考预算控制。

英伟达开源9B参数小模型,比Qwen3快6倍

量子位
量子位 · 2025-08-19T06:46:12Z

英伟达研究显示,小模型在Agent任务中更具经济性和灵活性,能够有效替代大模型。通过优化硬件资源和任务设计,小模型降低了计算成本,适合本地部署。尽管面临基础设施适配和市场认知度低的挑战,小模型在特定任务中展现出良好潜力。

英伟达新研究:小模型才是智能体的未来

量子位
量子位 · 2025-08-19T00:13:05Z

王冠开发的27M小模型HRM采用仿脑设计,克服了Transformer的局限性。通过分层循环模块和近似梯度技术,HRM实现了高效推理,准确率超过大型模型。尽管参数较少,HRM在特定任务中表现优异,展现出新架构的潜力。

又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同

量子位
量子位 · 2025-08-10T05:34:26Z

手机也能跑,腾讯混元一口气开源4款小模型

机器之心
机器之心 · 2025-08-04T12:15:41Z

香港大学、字节跳动Seed和复旦大学联合推出的Polaris方法,通过700步强化学习训练,使4B模型在数学推理能力上超越多款商业大模型,特别是在长文本生成方面表现突出。该方法强调动态调整训练数据和超参数,提升了模型的多样性和准确性。

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

量子位
量子位 · 2025-07-09T06:58:32Z

本文探讨了NVIDIA的小模型(SLM)在AI代理中的未来,认为SLM在性能、经济性和适应性方面优于大模型(LLM),能够高效处理特定任务,降低成本并提高灵活性。未来AI架构将从“大模型单体”转向“小模型微服务”,实现更高效的系统设计。

NVIDIA 的颠覆性观点:AI Agent 的未来,属于小模型 (SLM)

Tony Bai
Tony Bai · 2025-07-04T14:02:13Z

Sanaka AI提出了一种新方法,使教师模型能够像人类教师一样进行启发式教学,训练出7B小模型在推理能力上超越671B的DeepSeek-R1。该方法通过逐步解释提高了教学效率,并显著降低了训练成本。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

量子位
量子位 · 2025-06-25T06:23:22Z

GRA框架通过小模型协作生成高质量数据,性能接近大模型。实验表明,GRA生成的数据在多个任务中优于传统方法,提升了数据的多样性和质量,展现了小模型的集体智能潜力。

不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B

量子位
量子位 · 2025-06-17T08:43:42Z

英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

机器之心
机器之心 · 2025-06-04T04:56:32Z

阿里通义实验室推出MaskSearch框架,提升大模型推理与搜索能力。小模型表现接近大模型,兼容监督微调和强化学习,显著提升开放域问答性能。通过检索增强型掩码预测任务,模型有效学习信息处理与搜索引擎使用,适应多领域任务。

阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升

量子位
量子位 · 2025-05-31T04:07:36Z
解密小米MiMo-VL:7B小模型如何实现多模态SOTA性能

小米发布了MiMo-VL-7B视觉语言模型技术报告,展示其在多模态任务中的优异表现,尤其是在复杂推理和GUI交互方面。该模型采用三模块架构,经过四阶段预训练,并结合混合强化学习,显著提升了推理深度和用户体验。开源生态包括完整权重和评测框架,为开源社区树立了新标杆。

解密小米MiMo-VL:7B小模型如何实现多模态SOTA性能

我爱自然语言处理
我爱自然语言处理 · 2025-05-30T07:13:14Z

Qwen3家族技术报告介绍了其双模式架构,支持推理和非推理任务,采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力,并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段,强化语言理解、推理能力和长文本处理,最终实现思考与非思考模式的无缝融合,增强多场景下的能力与稳定性。

Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型

量子位
量子位 · 2025-05-14T07:34:16Z

字节Seed首次开源代码模型Seed-Coder,参数8B,超越Qwen3。该模型通过自我生成和筛选高质量训练数据,提升代码生成能力,支持89种编程语言,包含约1万亿个独特token,采用MIT开源协议。

字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式

量子位
量子位 · 2025-05-11T04:41:16Z

DeepSeek推出的Prover-V2模型专注于数学定理证明,刷新多项基准测试记录。该7B模型成功解决了671B模型未能解决的问题,展现出独特的推理模式。Prover-V2结合强化学习与子目标分解,提升了形式化与非形式化证明的能力,标志着数学领域的重要进展。

DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能

量子位
量子位 · 2025-05-01T05:10:55Z

只花9美元,推理能力暴涨20%!小模型Tina震撼登场,成本缩减260倍

机器之心
机器之心 · 2025-04-30T05:07:13Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码