量子位 ·

Qwen3家族训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏带动小模型

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

Qwen3家族技术报告介绍了其双模式架构，支持推理和非推理任务，采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力，并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段，强化语言理解、推理能力和长文本处理，最终实现思考与非思考模式的无缝融合，增强多场景下的能力与稳定性。

🎯

🏷️

具身智能资源汇总：机器人学习数据集，在线体验世界建模模型，英伟达/字节/小米等最新研究论文
本文系统整理了一批具身智能相关的高质量数据集、在线教程、论文，为进一步学习和研究提供参考，欢迎前往 hyper.ai 探索更多优质资源！
微软发布 VibeVoice-ASR：一种统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频
微软推出了VibeVoice-ASR，一个开源的语音转文本模型，支持最长60分钟的音频处理，输出结构化文本，包括“谁”、“何时”、“什么”。该模型允许用户...
AI辅助开发的主厨模型
随着AI编码助手的发展，开发者的角色正在转变为管理AI，专注于设计和质量控制。开发者需要掌握反馈循环、任务委派和模块化设计等新技能，以提高效率。同时，AI...
Adobe正在为娱乐行业开发“知识产权安全”的生成AI模型
Adobe正在开发Firefly Foundry生成AI工具，旨在满足影视制作需求并确保知识产权安全。该工具与多家影视公司合作，生成可用于视频和3D图形的...
Giving your healthcare info to a chatbot is, unsurprisingly, a terrible idea
Every week, more than 230 million people ask ChatGPT for health and wellness ...
More security tools are slowing down your incident response
Time plays a crucial role in an organization’s defense posture, including the...