量子位 ·

从Token到词元：全模态时代的基模与交互入口

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

国家数据局首次确认“词元”为Token的标准译名，标志着AI技术向全模态发展。模思智能通过语音切入，推动统一Token结构，提升情境理解能力，已成为国内领先的全模态模型公司。

🎯

关键要点

国家数据局首次确认“词元”为Token的标准译名，标志着AI技术向全模态发展。
模思智能通过语音切入，推动统一Token结构，提升情境理解能力，已成为国内领先的全模态模型公司。
Token的生成与消耗方式正在从离散文本走向连续感知，影响下一代AI系统的能力与成本结构。
模思智能选择从语音切入，利用音频的高信息密度与连续输入流，推动情境智能的发展。
模思智能的技术路线包括SpeechGPT和SpeechTokenizer，首次实现语音与文本的统一Token映射。
模思智能已成为国内少数完成“全模态基座模型能力闭环”的初创公司。
模思智能的核心团队具备从0到N的全栈能力，支持技术路径的快速发展。
模思智能强调从基座模型到垂直应用的一体化能力构建，推动技术与商业双轮驱动。
未来模型能力的差距将取决于架构创新、系统组织方式及顶尖人才密度，而非单纯的参数规模或算力投入。

❓

延伸问答

什么是“词元”，它与Token有什么关系？

“词元”是Token的标准译名，标志着AI技术向全模态发展。

模思智能是如何推动全模态模型发展的？

模思智能通过语音切入，推动统一Token结构，提升情境理解能力，成为国内领先的全模态模型公司。

Token的生成与消耗方式发生了怎样的变化？

Token的生成与消耗方式正在从离散文本走向连续感知，影响下一代AI系统的能力与成本结构。

模思智能的核心团队具备哪些能力？

模思智能的核心团队具备从0到N的全栈能力，支持技术路径的快速发展。

模思智能的SpeechGPT和SpeechTokenizer有什么创新？

SpeechGPT首次实现语音与文本的统一Token映射，而SpeechTokenizer则融合语义Token与声学Token，推动音频离散化编码。

未来AI模型能力的差距将取决于什么？

未来模型能力的差距将取决于架构创新、系统组织方式及顶尖人才密度，而非单纯的参数规模或算力投入。

🏷️

继续阅读

进入全宇宙：NVIDIA GTC展示虚拟世界助力物理AI时代
NVIDIA在GTC展示了物理AI的新进展，包括新模型和蓝图，推动机器人、车辆和工厂智能化。Omniverse DSX蓝图统一了AI工厂的模拟，优化性能。...
宣布Kubescape 4.0：企业级稳定性迎接AI时代
Kubescape 4.0发布，增强Kubernetes安全性，提供企业级稳定性和威胁检测。新版本支持AI代理扫描集群，简化节点扫描，提升安全性，并引入K...
情感人工智能的崛起：为什么 AI 伴侣正在成为下一代交互界面
技术在连接与隔离人之间的矛盾愈发明显。尽管社交平台和AI伴侣的兴起，孤独感却在加剧。AI伴侣不仅是工具，还是人际交往的增强器，帮助用户练习沟通和情感表达。...
微软调整Windows NT内核使用超过20年的签名信任政策可能会产生兼容性问题
微软将于4月起停止信任旧版驱动程序，仅允许WHCP签名的驱动，以提升Windows 11的稳定性和安全性。这一政策可能导致老旧硬件无法使用，但微软将提供豁...
这也能加倍收费？X/Twitter突然将X Pro(原TweetDeck)设置为X Premium+专享
X/Twitter 将原本免费的 X Pro（前身为 TweetDeck）改为每月 40 美元的 X Premium+ 订阅，未提前通知用户。此变更主要影...
Claude Code配额消耗速度比以前更快？A社承认已经调整配额分配方式
Anthropic 承认 Claude Code 在工作日高峰期配额消耗加快，约 7% 的用户会更快触发限制。自 3 月 23 日起，用户反映配额消耗过快...