量子位 ·

从Token到词元：全模态时代的基模与交互入口

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

国家数据局首次确认“词元”为Token的标准译名，标志着AI技术向全模态发展。模思智能通过语音切入，推动统一Token结构，提升情境理解能力，已成为国内领先的全模态模型公司。

🎯

🔎

国家数据局确认“词元”为Token的标准译名，标志着AI技术的规范化进程。这一变化不仅影响了行业术语的统一，也可能推动相关技术的标准化与应用，促进多模态AI系统的快速发展。

模思智能选择从语音切入，推动统一Token结构，展现出其在全模态领域的创新能力。随着市场竞争从单一模型能力转向交互与情境理解能力，模思智能的技术路线可能成为行业新标杆。

随着Token生成方式的转变，未来AI系统将更注重情境理解与连续输入流的处理能力。模思智能的全模态模型架构为这一趋势提供了基础，可能在未来的智能交互中占据重要地位。

❓

“词元”是Token的标准译名，标志着AI技术向全模态发展。

模思智能通过语音切入，推动统一Token结构，提升情境理解能力，成为国内领先的全模态模型公司。

Token的生成与消耗方式正在从离散文本走向连续感知，影响下一代AI系统的能力与成本结构。

模思智能的技术路线包括SpeechGPT和SpeechTokenizer，实现语音与文本的统一Token映射。

模思智能通过将Token视为情境的基本信号，推动情境智能的发展，使AI能够进行自适应交互。

未来模型能力的差距将取决于架构创新、系统组织方式及顶尖人才密度，而非单纯的参数规模或算力投入。

🏷️