美团LongCat团队开源了LongCat-Audio-Codec,解决了语音大语言模型在Token化中的难题。该方案通过双Token并行提取、低延迟解码和超低比特率高保真设计,实现了高效音频处理,提升了语音理解与生成质量,降低了技术门槛,丰富了应用场景,推动了语音智能系统的发展。
Mistral AI 发布了开源音频模型 Voxtral,提供 24B 和 3B 两个版本,旨在解决语音智能市场的痛点。Voxtral 支持多语言和长文本处理,具备内置问答功能,性能优于现有开源模型,成本低,适合多种应用场景,推动语音交互普及。
Mistral AI发布了Voxtral音频模型,提供24B和3B两个版本,旨在解决语音智能市场的痛点。该模型支持多语言、长文本处理和问答功能,性能优于现有开源模型,成本低,适合多种应用场景,推动语音交互普及。
完成下面两步后,将自动完成登录并继续当前操作。