小红花·文摘 - 小红花技术领袖俱乐部

ChatGPT升级的语音模式更擅长保持安静

ChatGPT升级的语音模式更擅长保持安静

The Verge ·

推出GPT-Live

推出GPT-Live

OpenAI ·

OpenAI将GPT-5级推理引入其语音模型

OpenAI将GPT-5级推理引入其语音模型

The New Stack ·

xAI 发布 grok-voice-think-fast-1.0：τ-voice 基准测试成绩高达 67.3%，超越 Gemini、GPT Realtime 等

xAI 发布 grok-voice-think-fast-1.0：τ-voice 基准测试成绩高达 67.3%，超越 Gemini、GPT Realtime 等

实时互动网 ·

国产免费2B开源语音模型征服《莽撞人》！复刻郭德纲最难贯口

量子位 ·

ICASSP 2026｜迈向构建低资源语种的多任务语音理解模型

ICASSP 2026｜迈向构建低资源语种的多任务语音理解模型

实时互动网 ·

针对哪种模型的评估？语音模型评估的分类法

针对哪种模型的评估？语音模型评估的分类法

Apple Machine Learning Research ·

更流畅对话、更多语言支持！Nova 2 Sonic让构建语音应用更轻松

更流畅对话、更多语言支持！Nova 2 Sonic让构建语音应用更轻松

实时互动网 ·

美团开源LongCat-Audio-Codec，高效语音编解码器助力实时交互落地

美团开源LongCat-Audio-Codec，高效语音编解码器助力实时交互落地

美团技术团队 ·

刚刚，豆包连发多款大模型：让 DeepSeek更好用，音频版 Sora 惊艳全场

刚刚，豆包连发多款大模型：让 DeepSeek更好用，音频版 Sora 惊艳全场

爱范儿 ·

中科院发布可扩展模块化语音语言模型 LLaMA-Omni2，以最小的延迟进行实时对话

中科院发布可扩展模块化语音语言模型 LLaMA-Omni2，以最小的延迟进行实时对话

实时互动网 ·

本研究提出VITA-Audio，一种高效的大规模语音模型，解决了现有模型在流媒体生成首个音频令牌时的高延迟问题。通过引入轻量级的多模态交叉令牌预测模块，该模型显著提高了推理速度，具备实时对话能力，并在多个任务中表现优异。

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large-Scale Speech Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的自适应后训练量化算法StableQuant，显著优化了语音基础模型的量化性能。该算法将模型尺寸缩小至四分之一，并在8位量化下保持字错误率低于0.3%，同时提升推理速度。

StableQuant: Layer-wise Adaptive Post-Training Quantization for Speech Foundation Models

BriefGPT - AI 论文速递 ·

百度推出的端到端语音语言大模型，利用Cross-Attention技术将语音交互成本降低90%，提升响应速度和真实感。该模型结合语音识别与语言模型，解决了传统语音交互的痛点，推动了大模型在语音领域的应用。

语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%

量子位 ·

SELMA：用于虚拟助手交互的语音启用语言模型

SELMA：用于虚拟助手交互的语音启用语言模型

Apple Machine Learning Research ·

豆包语音模型升级后，在小说演播中表现优异，CMOS评分超过90%。新技术实现端到端合成，无需标签，提升音质和情感表达，适用于多种有声书，未来将继续探索更优质的听书体验。

AI说书媲美真人！豆包语音大模型升级长上下文理解

量子位 ·

2025年你绝对不能错过的30个热门GitHub仓库！

2025年你绝对不能错过的30个热门GitHub仓库！

DEV Community ·

解锁多语言语音：AI翻译模型的未来

解锁多语言语音：AI翻译模型的未来

DEV Community ·

本研究提出了LUCY，一个端到端的语音模型，旨在解决现有语音系统缺乏情感理解的问题。LUCY能够感知用户情感并自然回应，同时处理实时查询。实验结果显示，LUCY在情感控制和自然语言生成方面表现优异。

LUCY: Linguistic Understanding and Control Facilitating the Early Stages of 'Her'

BriefGPT - AI 论文速递 ·

本文提出了一种新颖的混合精度量化方法，旨在提高语音基础模型的量化效率。该方法结合了混合精度学习与模型参数估计，显著提升了压缩比，缩短了压缩时间，同时保持了单词错误率不变，展现了良好的实际应用前景。

Effective and Efficient Mixed-Precision Quantization of Speech Foundation Models

BriefGPT - AI 论文速递 ·