BriefGPT - AI 论文速递 ·

Hard-Synth：使用零样本TTS和LLM合成多样化的困难样本以增强自动语音识别

💡 原文中文，约700字，阅读约需2分钟。

📝

内容提要

本研究提出了Hard-Synth方法，利用大语言模型生成文本，并结合零样本文本到语音技术，解决了自动语音识别系统在文本数据稀缺时的标记成本问题。实验结果表明，该方法显著提升了Conformer模型的表现，降低了词错误率，提高了数据效率。

🎯

🏷️

LLMs 改变语音合规性，超越通话录音
语音合规性已不再局限于基本的录音和关键词警报。成熟的 AI 工具现在不仅能帮助企业存储对话内容，还能帮助他们理解对话内容。多年来，合规团队一直依赖人工核...
Microsoft Three-Layer LLM Routing Architecture for AI Agents on AKS
Microsoft has released a reference architecture for routing agent traffic on ...
Agent Presence：开源实时语音框架 Qwen-Audio-Agent 来了
Qwen-Audio-Agent 位于用户和后台 Agent 之间。用户面对的是一个实时语音前台。简单问题可以即时回答；复杂任务会交给后台 Agent。
Soracom 推出 Air RTC 网关，根据 SIM 卡身份将物联网设备的语音呼叫路由至联络中心、VoIP 服务提供商和 AI 代理
2026年7月28日，Soracom, Inc. 是一家为物联网提供连接、云集成和 AI 服务的云原生物联网平台，该公司宣布推出 Soracom Air ...
DXC 和 ElevenLabs 宣布建立战略合作伙伴关系，以扩大企业 AI 和语音创新规模
2026年7月28日，企业技术和创新合作伙伴 DXC Technology 宣布与专注于音频模型和语音代理的 AI 公司 ElevenLabs 建立战略合...
Krafton开源语音AI基础模型“A.X K2 Raon-Speech”，发力游戏角色语音交互
Krafton宣布在全球AI平台Hugging Face开源语音AI基础模型“A.X K2 Raon-Speech”。该模型结合SK Telecom的小型...