小红花·文摘

S2R技术通过直接理解用户语音意图，避免了传统语音转录的局限，提升了搜索准确性和用户体验。该技术在多语言环境中表现优异，适用于智能助手和车载系统，推动了语音交互的包容性和人性化。

语音搜索的范式革命：Google S2R如何跳过“文字“这个中间商赚差价

dotNET跨平台 ·

S2R技术通过直接理解语音中的用户意图，避免了传统语音转录的局限，提升了语音搜索的准确性和用户体验。该技术在多语言环境中表现优异，适用于智能助手和车载系统，推动了人机交互的发展。

语音搜索的范式革命：Google S2R如何跳过“文字“这个中间商赚差价

dotNET跨平台 ·

从声音到句子：探究现代语音模型的工作原理

实时互动网 ·

推出 Amazon Nova Sonic：为生成式 AI 应用程序带来类似人类的语音对话体验

亚马逊AWS官方博客 ·

亚马逊新模型Nova Sonic，助力AI语音对话更自然

全球TMT-美通国际 ·

Step-Audio：首个可投入生产的开源智能语音交互框架

DEV Community ·

本研究提出了一种新方法，将自监督语音表示与大语言模型结合，以提升多模态处理和语音理解，显示出在保留语音语义内容方面的优势。

基于大语言模型的语音查询文本翻译：SparQLe

BriefGPT - AI 论文速递 ·

MinMo：约 8B 参数的多模态大型语言模型，实现无缝语音交互

实时互动网 ·

本研究推出了覆盖74种口语和美国手语的2M-BELEBELE数据集，填补了多语言语音和ASL理解数据集的空白。评估结果显示，语音理解的准确率比阅读理解低约8%。

2M-BELEBELE：高度多语言语音和美国手语理解数据集

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的无编码器全双工语音理解与生成框架SALMONN-omni，解决了传统对话AI系统组件分离的问题，并在语音识别和增强等任务中表现出色，推动了全双工对话AI系统的发展。

SALMONN-omni: An Encoder-Free Full-Duplex Speech Understanding and Generation Model

BriefGPT - AI 论文速递 ·

本研究提出了Sylber模型，解决了神经语言表示缺乏结构的问题。该模型通过自监督学习生成具有清晰音节结构的语音表示，从而提高了语音理解效率，并展示了重建可理解语音的潜力。

Sylber: Syllabic Embedding Representation from Raw Audio

BriefGPT - AI 论文速递 ·

本研究提出了一种新型语音理解模型，旨在减少训练数据量并提高性能。通过多任务联合训练和预训练技术，该模型在多个基准测试中表现优异，特别是在商用语音助理应用中显著提升了语义准确率。此外，研究探讨了如何有效利用大型语言模型转变为聊天助手，并提出了“响应调优”方法，以提升用户体验。

无需指导训练数据的端到端语音助手的蒸馏

BriefGPT - AI 论文速递 ·

本文探讨了多种音频语言模型的进展，包括Mockingjay、wave2vec2.0和Qwen-Audio等。这些模型在语音理解、文本到音频生成及多轮对话方面表现优异，尤其是Qwen-Audio通过多任务训练框架显著提升了音频理解能力。此外，AIR-Bench基准为评估音频模型的交互能力提供了新方法，推动了该领域的发展。

AudioBERT：音频知识增强的语言模型

BriefGPT - AI 论文速递 ·

本文介绍了一种基于大型语言模型（LLM）的生成对话系统，能够实现全双工实时对话，提升用户满意度。研究表明，LLM在语音理解和生成方面具有潜力，结合声学模型可实现更自然的交互。此外，提出的“textless”模型能够在无文本输入的情况下生成自然对话语音，展示了多模态模型在口语学习和对话生成中的应用前景。

语言模型听说能力

BriefGPT - AI 论文速递 ·

本文介绍了一种新颖的端到端口语语音理解（SLU）方法，结合自动语音识别（ASR）和自然语言理解（NLU），通过条件控制提高识别能力。研究表明，基于Transformer的多语言模型和半监督学习框架在识别准确性上有显著提升，尤其在环境噪声和训练数据不足的情况下表现良好。

PRoDeliberation：面向端到端口语理解的并行强化沟通

BriefGPT - AI 论文速递 ·

这篇论文探讨了多种基于视觉和语音的模型，旨在提升低资源语言的语音理解和图像字幕生成能力。研究采用双编码器、改进的神经网络和多任务学习等方法，显著提高了性能，尤其在图像与语音结合方面，展示了语音识别和翻译的有效性。

仅使用图像进行语音翻译

BriefGPT - AI 论文速递 ·

苹果在iOS 18中为Siri进行AI升级

The Verge ·