小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

S2R技术通过直接理解用户语音意图,避免了传统语音转录的局限,提升了搜索准确性和用户体验。该技术在多语言环境中表现优异,适用于智能助手和车载系统,推动了语音交互的包容性和人性化。

语音搜索的范式革命:Google S2R如何跳过“文字“这个中间商赚差价

dotNET跨平台
dotNET跨平台 · 2025-10-18T00:01:09Z

S2R技术通过直接理解语音中的用户意图,避免了传统语音转录的局限,提升了语音搜索的准确性和用户体验。该技术在多语言环境中表现优异,适用于智能助手和车载系统,推动了人机交互的发展。

语音搜索的范式革命:Google S2R如何跳过“文字“这个中间商赚差价

dotNET跨平台
dotNET跨平台 · 2025-10-18T00:01:09Z
从声音到句子:探究现代语音模型的工作原理

本文介绍了 AI 助手理解和回应语音的过程,包括音频转换为频谱图、特征提取、量化、Transformer 编码和解码等步骤。这些技术将音频信号转化为向量和标记,最终生成有意义的输出,揭示现代语音模型的复杂性。

从声音到句子:探究现代语音模型的工作原理

实时互动网
实时互动网 · 2025-07-10T09:43:51Z
推出 Amazon Nova Sonic:为生成式 AI 应用程序带来类似人类的语音对话体验

Amazon Nova Sonic 是一款集成语音理解与生成的模型,简化语音应用开发,支持低延迟对话,能够动态调整语音回复,处理多种说话风格,并具备内容审核功能,适用于客户支持等场景。

推出 Amazon Nova Sonic:为生成式 AI 应用程序带来类似人类的语音对话体验

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-04-10T03:29:37Z
亚马逊新模型Nova Sonic,助力AI语音对话更自然

亚马逊推出新基础模型Amazon Nova Sonic,整合语音理解与生成,提升AI语音对话的自然性。该模型能够根据语气和口语输入调整响应,理解对话细节,并生成文字转录,简化语音应用开发。

亚马逊新模型Nova Sonic,助力AI语音对话更自然

全球TMT-美通国际
全球TMT-美通国际 · 2025-04-10T03:21:56Z
Step-Audio:首个可投入生产的开源智能语音交互框架

Step-Audio是一个由中国AI开发者创建的开源框架,旨在提升语音理解与生成的真实感。它支持多语言对话、情感语调和方言,拥有130B参数的多模态模型,集成语音识别和对话处理功能。该系统通过AI生成数据优化训练质量,适用于语音AI应用,具备语音克隆和实时交互能力。

Step-Audio:首个可投入生产的开源智能语音交互框架

DEV Community
DEV Community · 2025-02-17T23:20:37Z

本研究提出了一种新方法,将自监督语音表示与大语言模型结合,以提升多模态处理和语音理解,显示出在保留语音语义内容方面的优势。

基于大语言模型的语音查询文本翻译:SparQLe

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z
MinMo:约 8B 参数的多模态大型语言模型,实现无缝语音交互

MinMo模型通过多阶段训练结合语音和文本,显著提升了语音理解和生成能力,尤其在多语言和情感识别方面表现优于现有模型。该模型拥有约80亿参数,响应延迟约600毫秒,为未来研究设定了新基准。

MinMo:约 8B 参数的多模态大型语言模型,实现无缝语音交互

实时互动网
实时互动网 · 2025-01-16T03:12:17Z

本研究推出了覆盖74种口语和美国手语的2M-BELEBELE数据集,填补了多语言语音和ASL理解数据集的空白。评估结果显示,语音理解的准确率比阅读理解低约8%。

2M-BELEBELE:高度多语言语音和美国手语理解数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了一种新颖的无编码器全双工语音理解与生成框架SALMONN-omni,解决了传统对话AI系统组件分离的问题,并在语音识别和增强等任务中表现出色,推动了全双工对话AI系统的发展。

SALMONN-omni: An Encoder-Free Full-Duplex Speech Understanding and Generation Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本研究提出了Sylber模型,解决了神经语言表示缺乏结构的问题。该模型通过自监督学习生成具有清晰音节结构的语音表示,从而提高了语音理解效率,并展示了重建可理解语音的潜力。

Sylber: Syllabic Embedding Representation from Raw Audio

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本研究提出了一种新型语音理解模型,旨在减少训练数据量并提高性能。通过多任务联合训练和预训练技术,该模型在多个基准测试中表现优异,特别是在商用语音助理应用中显著提升了语义准确率。此外,研究探讨了如何有效利用大型语言模型转变为聊天助手,并提出了“响应调优”方法,以提升用户体验。

无需指导训练数据的端到端语音助手的蒸馏

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

本文探讨了多种音频语言模型的进展,包括Mockingjay、wave2vec2.0和Qwen-Audio等。这些模型在语音理解、文本到音频生成及多轮对话方面表现优异,尤其是Qwen-Audio通过多任务训练框架显著提升了音频理解能力。此外,AIR-Bench基准为评估音频模型的交互能力提供了新方法,推动了该领域的发展。

AudioBERT:音频知识增强的语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-12T00:00:00Z

本文介绍了一种基于大型语言模型(LLM)的生成对话系统,能够实现全双工实时对话,提升用户满意度。研究表明,LLM在语音理解和生成方面具有潜力,结合声学模型可实现更自然的交互。此外,提出的“textless”模型能够在无文本输入的情况下生成自然对话语音,展示了多模态模型在口语学习和对话生成中的应用前景。

语言模型听说能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

本文介绍了一种新颖的端到端口语语音理解(SLU)方法,结合自动语音识别(ASR)和自然语言理解(NLU),通过条件控制提高识别能力。研究表明,基于Transformer的多语言模型和半监督学习框架在识别准确性上有显著提升,尤其在环境噪声和训练数据不足的情况下表现良好。

PRoDeliberation:面向端到端口语理解的并行强化沟通

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-12T00:00:00Z

这篇论文探讨了多种基于视觉和语音的模型,旨在提升低资源语言的语音理解和图像字幕生成能力。研究采用双编码器、改进的神经网络和多任务学习等方法,显著提高了性能,尤其在图像与语音结合方面,展示了语音识别和翻译的有效性。

仅使用图像进行语音翻译

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z
苹果在iOS 18中为Siri进行AI升级

苹果宣布了几个AI功能,将应用于Siri虚拟助手,包括更新设计、改进语音理解和语言命令的能力,以及与OpenAI的ChatGPT模型的集成。Siri的更新设计使其在设备上更加突出,使用时屏幕会显示一个闪烁的多彩边框。Siri还能更好地理解用户的话语,并能在请求之间保持对话的上下文。用户还可以通过描述他们希望使用的应用程序或功能来提出请求,Siri能够理解并获取相关信息。苹果智能赋予了Siri“屏幕意识”,使其能够在屏幕上执行操作并理解屏幕上的内容。Siri还将能够通过语音命令执行复杂任务,如在特定位置或服装中获取朋友的照片,并在请求时对这些照片进行增强处理。ChatGPT的集成预计将在今年晚些时候推出,而由苹果智能提供支持的新Siri功能将在今年秋季的iOS 18测试版中推出。

苹果在iOS 18中为Siri进行AI升级

The Verge
The Verge · 2024-06-10T18:35:25Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码