小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

S2R技术通过直接理解用户语音意图,避免了传统语音转录的局限,提升了搜索准确性和用户体验。该技术在多语言环境中表现优异,适用于智能助手和车载系统,推动了语音交互的包容性和人性化。

语音搜索的范式革命:Google S2R如何跳过“文字“这个中间商赚差价

dotNET跨平台
dotNET跨平台 · 2025-10-18T00:01:09Z

S2R技术通过直接理解语音中的用户意图,避免了传统语音转录的局限,提升了语音搜索的准确性和用户体验。该技术在多语言环境中表现优异,适用于智能助手和车载系统,推动了人机交互的发展。

语音搜索的范式革命:Google S2R如何跳过“文字“这个中间商赚差价

dotNET跨平台
dotNET跨平台 · 2025-10-18T00:01:09Z
从声音到句子:探究现代语音模型的工作原理

本文介绍了 AI 助手理解和回应语音的过程,包括音频转换为频谱图、特征提取、量化、Transformer 编码和解码等步骤。这些技术将音频信号转化为向量和标记,最终生成有意义的输出,揭示现代语音模型的复杂性。

从声音到句子:探究现代语音模型的工作原理

实时互动网
实时互动网 · 2025-07-10T09:43:51Z
推出 Amazon Nova Sonic:为生成式 AI 应用程序带来类似人类的语音对话体验

Amazon Nova Sonic 是一款集成语音理解与生成的模型,简化语音应用开发,支持低延迟对话,能够动态调整语音回复,处理多种说话风格,并具备内容审核功能,适用于客户支持等场景。

推出 Amazon Nova Sonic:为生成式 AI 应用程序带来类似人类的语音对话体验

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-04-10T03:29:37Z
亚马逊新模型Nova Sonic,助力AI语音对话更自然

亚马逊推出新基础模型Amazon Nova Sonic,整合语音理解与生成,提升AI语音对话的自然性。该模型能够根据语气和口语输入调整响应,理解对话细节,并生成文字转录,简化语音应用开发。

亚马逊新模型Nova Sonic,助力AI语音对话更自然

全球TMT-美通国际
全球TMT-美通国际 · 2025-04-10T03:21:56Z
Step-Audio:首个可投入生产的开源智能语音交互框架

Step-Audio是一个由中国AI开发者创建的开源框架,旨在提升语音理解与生成的真实感。它支持多语言对话、情感语调和方言,拥有130B参数的多模态模型,集成语音识别和对话处理功能。该系统通过AI生成数据优化训练质量,适用于语音AI应用,具备语音克隆和实时交互能力。

Step-Audio:首个可投入生产的开源智能语音交互框架

DEV Community
DEV Community · 2025-02-17T23:20:37Z

本研究提出了一种新方法,将自监督语音表示与大语言模型结合,以提升多模态处理和语音理解,显示出在保留语音语义内容方面的优势。

基于大语言模型的语音查询文本翻译:SparQLe

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z
MinMo:约 8B 参数的多模态大型语言模型,实现无缝语音交互

MinMo模型通过多阶段训练结合语音和文本,显著提升了语音理解和生成能力,尤其在多语言和情感识别方面表现优于现有模型。该模型拥有约80亿参数,响应延迟约600毫秒,为未来研究设定了新基准。

MinMo:约 8B 参数的多模态大型语言模型,实现无缝语音交互

实时互动网
实时互动网 · 2025-01-16T03:12:17Z

本研究推出了覆盖74种口语和美国手语的2M-BELEBELE数据集,填补了多语言语音和ASL理解数据集的空白。评估结果显示,语音理解的准确率比阅读理解低约8%。

2M-BELEBELE:高度多语言语音和美国手语理解数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了一种新颖的无编码器全双工语音理解与生成框架SALMONN-omni,解决了传统对话AI系统组件分离的问题,并在语音识别和增强等任务中表现出色,推动了全双工对话AI系统的发展。

SALMONN-omni:无编码器全双工语音理解与生成模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本研究提出Sylber模型,通过自监督学习生成稳健的音节结构语音表示,实现高效的音节分割和标记化,提升语音理解效率,并展示重建可理解语音的潜力。

Sylber:来自原始音频的音节嵌入表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z
苹果在iOS 18中为Siri进行AI升级

苹果宣布了几个AI功能,将应用于Siri虚拟助手,包括更新设计、改进语音理解和语言命令的能力,以及与OpenAI的ChatGPT模型的集成。Siri的更新设计使其在设备上更加突出,使用时屏幕会显示一个闪烁的多彩边框。Siri还能更好地理解用户的话语,并能在请求之间保持对话的上下文。用户还可以通过描述他们希望使用的应用程序或功能来提出请求,Siri能够理解并获取相关信息。苹果智能赋予了Siri“屏幕意识”,使其能够在屏幕上执行操作并理解屏幕上的内容。Siri还将能够通过语音命令执行复杂任务,如在特定位置或服装中获取朋友的照片,并在请求时对这些照片进行增强处理。ChatGPT的集成预计将在今年晚些时候推出,而由苹果智能提供支持的新Siri功能将在今年秋季的iOS 18测试版中推出。

苹果在iOS 18中为Siri进行AI升级

The Verge
The Verge · 2024-06-10T18:35:25Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码