小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
xAI 发布 grok-voice-think-fast-1.0:τ-voice 基准测试成绩高达 67.3%,超越 Gemini、GPT Realtime 等

xAI的新语音模型grok-voice-think-fast-1.0在τ-voice基准测试中以67.3%的得分领先,支持实时推理,能够无延迟处理复杂对话中的语音输入,准确捕获结构化数据。该模型已成功应用于Starlink的客户支持,展现出高效的销售转化率和自动解决客户咨询的能力。

xAI 发布 grok-voice-think-fast-1.0:τ-voice 基准测试成绩高达 67.3%,超越 Gemini、GPT Realtime 等

实时互动网
实时互动网 · 2026-04-27T02:47:21Z
国产免费2B开源语音模型征服《莽撞人》!复刻郭德纲最难贯口

国产开源语音模型VoxCPM 2成功复刻郭德纲的《莽撞人》,展现高保真、多方言和多语种能力,音质达到CD级别,适用于游戏和影视等领域,吸引了众多用户体验。

国产免费2B开源语音模型征服《莽撞人》!复刻郭德纲最难贯口

量子位
量子位 · 2026-04-08T06:10:06Z
ICASSP 2026|迈向构建低资源语种的多任务语音理解模型

本文提出了一种针对低资源语言(如泰语)的语音大语言模型(SLLM)多任务理解方案,核心创新包括自监督学习的语音编码器XLSR-Thai、通用语音-文本对齐方法U-Align,以及泰语口语理解数据生成流水线Thai-SUP。实验结果表明,该方案有效提升了泰语的自动语音识别和多任务理解能力,为低资源语言的SLLMs构建提供了新路径。

ICASSP 2026|迈向构建低资源语种的多任务语音理解模型

实时互动网
实时互动网 · 2026-03-19T03:07:54Z
针对哪种模型的评估?语音模型评估的分类法

本文提出了一种统一的分类法,用于评估语音模型,解决不同模型在语音处理中的评估需求。该分类法定义了三个维度:评估方面、模型能力和任务要求。通过将现有评估与模型能力和方法论需求相匹配,提供了选择和解释语音模型评估的框架,并揭示了未来基准设计的优先领域。

针对哪种模型的评估?语音模型评估的分类法

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-09T00:00:00Z
更流畅对话、更多语言支持!Nova 2 Sonic让构建语音应用更轻松

亚马逊云科技推出的Amazon Nova 2 Sonic语音模型提升了语音交互的流畅性与智能性,支持多语言切换,优化了语音识别和对话机制,增强了多任务处理能力,适用于多种应用场景。

更流畅对话、更多语言支持!Nova 2 Sonic让构建语音应用更轻松

实时互动网
实时互动网 · 2026-01-06T03:41:49Z
美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

美团LongCat团队开源了LongCat-Audio-Codec,解决了语音大语言模型在Token化中的难题。该方案通过双Token并行提取、低延迟解码和超低比特率高保真设计,实现了高效音频处理,提升了语音理解与生成质量,降低了技术门槛,丰富了应用场景,推动了语音智能系统的发展。

美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

美团技术团队
美团技术团队 · 2025-11-14T00:00:00Z
刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

豆包大模型推出四档思考长度调节功能,提高AI使用效率并降低企业成本。同时,新语音模型能准确朗读复杂公式,增强语音交互能力。火山引擎发布智能模型路由,自动选择最优模型以满足不同需求,推动AI行业发展。

刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

爱范儿
爱范儿 · 2025-10-16T09:36:48Z
中科院发布可扩展模块化语音语言模型 LLaMA-Omni2,以最小的延迟进行实时对话

中国科学院计算技术研究所推出的LLaMA-Omni2是一个支持语音的大型语言模型,结合语音感知与语言理解,实现实时口语对话。该模型采用端到端流水线,训练成本低且具有模块化可解释性。在200K语音对话样本上训练后,LLaMA-Omni2的表现优于基线模型,证明高质量、低延迟的语音交互无需大量语料库。

中科院发布可扩展模块化语音语言模型 LLaMA-Omni2,以最小的延迟进行实时对话

实时互动网
实时互动网 · 2025-05-07T02:28:07Z

本研究提出VITA-Audio,一种高效的大规模语音模型,解决了现有模型在流媒体生成首个音频令牌时的高延迟问题。通过引入轻量级的多模态交叉令牌预测模块,该模型显著提高了推理速度,具备实时对话能力,并在多个任务中表现优异。

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large-Scale Speech Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究提出了一种新颖的自适应后训练量化算法StableQuant,显著优化了语音基础模型的量化性能。该算法将模型尺寸缩小至四分之一,并在8位量化下保持字错误率低于0.3%,同时提升推理速度。

StableQuant: Layer-wise Adaptive Post-Training Quantization for Speech Foundation Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z

百度推出的端到端语音语言大模型,利用Cross-Attention技术将语音交互成本降低90%,提升响应速度和真实感。该模型结合语音识别与语言模型,解决了传统语音交互的痛点,推动了大模型在语音领域的应用。

语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%

量子位
量子位 · 2025-04-02T07:52:28Z
SELMA:用于虚拟助手交互的语音启用语言模型

本文介绍了SELMA,一个用于虚拟助手交互的语音启用语言模型。SELMA同时处理三项主要任务和两项辅助任务,采用低秩适应模块进行高效训练。实验结果表明,SELMA在语音触发检测和设备导向语音检测任务上显著提高了性能,简化了虚拟助手的输入处理流程。

SELMA:用于虚拟助手交互的语音启用语言模型

Apple Machine Learning Research
Apple Machine Learning Research · 2025-03-05T00:00:00Z

豆包语音模型升级后,在小说演播中表现优异,CMOS评分超过90%。新技术实现端到端合成,无需标签,提升音质和情感表达,适用于多种有声书,未来将继续探索更优质的听书体验。

AI说书媲美真人!豆包语音大模型升级长上下文理解

量子位
量子位 · 2025-02-26T07:28:01Z
2025年你绝对不能错过的30个热门GitHub仓库!

本文列出了30个开源项目,涵盖JavaScript、AI代理、语音模型等多种技术,供开发者参考和使用。

2025年你绝对不能错过的30个热门GitHub仓库!

DEV Community
DEV Community · 2025-02-17T18:28:57Z
解锁多语言语音:AI翻译模型的未来

在互联的世界中,跨语言沟通变得必要。AI驱动的多语言语音模型如OWLS,利用神经网络提升翻译和语音识别能力,克服语言障碍。尽管面临数据不足和语言复杂性等挑战,这些技术在客户服务、医疗和教育等领域展现出巨大潜力,促进全球沟通的便利性和可及性。

解锁多语言语音:AI翻译模型的未来

DEV Community
DEV Community · 2025-02-17T08:07:12Z

本研究提出了LUCY,一个端到端的语音模型,旨在解决现有语音系统缺乏情感理解的问题。LUCY能够感知用户情感并自然回应,同时处理实时查询。实验结果显示,LUCY在情感控制和自然语言生成方面表现优异。

LUCY: Linguistic Understanding and Control Facilitating the Early Stages of 'Her'

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-27T00:00:00Z

本文提出了一种新颖的混合精度量化方法,旨在提高语音基础模型的量化效率。该方法结合了混合精度学习与模型参数估计,显著提升了压缩比,缩短了压缩时间,同时保持了单词错误率不变,展现了良好的实际应用前景。

Effective and Efficient Mixed-Precision Quantization of Speech Foundation Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-07T00:00:00Z

本研究提出了一种名为SpeechPrune的标记修剪策略,旨在解决语音大型语言模型处理长语音输入的局限性。该策略通过语音-文本相似性和注意力分数剔除无关标记,在SPIRAL基准测试中,20%的修剪率下精度提升29%,并在高达80%的修剪水平下保持网络性能。

SpeechPrune:一种面向上下文的语音信息检索标记修剪方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z
Meta发布NotebookLlama:开源PDF转播客工具包

Meta发布了NotebookLlama,一个开源工具包,允许用户将PDF文档转换为播客。该工具包通过四个简单步骤实现,用户无需大型语言模型或音频处理经验。功能包括PDF预处理、转录生成、播客戏剧化和文本转语音转换。NotebookLlama可在GitHub上获取,但需GPU服务器。用户反馈灵活性高,但语音质量较Google系统有限,未来计划改进语音模型和输入选项。

Meta发布NotebookLlama:开源PDF转播客工具包

InfoQ
InfoQ · 2024-11-17T15:55:00Z

最近,Whisper等大型语音模型在自动语音识别中广泛应用,但研究表明其易受对抗攻击。我们提出了一种通过添加特殊令牌使模型“静音”的方法,实验显示该方法在97%的样本中有效。这表明Whisper模型在现实环境中存在脆弱性,可能影响私人数据的安全。

减轻未经授权的语音合成以保护声音

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码