OpenAI 发布了三个新音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别用于语音推理、实时翻译和转录。GPT-Realtime-2 具备 GPT-5 级推理能力,支持复杂对话和任务;GPT-Realtime-Translate 可将 70 多种语言实时翻译成 13 种语言;GPT-Realtime-Whisper 提供低延迟的语音转文本服务。所有模型已通过 Realtime API 正式上线。
OpenAI推出了三种音频模型,分别是GPT-Realtime-2(实时对话)、GPT-Realtime-Translate(支持70多种语言的实时翻译)和GPT-Realtime-Whisper(低延迟语音转文本)。这些模型提升了语音交互的智能性和响应能力,适用于客户支持和教育等领域。
谷歌推出了Gemini 3.1 Flash Live,这是其最高质量的音频模型,旨在提供更自然、可靠的实时对话。该模型支持开发者通过Gemini Live API使用,企业可用于客户体验,用户可通过Search Live和Gemini Live体验。3.1 Flash Live在理解语调和处理复杂任务方面表现出色,能够在嘈杂环境中提供更自然的对话,所有生成的音频都带有水印,以防止虚假信息传播。
OpenAI计划在2026年前推出升级版音频模型,以提升语音对话的自然性和准确性,并重组团队专注于音频AI。同时,将发布智能眼镜和无显示屏音箱等音频设备。
谷歌搜索推出Gemini音频模型,用户可通过语音与AI实时对话,获得更自然的回答。只需在谷歌应用中点击Live图标提问,便可享受更好的DIY帮助和学习体验。该功能将在未来一周内向美国用户推出。
谷歌的Gemini Live AI助手即将推出新功能,能够实时与用户互动并高亮显示物品。用户可通过手机摄像头找到所需工具。此外,Gemini Live将与消息、电话和时钟等应用程序集成,允许用户在对话中发送消息或拨打电话。更新的音频模型将改善语音的语调和节奏,使对话更自然。
Mistral AI发布了Voxtral音频模型,提供24B和3B两个版本,旨在解决语音智能市场的痛点。该模型支持多语言、长文本处理和问答功能,性能优于现有开源模型,成本低,适合多种应用场景,推动语音交互普及。
OpenAI推出新一代音频模型,具备语音转文本和文本转语音功能,显著提升转录精度和语音风格控制,适用于多种应用场景。该模型在多语言测试中表现优异,定价合理,旨在提升开发者体验和语音交互的情感表达。
2025年3月20日,推出新一代音频模型,提升语音代理的智能和交互能力。新模型具备更精准的语音转文本和文本转语音功能,适用于客户服务和创意叙事等场景,开发者可定制语音风格,增强用户体验,且在多语言环境中表现优异。
Standard Intelligence Lab发布了Hertz-Dev,一个开源的85亿参数音频模型,理论延迟为80毫秒,实际延迟为120毫秒,旨在提升实时交互性能。该模型降低了计算需求,适合独立开发者和小型企业,推动AI技术的普及,广泛应用于客户服务和智能家居等领域。
本文探讨了基于声学特征的对抗攻击反欺诈技术,比较了不同分类器的效果。研究表明,深度神经网络在欺骗检测中表现优异,新提出的音频反欺诈模型在多个数据集上具有竞争力。研究强调对抗攻击的进步超越了自动说话人验证系统的防御能力,需进一步研究应对措施。
本研究使用神经音频编解码器EnCodec生成音频,并学习通用音频模型EncodecMAE,取得了与领先的音频表示模型相媲美或更好的性能。
完成下面两步后,将自动完成登录并继续当前操作。