谷歌推出了Gemini 3.1 Flash Live,这是其最高质量的音频模型,旨在提供更自然、可靠的实时对话。该模型支持开发者通过Gemini Live API使用,企业可用于客户体验,用户可通过Search Live和Gemini Live体验。3.1 Flash Live在理解语调和处理复杂任务方面表现出色,能够在嘈杂环境中提供更自然的对话,所有生成的音频都带有水印,以防止虚假信息传播。
OpenAI计划在2026年前推出升级版音频模型,以提升语音对话的自然性和准确性,并重组团队专注于音频AI。同时,将发布智能眼镜和无显示屏音箱等音频设备。
谷歌搜索推出Gemini音频模型,用户可通过语音与AI实时对话,获得更自然的回答。只需在谷歌应用中点击Live图标提问,便可享受更好的DIY帮助和学习体验。该功能将在未来一周内向美国用户推出。
谷歌的Gemini Live AI助手即将推出新功能,能够实时与用户互动并高亮显示物品。用户可通过手机摄像头找到所需工具。此外,Gemini Live将与消息、电话和时钟等应用程序集成,允许用户在对话中发送消息或拨打电话。更新的音频模型将改善语音的语调和节奏,使对话更自然。
Mistral AI发布了Voxtral音频模型,提供24B和3B两个版本,旨在解决语音智能市场的痛点。该模型支持多语言、长文本处理和问答功能,性能优于现有开源模型,成本低,适合多种应用场景,推动语音交互普及。
OpenAI推出新一代音频模型,具备语音转文本和文本转语音功能,显著提升转录精度和语音风格控制,适用于多种应用场景。该模型在多语言测试中表现优异,定价合理,旨在提升开发者体验和语音交互的情感表达。
2025年3月20日,推出新一代音频模型,提升语音代理的智能和交互能力。新模型具备更精准的语音转文本和文本转语音功能,适用于客户服务和创意叙事等场景,开发者可定制语音风格,增强用户体验,且在多语言环境中表现优异。
Standard Intelligence Lab发布了Hertz-Dev,一个开源的85亿参数音频模型,理论延迟为80毫秒,实际延迟为120毫秒,旨在提升实时交互性能。该模型降低了计算需求,适合独立开发者和小型企业,推动AI技术的普及,广泛应用于客户服务和智能家居等领域。
本研究使用神经音频编解码器EnCodec生成音频,并学习通用音频模型EncodecMAE,取得了与领先的音频表示模型相媲美或更好的性能。
完成下面两步后,将自动完成登录并继续当前操作。