小红花·文摘 - 小红花技术领袖俱乐部

谷歌推出了Gemini 3.1 Flash Live，这是其最高质量的音频模型，旨在提供更自然、可靠的实时对话。该模型支持开发者通过Gemini Live API使用，企业可用于客户体验，用户可通过Search Live和Gemini Live体验。3.1 Flash Live在理解语调和处理复杂任务方面表现出色，能够在嘈杂环境中提供更自然的对话，所有生成的音频都带有水印，以防止虚假信息传播。

Gemini 3.1 Flash Live：让音频人工智能更加自然和可靠

Google DeepMind Blog ·

OpenAI希望在首款硬件设备发布前，让ChatGPT的声音更接近人类语音

OpenAI希望在首款硬件设备发布前，让ChatGPT的声音更接近人类语音

实时互动网 ·

谷歌搜索推出Gemini音频模型，用户可通过语音与AI实时对话，获得更自然的回答。只需在谷歌应用中点击Live图标提问，便可享受更好的DIY帮助和学习体验。该功能将在未来一周内向美国用户推出。

现在，您在使用搜索时可以进行更流畅、更富表现力的对话。

The Keyword ·

谷歌的Gemini Live AI助手将向您展示它所谈论的内容

谷歌的Gemini Live AI助手将向您展示它所谈论的内容

The Verge ·

Mistral AI发布了Voxtral音频模型，提供24B和3B两个版本，旨在解决语音智能市场的痛点。该模型支持多语言、长文本处理和问答功能，性能优于现有开源模型，成本低，适合多种应用场景，推动语音交互普及。

在线教程丨Mistral AI首个开源音频模型Voxtral，24B与3B版本兼顾多场景语音深度理解

HyperAI超神经 ·

刚刚，OpenAI 一口气发布三个新模型！还为此做了一个新网站

刚刚，OpenAI 一口气发布三个新模型！还为此做了一个新网站

爱范儿 ·

在API中推出新一代音频模型

在API中推出新一代音频模型

OpenAI ·

Hertz-Dev：用于实时对话式 AI 的开源 8.5B 音频模型，在单 RTX 4090 上具有 80 毫秒理论延迟

Hertz-Dev：用于实时对话式 AI 的开源 8.5B 音频模型，在单 RTX 4090 上具有 80 毫秒理论延迟

实时互动网 ·

本研究使用神经音频编解码器EnCodec生成音频，并学习通用音频模型EncodecMAE，取得了与领先的音频表示模型相媲美或更好的性能。

EnCodecMAE: 利用神经编解码器进行通用音频表示学习

BriefGPT - AI 论文速递 ·