小红花·文摘 - 小红花技术领袖俱乐部

深入探讨思维机器的交互模型

深入探讨思维机器的交互模型

ByteByteGo Newsletter ·

AI Gateway 现已支持实时语音、语音生成和音频转录

AI Gateway 现已支持实时语音、语音生成和音频转录

Vercel News ·

Modular：零日：MiniMax M3在Modular云上的开放权重

Modular：零日：MiniMax M3在Modular云上的开放权重

Modular Blog ·

谷歌将在夏季推出珊瑚AI开发板，支持本地运行270M模型，实现实时对话、语音对话、文本和音乐生成等功能。该开发板配备1TOPS算力的NPU芯片，使用2GB内存，支持WiFi和蓝牙连接。由于芯片供给紧张，预计售价不会低。

谷歌将在夏季推出珊瑚AI开发板可在本地运行270M模型实现实时语音对话/翻译等

蓝点网 ·

通过API中的新模型推动语音智能发展

通过API中的新模型推动语音智能发展

OpenAI ·

Voxtral TTS是Mistral AI推出的开源文本转语音模型，支持九种语言，能够在三秒音频基础上克隆声音，具有70毫秒的低延迟和9.7倍的实时因子，适合实时对话应用。用户可通过Mistral API或自托管方式使用，提供灵活的商业和非商业使用选项。

Voxtral TTS开源文本转语音模型

KDnuggets ·

谷歌翻译成立20年来，致力于消除语言障碍，促进理解，支持近250种语言，每月有超过10亿用户使用。新推出的发音练习工具帮助用户提高口语能力，翻译不仅用于旅行，也成为学习新语言的重要工具。AI技术的应用使翻译更加自然流畅，用户可以实时对话，增强交流体验。

庆祝谷歌翻译成立20周年：有趣的事实、技巧和新功能推荐

The Keyword ·

Cloudflare 为 AI 代理添加实时语音功能

Cloudflare 为 AI 代理添加实时语音功能

实时互动网 ·

谷歌推出了Gemini 3.1 Flash Live，这是其最高质量的音频模型，旨在提供更自然、可靠的实时对话。该模型支持开发者通过Gemini Live API使用，企业可用于客户体验，用户可通过Search Live和Gemini Live体验。3.1 Flash Live在理解语调和处理复杂任务方面表现出色，能够在嘈杂环境中提供更自然的对话，所有生成的音频都带有水印，以防止虚假信息传播。

Gemini 3.1 Flash Live：让音频人工智能更加自然和可靠

Google DeepMind Blog ·

LLM上下文窗口：理解与优化工作记忆

LLM上下文窗口：理解与优化工作记忆

Redis Blog ·

谷歌搜索推出Gemini音频模型，用户可通过语音与AI实时对话，获得更自然的回答。只需在谷歌应用中点击Live图标提问，便可享受更好的DIY帮助和学习体验。该功能将在未来一周内向美国用户推出。

现在，您在使用搜索时可以进行更流畅、更富表现力的对话。

The Keyword ·

谷歌翻译推出新功能，利用AI实现实时对话翻译和个性化语言学习。用户可在70多种语言中进行自然对话，应用程序智能识别语音和停顿。新的练习功能根据用户水平定制听说练习，提升翻译质量和用户体验。

谷歌翻译推出新款AI驱动的实时翻译和语言学习工具

The Keyword ·

本研究提出了一种多模态模型MM-When2Speak，旨在解决大型语言模型在实时对话中的反应时机问题。该模型结合视觉、听觉和文本信息，能够准确预测何时及如何回应。实验结果表明，其在响应时机的准确性上显著优于现有模型，强调了多模态输入在对话AI中的重要性。

Beyond Words: Multimodal Large Language Models Know When to Speak

BriefGPT - AI 论文速递 ·

中科院发布可扩展模块化语音语言模型 LLaMA-Omni2，以最小的延迟进行实时对话

中科院发布可扩展模块化语音语言模型 LLaMA-Omni2，以最小的延迟进行实时对话

实时互动网 ·

本研究提出VITA-Audio，一种高效的大规模语音模型，解决了现有模型在流媒体生成首个音频令牌时的高延迟问题。通过引入轻量级的多模态交叉令牌预测模块，该模型显著提高了推理速度，具备实时对话能力，并在多个任务中表现优异。

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large-Scale Speech Language Models

BriefGPT - AI 论文速递 ·

三月，我们推出了与Gemini实时对话的功能，支持45种语言。用户可通过摄像头或屏幕分享，获得整理空间、创意头脑风暴、故障排除、购物建议和技能反馈等帮助。该功能已在Pixel 9和Samsung Galaxy S25设备上推广。

使用Gemini实时对话的五种方法：通过摄像头和屏幕分享

The Keyword ·

远程桌面新选择：完全自托管，安全无忧！ | 开源日报 No.541

远程桌面新选择：完全自托管，安全无忧！ | 开源日报 No.541

开源服务指南 ·

米哈游创始人蔡浩宇的AI游戏《Whispers From The Star》已曝光，主打实时对话与玩家互动，玩家的选择将影响角色Stella的命运。目前已开启内测，仅支持iOS 12以上设备，旨在验证多模态AI的实时交互能力。

米哈游蔡浩宇AI游戏曝光：大模型驱动数字人实时互动，玩家自定义开放剧情，内测已开启！

量子位 ·

使用LangGraph、TypeScript、Next.js、TailwindCSS和Pinecone构建AI助手 - 第二部分

使用LangGraph、TypeScript、Next.js、TailwindCSS和Pinecone构建AI助手 - 第二部分

DEV Community ·

端侧多模态大语言模型：伴随图像、语音和文本的实时对话 | 开源日报 No.490

端侧多模态大语言模型：伴随图像、语音和文本的实时对话 | 开源日报 No.490

开源服务指南 ·