小红花·文摘

谷歌已将Gemini功能集成至Chrome浏览器，目前仅向美国的付费用户开放。Gemini支持网页感知、即时摘要和跨标签页对比等功能，并可进行自然语音对话。用户可通过修改Chrome设置体验该功能，但需谨慎操作并备份文件以防崩溃。

无需美区订阅！教你一招强行开启 Chrome 内置 Gemini

如有乐享 ·

多智能体协同办公平台，本地部署保障数据自主 | 开源日报 No.856

开源服务指南 ·

AI 语音数据集如何助力打造自然流畅的语音系统

实时互动网 ·

Voices为Java应用程序提供快速文本转语音功能

InfoQ ·

谷歌首款Gemini智能家居音箱泄露详细信息

The Verge ·

Crescendo 和亚马逊在语音 AI 客户服务领域取得突破

实时互动网 ·

Claude AI面向所有免费用户开放联网搜索功能同时移动版开测自然语音对话

蓝点网 ·

OuteTTS-0.1-350M 发布：无需外部适配器即可利用纯语言建模的新型 TTS 合成模型

实时互动网 ·

我们的语音生成技术正在推动音频生成的前沿，提升与数字助手的互动体验。通过改进模型，我们能够从文本等多种输入生成高质量自然语音。新功能如NotebookLM音频概述和Illuminate使复杂内容更易理解。我们还开发了高效的语音编解码器和专门的Transformer架构，以生成多说话者对话。未来将继续提升模型表现力和音质，并探索与视频等其他模态的结合。

推动音频生成的前沿

Google DeepMind Blog ·

Meta AI 发布 Meta Spirit LM：混合文本和语音的开源多模态语言模型

实时互动网 ·

应对合成语音的挑战与机遇

OpenAI ·

本文介绍了一种基于面部图像的零样本文本到语音合成模型（Face-StyleSpeech），通过结合面部编码器和韵律编码器来生成自然语音。实验结果表明该模型在生成面部图像对应的自然语音方面胜过基准模型，甚至对未训练过的面部图像也有效。

零封装的基于流匹配的文本转语音使你尽情大笑

BriefGPT - AI 论文速递 ·

微软推出Windows 11 Moment 4更新，新增多项功能，包括画图应用的图层、背景去除和图像生成功能，以及Clipchamp视频剪辑工具的基于AI的自动撰写功能。更新还新增Windows备份应用、支持通行密钥、创建Dev Drive选项、动态光效设置和自动色彩管理等功能。讲述人功能也新增音色品质更高的“自然语音”。更新还改进了防火墙通知对话框、锁屏界面的网络选项等界面。

具透 | Moment 4 更新详解：今年 Windows 11 的新功能，或许都在这里了

少数派 ·

本文比较了两个语音语料库，研究了格状句对于提高自然语音可懂性的效果，并发现噪音水平的增加使得格状句和自然句都表现出类似的变化，但在 alpha 比率的增加方面，格状句呈现出更大的增长。通过主观可懂性评估发现，EMALG 上训练的 StarGAN 模型在提高可懂性方面始终优于 LCT 上训练的模型，可能归因于 EMALG 中从正常语音到 Lombard 语音的 alpha 比率增长更大。