小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

谷歌已将Gemini功能集成至Chrome浏览器,目前仅向美国的付费用户开放。Gemini支持网页感知、即时摘要和跨标签页对比等功能,并可进行自然语音对话。用户可通过修改Chrome设置体验该功能,但需谨慎操作并备份文件以防崩溃。

无需美区订阅!教你一招强行开启 Chrome 内置 Gemini

如有乐享
如有乐享 · 2026-02-06T02:09:14Z
多智能体协同办公平台,本地部署保障数据自主 | 开源日报 No.856

agentic-rag-for-dummies 是一个轻量级智能问答系统,支持对话记忆和多代理处理,提升交互自然度。它采用分层索引和模块化设计,集成 Gradio 界面,便于部署。awesome-claude 汇总了 Anthropic Claude AI 的资源,提供多语言 SDK 和云服务接入。cursor-talk-to-figma-mcp 实现了 Cursor AI 与 Figma 的双向交互和设计管理。eigent 是开源协同办公应用,支持多智能体协作,提升生产力。VoxCPM 是无分词文本到语音合成系统,专注自然语音生成。

多智能体协同办公平台,本地部署保障数据自主 | 开源日报 No.856

开源服务指南
开源服务指南 · 2026-01-20T07:35:51Z
AI 语音数据集如何助力打造自然流畅的语音系统

近年来,AI语音技术迅速发展,依赖于高质量、多样化的语音数据集。这些数据集通过数据收集、预处理和训练,帮助AI生成自然语音,广泛应用于虚拟助手和有声读物等领域。随着技术进步,语音AI的功能和个性化不断提升,确保数据质量和多样性至关重要。

AI 语音数据集如何助力打造自然流畅的语音系统

实时互动网
实时互动网 · 2025-12-12T03:30:13Z
Voices为Java应用程序提供快速文本转语音功能

Voices是一个开源文本转语音项目,支持Java 17及以上版本,无需外部API。它利用ONNX Runtime加速训练和推理,兼容多种深度学习框架。最新版本0.0.8可生成多种语言的自然语音音频文件。

Voices为Java应用程序提供快速文本转语音功能

InfoQ
InfoQ · 2025-11-05T06:30:00Z
谷歌首款Gemini智能家居音箱泄露详细信息

谷歌最近展示了一款新型Gemini智能音箱,支持与谷歌电视串流器配对,提供空间音频。该音箱有四种颜色,具备自然语音选项和异常声音检测功能,将取代谷歌助手,预计在今年秋季发布。

谷歌首款Gemini智能家居音箱泄露详细信息

The Verge
The Verge · 2025-08-22T11:52:22Z
Crescendo 和亚马逊在语音 AI 客户服务领域取得突破

Crescendo是一家快速发展的AI平台,利用亚马逊的Nova Sonic技术提供全天候自然语音支持,提升客户服务质量。该技术实现全自动对话,确保企业快速响应客户需求,并可无缝切换至人工客服,标志着AI在客户体验领域的重要突破。

Crescendo 和亚马逊在语音 AI 客户服务领域取得突破

实时互动网
实时互动网 · 2025-07-18T03:26:16Z
Claude AI面向所有免费用户开放联网搜索功能 同时移动版开测自然语音对话

Claude AI现已向所有用户开放联网搜索功能,免费用户可查询即时信息,避免过时回答。同时,移动版测试自然语音对话功能,付费用户可体验。

Claude AI面向所有免费用户开放联网搜索功能 同时移动版开测自然语音对话

蓝点网
蓝点网 · 2025-05-28T01:42:02Z
OuteTTS-0.1-350M 发布:无需外部适配器即可利用纯语言建模的新型 TTS 合成模型

OuteTTS-0.1-350M是一种新型文本转语音合成模型,基于LLaMa架构,简化了传统TTS的复杂性,具备零样本语音克隆功能,能够高效生成自然语音,适用于个性化应用。其小巧的参数量和高效性使其在设备上运行成为可能,推动了TTS技术的普及。

OuteTTS-0.1-350M 发布:无需外部适配器即可利用纯语言建模的新型 TTS 合成模型

实时互动网
实时互动网 · 2024-11-05T03:40:37Z

我们的语音生成技术正在推动音频生成的前沿,提升与数字助手的互动体验。通过改进模型,我们能够从文本等多种输入生成高质量自然语音。新功能如NotebookLM音频概述和Illuminate使复杂内容更易理解。我们还开发了高效的语音编解码器和专门的Transformer架构,以生成多说话者对话。未来将继续提升模型表现力和音质,并探索与视频等其他模态的结合。

推动音频生成的前沿

Google DeepMind Blog
Google DeepMind Blog · 2024-10-30T15:00:00Z
Meta AI 发布 Meta Spirit LM:混合文本和语音的开源多模态语言模型

开发高级文本转语音系统的挑战在于缺乏表现力。Meta AI 推出的Meta Spirit LM通过在单词级别整合文本和语音,解决了这一问题。Spirit LM有两个版本:Base和Expressive,后者结合音调和风格标记,生成更自然的语音。该模型能在语音和文本间自由转换,增强多模态AI体验,并在对话代理和教育技术等领域有应用潜力。

Meta AI 发布 Meta Spirit LM:混合文本和语音的开源多模态语言模型

实时互动网
实时互动网 · 2024-10-21T03:25:11Z
应对合成语音的挑战与机遇

OpenAI展示了Voice Engine模型,该模型通过文本和15秒音频样本生成自然语音,尽管模型较小,但声音情感丰富。OpenAI在评估合成语音的潜在滥用后,计划与社会对话,探讨负责任的应用。

应对合成语音的挑战与机遇

OpenAI
OpenAI · 2024-03-29T00:00:00Z

本文介绍了一种基于面部图像的零样本文本到语音合成模型(Face-StyleSpeech),通过结合面部编码器和韵律编码器来生成自然语音。实验结果表明该模型在生成面部图像对应的自然语音方面胜过基准模型,甚至对未训练过的面部图像也有效。

零封装的基于流匹配的文本转语音使你尽情大笑

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-12T00:00:00Z

微软推出Windows 11 Moment 4更新,新增多项功能,包括画图应用的图层、背景去除和图像生成功能,以及Clipchamp视频剪辑工具的基于AI的自动撰写功能。更新还新增Windows备份应用、支持通行密钥、创建Dev Drive选项、动态光效设置和自动色彩管理等功能。讲述人功能也新增音色品质更高的“自然语音”。更新还改进了防火墙通知对话框、锁屏界面的网络选项等界面。

具透 | Moment 4 更新详解:今年 Windows 11 的新功能,或许都在这里了

少数派
少数派 · 2023-10-08T10:28:32Z

本文比较了两个语音语料库,研究了格状句对于提高自然语音可懂性的效果,并发现噪音水平的增加使得格状句和自然句都表现出类似的变化,但在 alpha 比率的增加方面,格状句呈现出更大的增长。通过主观可懂性评估发现,EMALG 上训练的 StarGAN 模型在提高可懂性方面始终优于 LCT 上训练的模型,可能归因于 EMALG 中从正常语音到 Lombard 语音的 alpha 比率增长更大。

格网句与自然句对正常音量转化效果的比较研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-19T00:00:00Z

Windows 11 Beta推出新版本Build 22621.1835和Build 22631.1835,新增中文和西班牙语的旁白自然语音,可控制蜂窝网络使用,用户可在辅助功能里下载新的旁白语音。

微软发布Windows 11 Beta 22621/22631.1835 引入中文旁白自然语音

蓝点网
蓝点网 · 2023-06-09T03:03:12Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码