小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
2026年4月本周GitHub上最火9个开源项目,帮你省掉每月1500美元的AI工具订阅费

本周GitHub上出现了10个热门开源项目,这些项目能够替代高价AI工具,帮助用户每月节省高达1500美元。项目涵盖编程课程、上下文记忆和语音合成等,累计获得超过17万颗星标,反映出开发者对昂贵订阅费用的抵制。

2026年4月本周GitHub上最火9个开源项目,帮你省掉每月1500美元的AI工具订阅费

极道
极道 · 2026-04-17T12:28:00Z
微软一口气发布3个AI模型:能听、会说、还能画,实测后我有点意外

微软于4月2日发布了三款新模型:MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2。MAI-Image-2在图像生成方面表现优异,适合设计与创意;MAI-Transcribe-1在嘈杂环境中稳定,适合会议与客服;MAI-Voice-1提供自然语音合成,情绪可控。这些模型在稳定性和实用性上有所提升。

微软一口气发布3个AI模型:能听、会说、还能画,实测后我有点意外

dotNET跨平台
dotNET跨平台 · 2026-04-05T23:56:36Z

研究发现,Qwen的语音合成技术中,跨句合成的音色稳定性只能通过语音克隆实现。虽然可以通过语气指令调节音色,但无法确保跨句一致性。使用seed参数仅能在同一句话中保持一致。最终,通过生成wav文件并转换为pt文件,实现了稳定的音色,并可进行二次语气控制,效果令人满意。希望这些经验能帮助其他AI研究者。

Qwen TTS 跨句音色稳定输出技术的研究

Andy Stewart
Andy Stewart · 2026-03-26T16:00:00Z

在小龙虾的语音合成研发中,最初采用“前面流式,后面预取”的方案效果最佳。尝试全流式生成导致不稳定,体验差。最终认识到,AI方案已是最优解,强调承认已有方案的重要性。

分享一下我开发小龙虾流式语音的过程

Andy Stewart
Andy Stewart · 2026-03-24T16:00:00Z
有字幕,没配音?用浏览器自带语音能力,让网页视频直接“开口说话”

本文介绍如何利用浏览器的语音合成功能为网页视频添加配音,提升用户体验。通过简单代码实现“字幕转语音”,用户可享受更生动的视频内容。Edge浏览器支持多种语言和声音选择,操作简便,适合快速验证想法。

有字幕,没配音?用浏览器自带语音能力,让网页视频直接“开口说话”

dotNET跨平台
dotNET跨平台 · 2026-03-24T00:01:12Z
在线教程丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控

生成式AI的语音合成技术不断进步,Qwen3-TTS模型支持多语言、语音克隆和细粒度控制,已在HyperAI官网上线,用户可体验3秒语音克隆。

在线教程丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控

HyperAI超神经
HyperAI超神经 · 2026-03-03T05:52:33Z
连你的声音都是一个数据问题

Deepgram利用深度学习提升语音识别和合成能力,解决方言和噪音环境的挑战,并关注语音克隆的伦理问题。该公司致力于构建准确、可扩展且经济实惠的语音AI,推动语音技术的应用。

连你的声音都是一个数据问题

Stack Overflow Blog
Stack Overflow Blog · 2026-02-13T17:00:00Z
Twitter 推荐算法核心揭秘:个性化推荐与高性能特征生成 | 开源日报 No.844

the-algorithm 是 Twitter 的推荐算法源代码,负责动态内容推送,支持个性化推荐。style-aligned 用于生成风格对齐图像,兼容 SDXL 和 ControlNet。cherry-markdown 是轻量级 Markdown 编辑器,支持多种编辑模式。HierSpeech++ 是零-shot 语音合成系统,提供高质量的 TTS 和 VC 功能。LucidDreamer 用于生成 3D 场景。

Twitter 推荐算法核心揭秘:个性化推荐与高性能特征生成 | 开源日报 No.844

开源服务指南
开源服务指南 · 2026-01-08T07:35:57Z
IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性

近年来,零样本文本转语音(TTS)系统取得进展,但仍存在局部错误。西工大与喜马拉雅合作提出细粒度偏好优化(FPO),有效修复问题片段,提升语音合成的鲁棒性和数据效率。实验结果显示,FPO在可懂度和自然度上显著优于传统方法。

IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性

实时互动网
实时互动网 · 2026-01-05T03:19:58Z

Soul App开源了播客语音合成模型SoulX-Podcast,支持多轮对话和多方言,生成自然流畅的语音,尤其在语音克隆和长对话中表现优异,具备丰富的韵律和情感表达,推动AI与社交结合,提升用户体验。

Soul App开源播客语音合成模型,可流畅自然多轮语音对话,支持川粤豫等多方言与副语言风格

量子位
量子位 · 2025-10-29T08:35:27Z

火山引擎升级了豆包语音模型,增强了AI对情感的理解与表达。新模型支持多种语音指令和上下文引用,提高了语音合成的准确性和情感表现,广泛应用于多个场景,推动AI技术的实际应用。

新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!

量子位
量子位 · 2025-10-16T06:25:49Z
火山引擎全新发布和升级了四款豆包大模型

火山引擎在武汉发布了四款豆包大模型,升级至1.6版本,支持多种思考长度,并推出新语音合成和复刻模型。智能模型路由功能帮助企业优化模型选择,提升效率和降低成本。预计到2025年,豆包大模型日均调用量将突破30万亿,火山引擎在公有云市场占有率达49.2%。

火山引擎全新发布和升级了四款豆包大模型

实时互动网
实时互动网 · 2025-10-16T03:47:08Z

spring-ai-hunyuan项目已更新至1.0.0.2版本,新增思考链、语音识别(ASR)和语音合成(TTS)功能,提升文本生成场景的开发体验。项目源码已开源,集成简单,支持流式和阻塞式问答,适合数据驱动应用。

混元开源之力:spring-ai-hunyuan 项目功能升级与实战体验 - 努力的小雨

努力的小雨
努力的小雨 · 2025-09-18T01:18:00Z

这篇文章讨论了文本转语音(TTS)技术的不同模型及其表现,评论者对某些模型的声音质量表示不满,认为声音不自然且缺乏深度。文章提到开源项目如KittenTTS和Piper,强调它们在语音合成中的潜力和局限性,并展望未来本地化语音模型的可能性。整体上,文章反映了对TTS技术的关注和改进的期待。

Kitten TTS:这款 25MB 的 AI 语音模型即将改变一切(即使在低配设备上也能运行!🥔)

程序师
程序师 · 2025-08-14T01:25:09Z

在大语言模型(LLM)开发中,流式输出可以逐段生成内容,提升用户体验。语音合成(TTS)通常需要完整文本,导致延迟。通过中间件机制,将LLM的流式输出与TTS结合,可以实现边生成边朗读,从而提高交互流畅性。

让Micsoft Speech语音边加载边朗读

dotNET跨平台
dotNET跨平台 · 2025-08-07T00:02:12Z

MeloTTS是MIT与MyShell.ai联合开源的高质量语音合成工具,支持10种语言,具备CPU实时推理,完全免费,性能优于商业TTS,安装简单,适用于内容创作和教育培训,降低了语音合成的技术门槛。

6.2K Star!MIT出品的多语言语音合成神器,CPU实时推理吊打商业软件!

dotNET跨平台
dotNET跨平台 · 2025-07-28T00:01:59Z
IndexTTS2:用极致表现力颠覆听觉体验

IndexTTS2是B站语音团队推出的新一代语音合成模型,优化了情感表达和时长控制。该模型通过“时间编码”机制解决了传统模型的时长控制问题,实现了音色与情感的解耦,并支持基于文本的情感调节。IndexTTS2在多项测试中表现优异,推动了零样本语音合成技术的实用化。

IndexTTS2:用极致表现力颠覆听觉体验

实时互动网
实时互动网 · 2025-07-11T06:57:49Z
GStreamer 1.26.3 多媒体框架修复 H.266 视频解析器安全漏洞

GStreamer 发布了 1.26.3 版本,新增语音合成元素,改进视频编解码器检测,修复多个安全和性能问题,包括 H.266 视频解析器和 MP4 复用器的缺陷。此外,增强了 DASH 客户端和 WebRTC 功能,并进行了多项错误修复和稳定性改进。

GStreamer 1.26.3 多媒体框架修复 H.266 视频解析器安全漏洞

实时互动网
实时互动网 · 2025-06-30T02:36:03Z

科大讯飞升级语音合成技术,实现声音复刻与超拟人合成,提升相似度与准确度。新技术通过一句话录音精准还原用户声音特征,广泛应用于智能汽车和教育等领域,推动个性化需求发展。

科大讯飞语音合成技术升级,声音复刻与超拟人能力实现突破

量子位
量子位 · 2025-06-27T08:49:46Z
ReadSpeaker 的实时 TTS 如何提升 XR 和 RT3D 体验

ReadSpeaker推出speechEngine插件,旨在提升视频游戏的可访问性,克服传统TTS的局限。该插件通过实时语音合成,帮助开发者在不增加成本和时间的情况下实现动态语音交互,确保语音AI的道德使用,促进包容性解决方案的构建。

ReadSpeaker 的实时 TTS 如何提升 XR 和 RT3D 体验

实时互动网
实时互动网 · 2025-05-23T03:05:52Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码